:: 게시판
:: 이전 게시판
|
- PGR21 관련된 질문 및 건의는 [건의 게시판]을 이용바랍니다.
- (2013년 3월 이전) 오래된 질문글은 [이전 질문 게시판]에 있습니다. 통합 규정을 준수해 주십시오. (2015.12.25.)
통합규정 1.3 이용안내 인용"Pgr은 '명문화된 삭제규정'이 반드시 필요하지 않은 분을 환영합니다.법 없이도 사는 사람, 남에게 상처를 주지 않으면서 같이 이야기 나눌 수 있는 분이면 좋겠습니다."
16/03/11 20:45
질 수 있는 수를 둔다기 보다는, 예를 들어 연산 가능한 경우를 모두 살펴봤을때 이 수를 두면 승률이 40%인 위치가 가장 좋은 위치라면 거기다 둬야겠죠..
그리고 내부적으로 몬테카를로 트리를 갖고 있다고 했으니까, 전혀 새로운 패턴이 나와도 아는 패턴일때와 마찬가지로 후보가 되는 위치를 정해서 병렬처리로 해당 위치들에 대한 승률 계산을 돌려보겠죠..
16/03/11 21:15
알파고의 시스템에 대해서 개인적으로 가장 충격적이었던 부분을 나무위키 '알파고 vs 이세돌' 문서에서 긁어옵니다.
이 글에 따르면 알파고는 흔히 우리가 생각하는 것처럼 바둑을 두고있는게 아니다라고 한다. 즉, 한 사람이 계속 앉아서 계속 생각해서 바둑을 두고 있다라는 흔히 생각하는 바둑의 모습은 Recurrent neural network라는 것인데, 알파고는 RNN이 아니라 Convolution neural network를 사용하기 때문에 '과거의 수를 바탕으로 현재와 미래의 수를 예측한다'와는 다르다는 것. CNN은 매수매수 다른 사람이 찾아와 앞의 수의 의도를 무시하고 현재 주어진 환경에서 최적의 수를 찾는다라는 게 특징이라는 것이다. 더 쉽게 얘기하자면 이런 얘기가 된다. 우선, 두 사람이(A와 B) 바둑을 둔다고 생각해보자. 이때 이세돌을 100명을 복사해서 A와 B의 바둑을 전혀 알 수 없는 골방같은데에 따로 둔다. 이때 B가 30수쯤 두었을때 중간에 이세돌1을 불러서 묻는다. "어, 지금 이상황에서 뭐가 제일 좋을까?" 이세돌1은 B가 왜 이렇게 앞서 30수를 두었는지 알리가 없고, 다만 바둑판을 보고 "어, 잘 모르겠는데 현재 바둑판에 보이는 상황에서는 여기에 두는게 베스트일것 같아"라고 말할 것이다. B가 31수째 둘때, 다시 이세돌2를 불러서 똑같이 묻는다. 그러면 이세돌2도 앞선 상황을 모르기 때문에 똑같은 식으로 조언할 것이다. 그러니까 알파고는 186수를 두었다면 1수부터 186수까지 이런짓을 되풀이했다는 점이다. 사람이라면 이런 식의 바둑 메커니즘을 배우는 것은 거의 불가능에 가깝다. 우선, 1) 사람은 알파고처럼 초당 몇백만수의 연산을 할 수 없고, 2) 감정을 가진 사람이라면, "나는 이 게임이 이길지 질지 모르지만 앞서 내가 둔 XX수가 어떻게 되었든 간에 지금 이 바둑판이 나한테 처음 보여진 바둑판이라고 생각하고 최선의 수를 두겠어!"라는 식으로 마인드를 매 1수마다 가지는 것이 불가능하다. 만약에 사람이 이런 바둑을 둔다면 그 사람은 CNN 메커니즘의 특징상 멘탈 데미지 면역일 것이다. 왜냐하면 RNN 메커니즘은 과거/현재/미래 세가지를 고려한다면 CNN은 현재/미래 두가지만을 고려하기 때문이다. 그렇기 때문에 CNN메커니즘의 바둑을 두는 사람이 존재할 수 있다면, 그 사람은 앞서 둔 수에 대한 후회따위는 할 수가 없다. 매수마다 지금 보고있는 바둑판을 초기 상태로 놓고 사고하기 시작하므로. 결과적으로 승부에 패배하더라도 10판을 지든 1000판을 지든 그에 의한 멘탈 데미지는 0에 수렴할듯.
|