:: 게시판
:: 이전 게시판
|
- 자유 주제로 사용할 수 있는 게시판입니다.
- 토론 게시판의 용도를 겸합니다.
통합규정 1.3 이용안내 인용"Pgr은 '명문화된 삭제규정'이 반드시 필요하지 않은 분을 환영합니다.법 없이도 사는 사람, 남에게 상처를 주지 않으면서 같이 이야기 나눌 수 있는 분이면 좋겠습니다."
16/03/18 15:46
잘 봤습니다. 그런데 제가 알파고 알고리즘을 공부하면서 풀리지 않는 질문이 있어서 여쭤보고자 합니다.
데미스 하사비스는 '몬테카를로 트리서치 알고리즘에 randomness가 있다' 라고 분명히 말했습니다. 그런데 제가 알기로 알파고가 쓰는 MCTS에 랜덤 요소는 없습니다. 있다고 해 봐야 rollout policy인데, 일반적인 MCTS와는 달리 알파고는 정해진 법칙(rollout network?)에 따라서 게임 끝까지 rollout 하기 때문에 전혀 랜덤요소가 없을 것 같습니다. policy network, value network는 물론이고요. 설마 계산된 Q+u(t) value가 같은 경우에 랜덤하게 선택할까요? 몇몇 사람들은 이렇게 설명하기는 하는데, 저는 Q값이 절대로 같을 수가 없을 것 같습니다. 그리고 정말 몇억분의 1의 확률로 거의 같다고 하더라도, 조금이라도 높은 수를 선택하지 랜덤하게 고르지는 않을 것 같습니다. MCTS의 무작위성, 어떻게 생각하시나요?
16/03/18 16:01
정책망으로 착점들 추린다음, MCTS 해서 20수 이후에 백만개의 경우의 수에 대한 판세(승리확률)를
가치망으로 분석해본결과 승리확률이 아주아주 미세한 차이일경우에는 높은 확률을 택하는게 별 의미가 없습니다. 또 어떤 경우에는 확률 값차이가 컴퓨터 수치계산시에 발생하는 오차한계 이내에 있을수도 있고요. 이럴경우 랜덤이 들어가리라 봅니다.
16/03/18 16:13
저도 아직까지는 논문에서 랜덤 요소를 발견하지 못했습니다만, M탈모 아저씨가 그렇게 얘기했다면 제가 놓친 부분이 있을 것으로 생각됩니다. 혹시 발견하게 되면 말씀드리겠습니다.
16/03/18 16:42
fast rollout policy의 결과로 확률분포가 나온다고 하셨으니, 시뮬레이션 단계에서 확률분포를 기반으로 예상 착수지점 몇 곳을 랜덤으로 고르는 것 같습니다. Tracking 분야에서 유명한 알고리즘인 particle filter와 같은 알고리즘들이 이런 방법을 기반으로 MC를 적용하여 동작한다고 알고있어요.
16/03/18 16:55
논문에 "and second, by the outcome z_L of a random rollout played out until terminal step T using the fast rollout policy p_pi" 라는 표현이 있긴 합니다.
16/03/18 16:54
http://www.bloter.net/archives/251758
MCTS에 랜덤 요소가 있다고 했던 하사비스 인터뷰 링크입니다. 오랫동안 궁금했던 부분인데, 찾게 되면 꼭 공유해 주시면 감사드리겠습니다.
16/03/18 15:46
github 에 알파고 따라하는 프로젝트 소스가 등록이 되어있던데, 이런 내용이 들어갔는지 분석해보면 재미있겠네요! 잘 읽었습니다. 다음편도 빨리요~!
16/03/18 16:11
아싸! 퇴근하고 할 일 생김!!
감사합니다. ^^ 이 글에서 제일 설레는 부분은 역시나 막줄의 "꼐속"이군요. 담편도 기대하고 있겠습니다.
16/03/18 19:48
알파고에서 그동안 최근 딥러닝 인공지능에서 쓰던 모델이나 최적화방법 보다 특이한 뭔가를 더 쓴건가 했는데, 위의 글대로라면 cnn을 충실히 섞어서 몬테카를로와 결합한거네요 물로 그 자체만으로 이정도 성능을 구현한 구현력은 대단한거지만요.
어쨌든 앞으로 조교가 시범 보이고 눈!으로 보고 따라해라고 가르치는 류는 모두 로봇이 인간을 대체할수 있을것 같네요 젤 위험한 직군은 인건비가 많이드는 컴터를 사용한 단순 반복업무 직군들이네요
16/03/18 21:06
cnn+몬테카를로스라는 부분에 적극 동감합니다.. 논문을 읽다보니 RL 의 기여도가 생각보다 많이 낮습니다..
괜히 RL 써서 오버피팅만 만들었다는 느낌조차 들 정도입니다.. 개인적으로 정말 궁금한게 RL 을 완전히 배제하고 SL 로 대체했을때 성능이 어느정도 나올까 하는 점입니다. 이렇게 토론할 자리를 마련해주신 원글자분께 정말 감사드리며.. 다음 글이 정말 기대됩니다.. 이 부분에 대해서 토론할 기회가 있었으면 합니다...
16/03/18 21:26
RL의 기여도가 낮다니요? 기존의 5급 1급 하던 바둑 프로그램이 바로 그 SR만 쓴 프로그램들입니다. RL로 self-learning 하면서 이세돌9단을 이기는 알파고가 완성된 건데, RL이 의미가 없다니요....
16/03/18 21:44
SL, RL이 각각 supervised learning, reinforcement learning을 의미한다면 둘의 성능에 대한 언급이 논문에 있습니다. "When played head-to-head, the RL policy network won more than 80% of games against the SL policy network." SL로 대체하면 성능이 많이 떨어지지 않을까요?
16/03/18 22:42
순수하게 SL policy 와 과 RL policy 만 대결시에는 RL policy 가 우월하지만 알파고의 최종 모습인 MTCS 결합에 쓰이는 policy 로는 SL policy 가 좋다고 나와 있습니다
"It is worth noting that the SL policy network pσ performed better in AlphaGo than the stronger RL policy network pρ, presumably because humans select a diverse beam of promising moves, whereas RL optimizes for the single best move" 그렇다면 결론적으로는 RL policy network 가 알파고 최종 모습에 기여한 부분은 value network 를 학습시키기 위한 데이터 기보를 만드는데 있다고 보입니다.. 거기서는 RL policy 가 SL policy 보다는 좋다고 논문에 써있구요.. 그런데 value network 는 직접적으로 MTSC 에 쓰이는게 아니라 fast rollout 과 5:5 비율로 쓰입니다... 결국 RL policy 는 간접적으로(value network 학습 데이터 생성용) MTSC 에 적용되는데 그 마저도 fast rollout 과 반띵을 하죠.. 그런 의미에서 원래 생각했던것보다 RL 의 의미가 적다고 말씀드린겁니다.. (혹시 제가 오독했을수도 있으니.. 논문 한번 확인 부탁드립니다..)
16/03/19 14:03
논문 뒷부분을 좀 더 읽어보니 그런 언급이 있었네요. jjune님 말씀도 일리는 있습니다. 그러나 정책망과 Rollouts만 썼을 때와 정책망, 가치망, Rollouts을 모두 썼을 때의 Elo rating 비교에서 차이가 꽤 나므로(2400 vs 2900) 가치망을 만들어낸 것 만으로도 RL이 의미 있었다고 할 수 있지 않을까 합니다.
|