알파고 제로

알파고 제로(AlphaGo Zero)는 딥마인드의 바둑 소프트웨어 알파고 버전이다. 알파고 팀은 2017년 10월 19일 네이처지에 인간 게임의 데이터를 사용하지 않고 생성되었으며 이전 버전보다 더 강력한 버전인 알파고 제로를 소개하는 기사를 게재했다. 알파고 제로는 자신과의 대결을 통해 100승 0패로 3일 만에 이세돌을 넘어섰고, 21일 만에 알파고 마스터 수준에 도달했으며, 40일 만에 모든 기존 버전을 넘어섰다.

인간 전문가로부터 파생된 데이터 세트 없이 인공지능(AI)을 교육하는 것은 초인적인 기술을 갖춘 AI 개발에 중요한 의미를 갖는다. 전문가 데이터는 "종종 비싸거나 신뢰할 수 없거나 간단히 사용할 수 없기" 때문이다. 딥마인드의 공동 창립자이자 CEO인 데미스 허사비스는 알파고 제로가 "더 이상 인간 지식의 한계에 얽매이지 않기 때문에" 매우 강력하다고 말했다. 또한 알파고 제로는 몬테카를로 트리 검색 통합으로 인해 표준 강화 딥러닝 모델(예: DQN 구현)보다 더 나은 성능을 발휘했다. 알파고의 네이처에 게재된 딥마인드 논문의 첫 번째 저자 중 한 명인 데이비드 실버(David Silver)는 인간에게서 학습할 필요성을 제거함으로써 AI 알고리즘을 일반화하는 것이 가능하다고 말했다.

구글은 나중에 바둑 외에 체스와 장기도 플레이할 수 있는 알파고 제로의 일반화된 버전인 알파제로를 개발했다. 2017년 12월 알파제로는 60승 40패로 3일 버전의 알파고 제로를 이겼고, 8시간의 훈련으로 엘로 규모에서 알파고 이세돌을 능가했다. 알파제로는 또한 최고의 체스 프로그램(스톡피시)과 최고의 장기 프로그램(엘모)을 이겼다.

알파제로

외부 링크

“AlphaGo Zero: Starting from scratch”. 2020년 1월 3일에 원본 문서에서 보존된 문서.
Singh, S.; Okun, A.; Jackson, A. (2017). “AOP”. 《Nature》 550 (7676): 336–337. Bibcode:2017Natur.550..336S. doi:10.1038/550336a. PMID 29052631. S2CID 4447445.
Silver, David; Schrittwieser, Julian; Simonyan, Karen; Antonoglou, Ioannis; Huang, Aja; Guez, Arthur; Hubert, Thomas; Baker, Lucas; Lai, Matthew; Bolton, Adrian; Chen, Yutian; Lillicrap, Timothy; Hui, Fan; Sifre, Laurent; Van Den Driessche, George; Graepel, Thore; Hassabis, Demis (2017). “Mastering the game of Go without human knowledge” (PDF). 《Nature》 550 (7676): 354–359. Bibcode:2017Natur.550..354S. doi:10.1038/nature24270. PMID 29052630. S2CID 205261034.
AlphaGo Zero Games