기보 없이 바둑 깨우친 '알파고 제로'…커제판보다 강해졌다

구글 '딥마인드' 네이처 발표

기존 '알파고' 기보 통해 배워
새 버전은 스스로 학습해
이기는 방법 터득하는 경지
"신소재 설계 등 활용 기대"
바둑 최고수를 모조리 꺾은 인공지능(AI) 프로그램 ‘알파고’를 능가하는 새 버전이 공개됐다. ‘알파고 제로’라는 이름의 이 AI는 인간의 도움을 받지 않고 철저히 독학으로 이 같은 경지에 올라 과학계의 비상한 관심을 받고 있다.

데미스 허사비스 구글 딥마인드 최고경영자(CEO)와 데이비드 실버 수석과학자 등 연구진은 지난해 바둑기사 이세돌 9단과 지난 5월 중국의 커제 9단을 제압한 인공지능 알파고를 능가한 알파고 제로를 개발했다고 국제학술지 네이처에 18일 공개했다.알파고는 지난해 3월 한국 바둑 고수 이세돌 9단과의 대국에서 4승1패로 승리하면서 AI 열풍을 불러왔다. 지난 5월에는 이보다 한층 강해진 알파고 새 버전이 세계 2관왕 커제 9단과의 대결에서 3전 전승을 거뒀다.

딥마인드가 이번에 공개한 알파고 제로는 이전 버전보다 승률이 높다. 이세돌을 꺾은 ‘알파고 리(Lee·이세돌 성에서 따옴)’보다 다섯 집 앞선다. 동일한 기준에서 바둑을 두면 백전백승하는 수준이다. 커제를 꺾은 알파고 마스터와의 대국에선 100번을 둬서 89번을 이겼다.

이세돌과 대국 당시 알파고는 인간 바둑기사가 둔 기보 16만 건을 학습했다. 커제를 누른 알파고 마스터는 바둑기사 기보를 일부 학습했지만 주로 자신과 똑같은 AI와 대국을 두며 이기는 법을 알아냈다.이번에 공개한 알파고 제로는 인간 바둑기사의 사고 방식이 담겨 있는 바둑 기보를 전혀 학습하지 않았다. 오로지 백지 상태에서 바둑을 두며 상대를 탐색하고 유리한 형세를 알아냈다. 알파고 제로는 490만 번 자기와의 대국을 통해 반복 훈련을 거쳤다. 딥마인드는 논문에서 알파고 제로가 3시간 만에 바둑 초심자처럼 상대 돌을 잡고 19시간 만에 바둑의 사활을 이해하며 70시간 만에 인간 바둑기사 수준에 이르렀다고 공개했다. 다음 수를 두는 데까지 평균 0.4초를 썼다. AI의 두뇌 역할을 하는 텐서플로프로세스유닛(TPU)도 알파고 리가 48개를 쓴 데 비해 알파고 제로는 고작 4개만 사용했다. 알고리즘을 대폭 간소화하면서 계산 부담을 줄였기 때문이다.

전산물리학자이자 얼마 전 바둑룰의 이해를 펴낸 김재업 UNIST(울산과학기술원) 물리학과 교수는 “인공지능이 사실상 백지상태에서도 한 번도 해보지 않은 새로운 게임이나 임무를 스스로 학습해 이기는 방법을 알아내는 경지까지 이르렀다는 점에서 획기적인 성과”라고 평가했다.

허사비스 CEO는 "인공지능이 단백질 구조 및 신소재 설계 등 현실의 문제를 해결하는 데 혁신을 이뤄낼 수 있기를 희망한다"고 했다.

박근태 기자 kunta@hankyung.com