알파고에 100전100승 거둔 ‘알파고 제로’ 등장···인간 지식 없이 스스로 학습해 창의성 발휘

2017.10.19 02:00

구글 딥마인드 팀이 인간 최고수들을 격파한 ‘알파고’를 압도하는 새 인공지능 ‘알파고 제로’를 공개했다. 지금까지의 인공지능이 외부에서 데이터와 인간 지식의 도움을 받아야 했다면 알파고 제로는 대국상대 없이 순수히 독학만으로 인간이 수천년 동안 개발한 바둑 이론을 깨달았다.

구글 딥마인드의 창업자인 데미스 허사비스 최고경영자(CEO) 등 이 회사 소속 연구원 17명은 19일(한국시간) 이런 내용을 포함한 ‘인간 지식 없이 바둑을 마스터하기’라는 논문을 과학 학술지 ‘네이처’에 발표했다.

인공지능은 음성인식과 영상인식, 유전학과 신약 개발에 동원된다. 모두 방대한 양의 데이터와 전문 지식의 도움을 받아야 한다. 지난해 3월 ‘구글 딥마인드 챌린지’에서 이세돌 9단을 이겼던 구글 딥마인드의 ‘알파고 리’ 역시 7개월 간 기보 데이터를 학습했고 이세돌을 비롯한 수천명의 인간 고수들과의 대국을 거치면서 실력을 키웠다. 이런 방식의 인공지능 학습을 ‘지도학습’(supervised learning)으로 부른다.

바둑에서 가능한 수는 우주에 있는 원자의 수보다 많은 것으로 알려졌다. 이런 경우의 수를 줄이는 것이 바둑의 원리 혹은 이치이며 알파고 제로는 스스로 학습해 이런 이치를 깨달았다. 딥마인드 제공

바둑에서 가능한 수는 우주에 있는 원자의 수보다 많은 것으로 알려졌다. 이런 경우의 수를 줄이는 것이 바둑의 원리 혹은 이치이며 알파고 제로는 스스로 학습해 이런 이치를 깨달았다. 딥마인드 제공

허사비스는 이번 연구 결과를 설명하는 ‘백지 상태에서의 학습’이라는 글에서 “인간 지식은 너무 비싸고 신뢰할 수 없거나 이용할 수 없는 경우가 있다는 문제가 있다”라며 “인공지능 연구의 오랜 과제는 어떤 인간의 도움 없이도 초인적인 문제 해결 능력을 보이는 알고리즘을 만들어 이런 단계를 건너뛰는 것이었다”고 말했다.

인공지능을 훈련시키기 위해 방대한 데이터를 수집·입력하고 전문가의 지식을 동원하는데는 많은 비용과 시간이 걸린다. 인간의 잘못된 지식이나 선입견이 오히려 인공지능 학습에 한계가 될 수 있는 편향으로 작용할 수 있다.

최근에는 이런 문제를 극복하기 위해 인공지능이 스스로 수많은 시행착오를 통해 요령을 터득하는 ‘강화학습’(reinforcement learning)에 대한 연구가 활발하다. 이런 강화학습은 인간의 지식 자체가 부족하거나 전무한 새로운 분야를 연구하는 데 큰 도움이 될 수 있다.

훈련 시간에 따른 알파고 제로와 알파고 리의 실력 비교 파란 점선이 알파고 리의 실력, 파란 실선이 독학한 알파고 제로의 실력, 보라색 실선이 인간으로부터 배우는 방식으로 바둑을 익힌 알파고 제로의 실력. 네이처 제공

훈련 시간에 따른 알파고 제로와 알파고 리의 실력 비교 파란 점선이 알파고 리의 실력, 파란 실선이 독학한 알파고 제로의 실력, 보라색 실선이 인간으로부터 배우는 방식으로 바둑을 익힌 알파고 제로의 실력. 네이처 제공

알파고 제로와 기존 알파고 버전의 컴퓨팅 파워를 비교한 그림. DeepMind 제공

알파고 제로와 기존 알파고 버전의 컴퓨팅 파워를 비교한 그림. DeepMind 제공

강화학습 방식으로 만들어진 알파고 제로는 지금까지 나온 알파고 버전들 중 가장 강력하다. 알파고 제로는 72시간 독학을 한 후 ‘알파고 리’와 대국한 결과 100전 100승을 기록했다. 한 수에 0.4초가 걸리는 ‘초속기’ 바둑으로 490만판을 혼자 두고 쌓은 결과다. 40일에 걸쳐 2900만 판을 혼자 둔 후에는 올해 5월 세계랭킹 1위 커제 9단을 3대 0으로 꺾었던 ‘알파고 마스터’의 실력마저 압도했다. 알파고 제로는 알파고 마스터에 100전 89승 11패를 거뒀다. 알파고 제로는 강화학습으로 바둑의 이치를 스스로 깨달았을뿐만아니라 새로운 정석을 개발하기도 했다.

논문에는 ‘엘로(Elo)’ 방식 점수 비교도 실려 있다. 대개 프로 9단이 2940점 이상으로 평가된다. 엘로 점수 차가 200점이면 승률 비가 75%대 25%정도다. 366점 차는 90% 대 10%, 677점 차는 99% 대 1%, 800점 이상이면 사실상 100% 대 0%에 해당한다. 알파고 제로의 엘로 점수는 5185점이었고, 알파고 마스터가 4858점으로 그 다음이었다. 알파고 리의 점수는 3739점, 알파고 판은 3144점이었다.

기존 알파고가 수를 정하고 각 수별로 승률을 평가하는 두 개의 신경망을 사용했다면 기존 알파고는 이를 통합한 하나의 신경망만 사용했다. 그러나 알고리즘의 큰 틀은 같았다. 두 인공지능의 가장 큰 차이는 ‘인간으로부터 배웠느냐, 아니냐’이다. 교신저자인 데미스 허사비스와 공동 제1저자 3명 중 한 명인 데이비드 실버는 알파고 제로가 기존 버전들보다 강한 이유에 대해 “인간 지식의 한계에 더 이상 속박되지 않기 때문”이라고 설명했다. 알파고 제로는 컴퓨팅 파워도 크게 줄였다. 이세돌과 대결했던 알파고가 TPU(텐서프로세싱유닛) 48개를 쓴 반면, 알파고 제로는 4개로 구동한다. TPU는 인공지능에 특화돼 구글이 만든 칩이다.

이번 결과에 대해 이정원 한국전자통신연구원(ETRI) 선임연구원은 “인간에게서 하나도 배운 것이 없는 상태에서 자기만의 이론을 만들었다는 점에서 창의성이 있다고 볼 수 있다”며 “아무런 사전 지식이나 데이터 없이도 훨씬 더 강력한 인공지능을 만들었다는 점에서 이전 알파고보다 더 놀라운 성과라고 본다”고 말했다. 이정원 선임연구원은 알파고 제로가 보여준 강화학습의 확장성도 높이 평가했다. 강화학습은 시행착오가 있을 때 그 잘하고 못하는 정도를 정확히 평가할 수 있는 체계가 있는 문제라면 어디에도 적용할 수 있다. 그는 단백질 구조 분석을 이런 유형의 문제로 옮겨 놓기만 한다면 새로운 단백질 구조를 만드는 것도 가능할 것이라고 봤다.

구글 딥마인드는 블로그 글에서 “알파고 제로는 새로운 지식을 발견하고, 통상적이지 않은 전략을 개발하는 한편 새로운 수를 창조했다”며 “우리는 인공지능의 이런 창조력을 보고 사람의 독창성을 배가할 수 있다고 확신했다”고 밝혔다. 허사비스는 “인공지능으로 인류가 직면한 중요한 문제들을 해결하는 걸 도울 수 있다”며 “알파고 제로에 적용된 것과 비슷한 기술이 단백질 접힘(각 단백질에 고유한 접힌 구조가 만들어지는 과정)과 에너지 소비 절감, 혁신적인 신소재 개발과 같은 다른 구조적 문제에 적용되면 사회에 긍정적 영향을 미치는 혁신을 낳을 것이다”라고 말했다.

추천기사

바로가기 링크 설명

화제의 추천 정보

    오늘의 인기 정보

      추천 이슈

      내 뉴스플리에 저장