[다산칼럼] 알파고의 진화
심층학습(deep learning)에 바탕을 둔 인공지능(AI)이 워낙 빠르게 발전하다 보니 상황을 파악하기가 어렵다. 원래 기술은 깔끔하게 분류되지 않는데, 소프트웨어는 눈에 보이지도 않으니 더욱 답답하다. AI 연구를 규제해야 한다는 AI 전문가가 많은 것을 보면 전문가들도 마음이 어지럽기는 마찬가지인 듯하다.

이런 상황에서 AI의 발전을 파악하는 데 조금이나마 도움이 될 만한 것은 맨 먼저 대중 앞에 모습을 드러낸 심층학습 프로그램인 딥마인드 알파고(AlphaGo)의 진화다. 장기나 바둑 같은 ‘판경기(board game)’에서 먼저 AI가 개발된 것은 그것들이 잘 정의된 규칙과 완벽하게 통제된 상황을 제공하기 때문이다.

판경기는 (1) 두 경기자의 이익은 상반되고 (2) 유한한 착수 끝에 경기가 종료되고 (3) 경기자들은 모든 정보를 지니며 (4) 비기지 않으면 한쪽이 이길 수 있는 전략을 지닌다는 뜻에서 결말이 결정론적이다. 이른바 ‘2인 영합, 유한, 완전 정보, 결정론적 경기(two-person zero-sum, finite, perfect information, deterministic game)’다.

2016년 경기에서 알파고 리(AlphaGo Lee)는 이세돌을 4 대 1로 이겼다. 이 프로그램이 향상된 알파고 마스터(AlphaGo Master)는 당시 랭킹 1위 커제를 3 대 0으로 이겼다. 이 두 프로그램은 사람들의 기보(碁譜)에서 배웠다.

이어 나온 알파고 제로(AlphaGo Zero)는 사람의 도움 없이 스스로 바둑을 배웠다. 그리고 사람들의 기보에서 배운 알파고 마스터를 압도했다. 알파고 제로에서 바둑 특유의 지식을 제거하자 모든 판경기를 둘 수 있는 알파제로(AlphaZero)가 나왔다. 그렇게 일반화된 알파제로는 알파고 제로만이 아니라 모든 판경기 프로그램보다 실력이 월등했다. ‘적은 게 많은 거다(Less is more)’라는 속담이 극적으로 증명된 셈이다.

2019년에 딥마인드는 비디오 게임 스타크래프트II를 할 수 있는 알파스타(AlphaStar)를 발표했다. 스타크래프트는 판경기와 전혀 다르니, 정보가 불완전한 상태에서 실시간으로 진행되며 단 하나의 우세한 전략이 있는 것도 아니어서 비결정론적이다. 이처럼 전혀 다른 환경에서도 알파스타는 그랜드마스터(상위 0.2%)가 됐다.

알파고 시리즈는 계산생물학(computational biology)에서 진면목을 드러냈다. 단백질은 아미노산들의 사슬인데, 그 사슬은 자연스럽게 접혀서 3차원 구조를 이룬다. 이런 구조가 단백질의 생물적 기능을 결정한다. 단백질 접힘(protein folding)이라고 불리는 이 과정은 너무 복잡해서 알려진 것이 거의 없었고 생물학에서 시급한 과제 가운데 하나였다. 2018년 모습을 드러낸 알파폴드(AlphaFold)는 두드러진 능력을 보였고 이 분야의 발전에 크게 기여했다. 특히 코로나바이러스 SARS-CoV-2의 돌기 단백질(spike protein) 구조를 놀랄 만큼 정확하게 예측했다.

1948년 앨런 튜링은 아직 존재하지 않는 컴퓨터를 위한 서양 장기 프로그램을 쓰기 시작했다. 그 작업이 70년 뒤에 코로나바이러스 백신을 만드는 데 큰 도움을 줬다는 사실은 내 가슴에 잔잔한 감동의 물결을 일으킨다. 이제 인류 문명은 AI 없이는 생존할 수 없다. 그리고 AI가 빨리 발전할수록 인류 문명의 생존 가능성도 높아진다. 지구를 달구는 기후 변화만 하더라도 근본적 대응은 발전된 기술에서 나올 터다.

바둑판에서 가능한 착점들은 우주 원자들의 총수보다 많다. 단백질의 구조는 바둑과는 비교가 되지 않게 복잡하다. 따라서 가능성이 없는 길들을 버리고 가능성이 높은 길들을 집중적으로 검토하는 것이 긴요하다. 그 점에서 인간 지능이나 인공지능이나 같은 방식으로 움직인다. 사람이 자연의 일부이니 인공지능도 궁극적으로는 자연계에 존재하는 지능의 일부다. 알파고의 경이적 진화는 그 평범하지만 심오한 진리를 일깨워준다.