1년 전 이맘때 TV 방송에서 이미 고인이 된 가수 김광석 씨의 목소리를 인공지능(AI)이 정확히 재현하는 것을 봤다. 음색이 얼마나 감쪽같던지 젊은 시절 그의 노래를 좋아했던 필자도 잠시나마 행복한 추억에 빠져든 기억이 있다.

그사이 인공지능은 더 정교해져 목소리뿐 아니라 생김새, 동작까지 똑같은 가상 인간을 만들어 냈다. 인공지능 앵커의 뉴스를 시청하고, 인공지능이 만든 가상 인물이 TV 광고에 출연하기도 한다. 더 나아가, 유튜버로도 활동한다. 이제 현실과 가상세계를 구분하기 힘든 시대로 접어드는 듯하다.

이처럼 정교한 가상영상을 만들게 된 것은 ‘딥페이크(deepfake)’ 기술 덕이다. 딥페이크는 ‘딥러닝(deep learning, 심층 학습)’과 ‘페이크(fake, 가짜)’의 합성어로, 명칭에서 짐작 가듯이 인공지능이 실제 데이터를 학습해 ‘진짜 같은 가짜’를 만들어 낸다.

조만간 딥페이크는 현실 세계를 통째로 가상공간에 옮겨 놓을 것으로 보인다. 최근 주목받는 메타버스에 딥페이크가 적용되면, 현실과 구분이 힘든 공간을 경험하게 될 것이다. 현실과 가상의 경계는 점점 모호해져 가상세계가 일상이 되는 날도 머지않아 보인다.

딥페이크가 가상세계를 한걸음 앞당길 기술이라는 점 외에 필자가 특히 주목하는 것은 딥페이크가 인공지능의 성능 향상에 미치는 폭발적 잠재력이다.

수학을 공부할 때 ‘양질의’ 문제를 ‘많이’ 풀어야 실력이 늘듯, 인공지능도 ‘양질의’ 데이터를 ‘많이’ 학습해야 성능이 높아진다. 그러나 양질의 데이터를 확보하는 것이 녹록지 않아서, 관련 기업이 학습데이터를 수집·가공하는 데만 전체 개발비의 75%를 쓰고 있다고 한다. 특히 발생 빈도가 낮은 데이터(예: 도로에 갑자기 뛰어드는 동물의 로드킬 영상), 개인정보 데이터(예: 개인 얼굴, 의료 영상) 확보가 난제다.

딥페이크가 이 문제를 간단히 해결할 수 있다. 학습에 필요한 진짜 같은 가짜 데이터들을 충분히 만들어 낼 수 있기 때문이다. 이렇게 만든 데이터로 재학습해 인공지능의 성능을 높이는 과정을 반복하게 되면 인공지능은 더욱 똑똑해진다.

딥페이크를 이용한 데이터 증폭 기술의 중요성은 최근 특허청의 특허 분석에서도 확인된다. 2015년 37건에 불과했던 특허 신청이 2019년에는 1124건으로 30배 이상 급증했는데, 그만큼 각국이 딥페이크를 미래 유망기술로 보고 집중 투자한다는 뜻이다.

딥페이크를 이용한 학습데이터 시장은 기술력과 특허만 확보한다면 선점을 노려볼 만한 분야다. 우리가 인공지능 분야에서 선진국과 비교해 출발은 다소 늦었지만, 선택과 집중을 통해 딥페이크 세계시장을 이끄는 한국 기업들이 많이 배출되기를 기대해본다.