김인중이 전하는 딥러닝의 세계<6> AI의 학습이란 무엇인가?

학습은 데이터기반 AI의 가장 중요한 요소다. 미디어에는 AI가 데이터로부터 스스로 지식을 학습하고 이를 이용해 지능적 작업을 수행한 성과들이 종종 보도된다. 그런데 AI의 학습이 정확히 무엇을 의미하는지 구체적인 설명은 생략되는 경우가 많다. AI가 지식을 데이터로부터 학습하는 이유는 무엇이고, AI는 데이터로부터 어떠한 지식을 어떻게 학습할까?

AI가 데이터로부터 지식을 배우는 이유

데이터기반 AI는 목표 작업을 수행하기 위한 지식이나 방법을 설계자가 제공하지 않아도 데이터만으로 고성능 AI를 개발할 수 있다는 점에서 매력적이다. 그러나 대규모 데이터 수집의 어려움, 학습에 요구되는 많은 계산량, 학습데이터와 이질적인 입력에 대한 성능 저하 등 여러가지 이론적, 현실적 한계를 갖는다. 최근 여러 기업들이 막대한 비용과 인프라를 투자해 개발하고 있는 초거대 AI모델 역시 현 데이터기반 AI의 기술적 한계와 비효율성을 노출하고 있다. 그렇다면 데이터를 이용해 AI를 학습시키는 대신 작업에 필요한 지식을 인간이 직접 제공하면 어떨까?
데이터가 아닌 지식을 직접 입력받아 목표 작업을 수행하는 AI를 지식기반 AI라고 하는데 이러한 방식은 AI 역사의 초기부터 많이 시도돼왔다. 그런데 지식기반 AI역시 여러가지 한계를 가지고 있다. 데이터기반 AI의 성능이 데이터의 양과 질에 좌우하는 것처럼 지식기반 AI의 성능은 AI가 보유한 지식의 양과 정확도에 좌우한다. 그런데 목표 작업이 복잡할 경우 이를 수행하기에 충분할만큼 완전하고 무결한 지식베이스를 구축하는 것은 매우 어렵다. 또한 지식의 완전성과 무결성을 유지하기 위해서는 기술 발전에 의해 지식이 확장될 때마다 새롭게 밝혀진 지식을 AI에 반영해야 한다. 예를 들어 지식기반 의료 AI의 성능을 유지, 개선하기 위해서는 새롭게 밝혀진 의학적 사실들을 지속적으로 AI 지식베이스에 추가해야 한다. 모호성이 있는 작업이나 불확실성 속에서의 판단이 요구되는 작업을 수행하기에 효과적이지 않다는 점 역시 지식기반 AI의 단점이다.
데이터기반 AI의 여러 한계에도 불구하고 대부분의 AI전문가들은 지식기반 AI로 회귀하는 것보다는 데이터기반 AI 기술을 발전시킴으로써 한계를 극복하는 것이 올바른 방향이라고 말한다. 지식기반 AI의 한계들을 극복하는 것이 더 어렵기 때문이다. 예를 들어 인간의 지적 활동 중에는 자전거가 넘어지지 않도록 운전하는 것이나 지인의 얼굴을 인식하는 것 등 그 방법을 정확히 설명하기 어려운 활동들이 많은데, 이러한 활동에 사용되는 지식은 말로 기술할 수 없는 암묵적 지식(tacit knowledge)이다. 암묵적 지식에 의해 수행되는 작업은 지식기반 AI로는 구현하기 어려워 향후 AI가 발전해도 인간과 같은 지능에 도달할 수 없으리라는 회의론의 근거로 언급되어왔다. 그러나 데이터기반 AI는 명시적 지식을 요구하지 않고 데이터로부터 지식을 스스로 습득하기 때문에 이러한 한계를 갖지 않는다.

AI는 데이터로부터 무엇을 배우는가?

AI는 분석, 예측, 합성, 변환, 제어 등 다양한 작업을 수행하며, AI가 다루는 데이터의 형태도 숫자, 영상, 음성, 텍스트 등 매우 다양하다. 그러나 대부분의 AI가 목표 작업을 수행하기 위해 배우는 것은 입출력 정보 간의 대응관계나 학습데이터의 확률분포다. AI가 수행하는 다수의 작업들은 입력 정보와 출력 정보 간의 대응관계에 의해 표현된다. 예를 들어 병을 진단하는 의료AI는 환자의 증상이나 의료영상을 입력 받아 병의 종류, 위치, 진행 정도 등을 출력하고, 추천AI는 상품 정보와 과거의 구매기록으로부터 고객이 각 상품을 선호할 확률을 출력한다. 이러한 작업들은 입출력 정보 간의 매핑을 근사함으로써 학습할 수 있다. 각 학습데이터에 대한 정답이 주어질 경우 교사학습기법이 사용되고 그렇지 않을 경우 비교사학습이나 강화학습 등 다른 기법들이 사용된다.
영상, 텍스트, 음성 등을 합성하는 AI들은 입력 정보가 주어지지 않거나 매우 적은 정보만을 입력받더라도 다양하고 복잡한 결과물을 출력한다. 이 경우 입력받는 정보가 없거나 부족하기 때문에 입출력 정보간 매핑만으로는 다양하고 품질이 우수한 결과물을 합성하기 어렵다. 이러한 문제를 해결하는 방법은 학습데이터의 분포를 학습하는 것이다. 예를 들어 강아지 영상을 합성하는 AI는 학습데이터로부터 강아지 영상의 분포를 학습하는데, 이 분포에서 강아지처럼 보이는 영상은 높은 확률을, 그렇지 않은 영상은 낮은 확률을 갖는다. 이는 강아지 영상의 특성들이 확률분포에 반영되기 때문이다. 모델이 학습데이터의 분포를 충분히 학습한 후 학습된 분포로부터 높은 확률을 갖는 데이터를 샘플링하면 학습데이터와 유사한 특성을 가진 강아지 영상을 얻을 수 있다. 합성된 영상의 품질과 다양성은 학습데이터의 품질과 AI모델이 학습한 확률분포의 정확도에 좌우한다.

AI의 학습은 어떻게 이루어지는가?

데이터기반 AI들은 입출력 데이터 간의 매핑이나 학습데이터의 분포를 학습하기 위해 다양한 수학적 모델들을 사용한다. 예를 들어 딥러닝에 사용되는 심층신경망은 동일한 입력이 주어지더라도 학습 파라미터(뉴런 간의 연결가중치)들에 따라 다른 결과를 출력한다. 연결가중치들을 잘 조정하면 학습데이터가 입력되었을 때 심층신경망이 그 데이터에 대한 정답과 유사한 결과를 출력하도록 만들 수 있다. 이러한 학습 과정은 함수 근사의 일종으로 볼 수 있으며 미분에 기반한 최적화 기법들이 주로 사용된다. 데이터의 분포를 학습하기 위해서는 좀 더 복잡한 방법이 사용된다. 널리 사용되는 방법은 심층신경망을 이용해 생성적 모델을 설계한 후 그 출력 분포가 학습데이터의 분포와 일치하도록 파라미터들을 최적화하는 것이다. 생성적 모델에 대해서는 추후 별도의 글을 통해 설명할 예정이다.
이와 같이 AI가 다양한 작업을 학습하는 원리는 복잡하지 않다. 그러나 실제로 영상, 텍스트, 음성과 같이 복잡한 데이터들의 매핑이나 확률 분포를 정확히 학습하는 것은 기술적으로 매우 어렵다. 최근 십 여년 간 딥러닝의 강력한 학습 능력에 힘입어 복잡한 데이터에 대한 분석 및 합성 기술이 많이 발전했음에도 불구하고 아직도 많은 응용분야에서 한계를 노출하고 있다. 그러나, AI 기술은 매우 빠르게 발전하고 있다. 매 학술대회마다 수 많은 연구성과가 발표되고 있는데 이들 중 다수는 현 AI기술의 한계에 대한 분석결과나 극복하기 위한 방법들을 제시하고 있다. 따라서 AI기술의 빠른 발전 속도는 당분간 유지되거나 오히려 가속되리라 전망되며 현 AI기술의 한계 역시 조금씩 극복되리라 기대한다.

한동대 교수