[김인중이 전하는 딥러닝의 세계] <7> 딥러닝 역사의 전환점들
AI의 역사에서 대중들에게 널리 알려진 사건들로는 1996년 딥블루가 세계챔피언 가리 카스파로프와의 체스대결에서 승리한 사건, 2011년 왓슨이 제퍼디 쇼에서 퀴즈의 최고수들을 압도한 사건, 그리고, 2016년 알파고가 이세돌 9단과의 대국에서 승리한 사건 등이 있다. 이러한 사건들은 대중들에게 AI에 대한 관심을 불러일으킴으로써 AI와 관련된 산업과 연구에 대한 투자가 활성화되는 계기가 되었다. 그러나, 기술적인 관점에서는 이들보다 훨씬 중요한 전환점들이 많다. 지금까지 AI 분야에는 수 많은 기술들이 출현하였으나 본 글에는 딥러닝을 중심으로 선정한 몇 가지 주요 기술들을 소개하겠다.

오류 역전파 학습 알고리즘

딥러닝의 기반이 되는 신경망은 꽤 오랜 역사를 가지고 있다. 세계 최초의 신경망이 1943년에 발표되었고, 현대 신경망의 주요 개념들을 소개한 퍼셉트론도 1957년에 개발되었다. 그러나 이들은 구조가 간단해서 단순한 작업들만 수행할 수 있었다. 신경망을 이용해 복잡한 작업을 수행하게 된 결정적인 계기는 다층 구조의 신경망을 학습할 수 있는 오류 역전파 알고리즘의 발견이다. 오류 역전파 알고리즘은 1986년 럼멜하트, 힌튼, 그리고 윌리엄스에 의해 개발되었는데 미분공식 중 하나인 연쇄법칙(chain rule)에서 유도되었다. 지금까지 수 많은 학습 알고리즘이 개발됐지만 오류 역전파 알고리즘은 딥러닝에서 가장 널리 사용되는 학습 알고리즘이다.

사전학습에 의한 딥러닝

계층의 수가 증가할수록 신경망은 더 복잡한 작업을 효율적으로 학습할 수 있다. 그러나, 계층이 매우 많은 심층신경망은 오류 역전파 알고리즘만으로는 잘 학습되지 않는다. 이러한 한계를 극복하게 된 계기는 2006년 힌튼이 개발한 심층신뢰망(DBN, deep belief network)이다. 뒤에 설명할 순환신경망 LSTM과 CNN이 각각 1997년과 1998년에 발표되었으나, 본격적인 딥러닝 시대의 시작을 알린 연구는 DBN으로 알려져 있다. DBN의 학습은 먼저 비지도학습 알고리즘에 의해 신경망을 사전학습(pre-train)한 후 일반적인 지도학습 알고리즘에 의해 학습함으로써 이루어진다. 이때 비지도 사전학습이 심층신경망의 학습에 어떠한 역할을 하는지에 대하여 다양한 연구가 있었는데 이는 최근 활발한 비지도학습 연구의 기반이 되고 있다.

CNN, 오류 역전파 알고리즘, 그리고 GPU의 만남

일반인들에게 딥러닝의 위력을 알린 사건이 이세돌-알파고 대국이었다면 AI연구자들 사이에 딥러닝을 알린 사건은 2012년 알렉스넷(AlexNet)이 ImageNet 대규모 영상인식 대회에서 우승한 사건이었다. 우리나라 AI연구자들이 딥러닝에 관심을 갖게 된 계기도 바로 알렉스넷이었다. 알렉스넷은 심층신경망 중에서도 영상처리에 특화된 CNN(합성곱 신경망)의 일종이다. CNN은 1980년에 개발되었으나 1998년 러쿤이 오류 역전파 알고리즘을 CNN에 성공적으로 적용함으로써 그 잠재력이 드러나기 시작했다. 알렉스넷은 많은 사람들에게 GPU를 이용해 구현된 최초의 CNN으로 알려져 있다. 그러나, 실제 CNN 학습에 GPU를 사용한 최초의 사례는 2011년 중국어 필기문자인식대회에서 우승한 시레산(Dan Cireșan)의 다중컬럼 CNN이다. CNN은 영상인식에 탁월한 성능을 보이지만 계산량이 많아 CPU만으로는 학습이 어려웠다. 그런데 GPU기반 병렬처리에 의해 많은 계산이 가능해지자 CNN은 그 성능을 유감없이 보이기 시작했고, 그에 따라 연구도 활발히 이루어졌다. 이 당시에 개발된 대표적인 기술로는 배치정규화와 잔차학습(residual learning) 등이 있는데 이들은 현재에도 매우 중요하게 사용되고 있다.

RNN에 의한 시계열 데이터 처리기술

역사적으로 딥러닝은 영상처리보다 음성인식 분야에 먼저 적용되었다. 그러나, 음성처리 및 자연어처리 분야에 본격적인 변화를 가져온 기술은 RNN(순환신경망)을 이용한 시계열(time-series) 데이터 분석 및 합성 기술이다. 그 전까지 심층신경망은 길이가 일정한 벡터 형태의 정보를 주로 처리할 수 있었는데, 텍스트나 음성과 같은 시계열 데이터는 길이가 일정하지 않아 딥러닝을 적용하는데 어려움이 있었다. 그러나, 2013~14년 RNN LSTM을 이용해 시계열 데이터를 분석하거나 합성하는 기술이 출현하였고, 이는 비슷한 시기에 발전한 단어 벡터화 기술과 결합하여 자연어 처리 분야에 큰 발전을 가져왔다. 현재 RNN은 병렬처리의 어려움과 학습 능력의 한계로 인해 2017년에 개발된 Transfomer에 의해 대부분 대체되었다. RNN에서 Transformer로의 발전 역시 딥러닝 역사의 큰 전환점이다. 그럼에도 불구하고 RNN 시대에 정립된 개념들은 아직도 자연어 및 음성 처리 기술의 근간을 이루고 있다.

생성적 모델과 비지도학습의 발전

딥러닝의 역사에 또 하나의 큰 획을 그은 연구는 2014년에 발표된 굿펠로우의 생성적 적대신경망(GAN)이다. 그 이전까지은 데이터를 분석하기 위한 기술은 많이 발전하였으나, 데이터를 합성하기 위한 기술은 그렇지 않았다. 생성적 적대신경망은 해커와 화이트 해커가 경쟁하며 발전하는 것과 유사한 원리에 의해 학습된다. GAN의 출현은 그 자체로 중요한 의미를 갖는다. 그러나, 그 이상으로 중요한 의미는 데이터를 합성하는 생성적 모델의 열풍을 촉발한 계기가 되었다는 점이다. 이러한 열풍을 타고 새로운 생성적 모델들도 개발되었으며, 과거에 있었던 다른 생성적 모델들에 대한 연구도 더욱 활발히 이루어졌다. 과거에는 AI가 분석은 할 수 있으나 창작은 어렵다는 인식이 있었다. 그러나, 현재의 생성적 모델들은 학습 데이터로부터 배운 지식을 이용해 학습 데이터와 유사한 영상, 텍스트, 음성 등을 합성한다. 무에서 유를 창조하는 창작에는 미치지 못하더라도 모방에 의한 창작까지는 가능해진 셈이다. 추가적으로, 생성적 모델들은 각 학습데이터에 대한 정답이 없이도 데이터만으로도 학습이 가능하기 때문에 최근 활발이 연구되고 있는 비지도학습의 핵심 기반 기술이다.
이와 같이 딥러닝의 역사 속에는 기존의 한계를 무너뜨린 창의적인 연구들이 무수히 많다. 이렇게 빠른 발전이 가능했던 이유는 딥러닝의 확장성에 있다. 딥러닝은 여러가지 아이디어를 포용하기 쉬운 유연한 구조를 가지고 있다. 실제로 연구자들은 머신러닝 분야에서 오랫동안 발전해 온 수 많은 기술과 개념들을 딥러닝에 결합함으로써 개선을 이루었다. 과거에도 우수한 성능을 보인 머신러닝 기술들이 많이 있었으나 딥러닝과 같은 확장성을 보인 기술은 아직까지 없었다. 이러한 확장성과 유연성이야말로 딥러닝의 미래를 더욱 기대하게 만드는 가장 중요한 이유이다.

김인중 한동대 교수