오픈AI가 만든 언어모델 GPT-3
인간의 언어 이해하고 구사 가능
자동번역·챗봇·음성비서 기능
백과사전 내용 모두 입력한 후
AI가 단어간 연관성 파악·학습
통계확률적으로 계산, 질문에 답
글 요약, 기사, 칼럼도 쓸수 있어
고객관리·카피라이터 역할 가능
세계적 CRM업체 세일즈포스
GPT-3 활용한 시험에 나서
2020년 6월 글로벌 인공지능(AI) 연구기관 오픈AI가 발표한 연구 논문은 학계와 업계는 물론 일반인까지 충격에 빠지게 했다. 오픈AI는 이 논문에서 자체 개발한 초대형 AI 기반의 언어 생성 모델 GPT-3를 공개했다. 이 언어 모델이 작성한 뉴스 기사는 인간이 쓴 것과 구별이 어려웠고, GPT-3로 구현한 챗봇과의 대화는 이전과 비교할 수 없이 세련됐다. 딥마인드의 알파고 이후 AI가 세상의 주목을 받은 순간이었다. 2022년 5월, SK텔레콤은 GPT-3 기반 ‘성장형 AI 서비스, A.(에이닷)’을 공개했다. GPT-3가 무엇이길래 관심을 받았는지, GPT-3의 현재진행형 에이닷이 나온 배경은 무엇인지 살펴본다. GPT-3는 오픈AI가 개발한 AI 언어 모델인 GPT의 3세대 모델이다. AI 언어 모델은 기계가 인간의 언어를 이해하고, 구사할 수 있도록 하는 기술이다. 자동번역이나 챗봇, 음성 비서를 생각하면 된다.
SK텔레콤이 ‘일상의 디지털 메이트, A.(에이닷)’의 iOS 오픈 베타 버전을 지난 22일부터 앱스토어에 공개했다고 밝혔다. 사진은 에이닷의 iOS 버전을 사용 중인 모델. /SK텔레콤 제공 GPT를 직역하면 ‘생성적 사전학습 트랜스포머’다. ‘생성적’은 변수들의 관계를 밝히는 데 쓰이는 통계적 모델을 의미한다. 트랜스포머(변환기)는 구글이 2018년 개발한 딥러닝 모델 중 하나로, 대량의 데이터를 학습하는 데 유용해 AI 언어 모델이나 AI 비전에서 활발하게 사용되고 있다.
GPT-3는 기존 AI 언어 모델보다 더 많은 데이터를 학습할 수 있는 구조를 목표로 개발됐다. 웹에 존재하는 45테라바이트(TB)의 방대한 텍스트와 책들, 위키피디아를 학습한 결과 언어 구사 능력이 매우 뛰어남을 보여줬다.
어떻게 사람처럼 대화하고 글을 쓸까
GPT와 같은 AI 언어 모델들은 방대한 텍스트 데이터를 입력받아 문장 내 단어 사이의 연관성을 스스로 찾는 비지도 학습을 통해 좀 더 높은 언어 지능을 얻는 것을 목표로 한다. 이런 AI 언어 모델의 출발은 자연어 처리 기술(NLP)이다. 초기에는 문법과 같은 언어 규칙을 기계가 잘 이해할 수 있는 형태로 만드는 데 초점을 뒀다. 그러다 컴퓨터의 연산 속도와 디지털화된 데이터의 증가, 딥러닝 등이 AI 언어 모델에도 도입되면서 컴퓨터가 스스로 학습하게 됐다.
예를 들어 ‘한국의 수도는 어디인가’를 묻는 데 답하는 경우를 생각해 보자. 초기의 자연어 처리를 이용한 전문가 시스템이라면 문법 규칙을 정의한 컴퓨터 프로그램이 질문 문장을 분석하고, 지식 데이터 검색을 통해 ‘서울’이라는 후보 답안을 찾고, 다시 문법 규칙에 맞춰 ‘한국의 수도는 서울입니다’라고 출력한다.
이에 비해 GPT-3와 같은 AI 언어 모델은 백과사전을 모두 입력해 AI가 스스로 단어 간 연관성을 파악하도록 한다. 스스로 학습을 통해서 한국, 미국, 서울, 제주, 수도, 도시 등에서 한국, 수도와는 서울이 가장 잘 연결된다는 것을 통계확률적으로 계산해 내는 것이다.
GPT-3의 대답 과정은 사람이 질문한 ‘한국의 수도는 어디인가’에 이어질 단어로 확률이 가장 높은 후보는 ‘한국의’이고, 이어서 나올 후보 단어는 ‘수도는’, 마지막으로 ‘서울입니다’를 순차적으로 알아내는 것이라고 단순화할 수 있다. 이런 지능은 백과사전 글의 사전 학습을 통해 얻은 것이다. GPT-3는 이런 단어들의 관계를 한국, 서울, 수도의 3차원이 아니라 거대 규모의 차원으로 계산하기 때문에 짧은 문장 하나가 아니라 기사나 짧은 에세이 정도 분량의 문장으로 단어들을 이어갈 수 있다.
어디에 실제로 쓰일까
에이닷 로고 GPT-3는 딥러닝을 이용해 그럴듯한 문장 번역, 작문, 텍스트, 자연스러운 언어 표현을 바탕으로 한 감성 대화 등의 결과물을 만들어 업계의 큰 주목을 받았다. 초기 GPT-3 API가 외부 개발자에게 공개됐을 때 GPT-3 기반 앱만 300개가 만들어졌다. 국내외 빅테크들이 AI 모델을 개발하고, 서비스 개발에 속도를 내게 되는 계기도 됐다.
AI 언어 모델의 활용처는 챗봇이나 AI 음성비서, AI 자동번역 외에도 다양하다. 예를 들면 고객의 소리를 모아서 자동으로 요약하거나 문제가 무엇인지 파악하는 데 사용할 수 있다. 세계에서 가장 유명한 고객관리시스템(CRM) 업체인 세일즈포스가 GPT-3를 이용한 시험을 하고 있다.
글을 요약하거나, 뉴스 기사와 칼럼을 쓸 수도 있다. 어떤 제품에 대한 기사나 SNS 글을 모아 입력하면 마케팅에 활용할 문구를 뽑아내는 카피라이터 역할이 가능하다. 각종 영수증이나 급여명세서 등을 다양한 형태로 입력해도, 그 언어들을 이해해 가계부와 회계장부를 작성해 줄 수도 있다.
단어 간의 관계 학습이라는 점에서 프로그래밍 언어를 학습시키면 코딩도 시킬 수 있다. ‘타이틀과 버튼, 입력란이 있는 웹 페이지를 만들어줘’라는 요청에 웹 코딩 결과로 답한다든지, 간단한 데이터 추출용 코드를 만들어 낸다든지 하는 GPT-3 API 활용 코딩 예제를 쉽게 찾아볼 수 있다.
왜 GPT-3가 주목받았을까
GPT-3는 영국 언론 가디언에 ‘나는 인간을 파괴할 생각이 없다’라는 기고문을 쓰며 주목받았다. 당시 가디언 편집국은 AI가 작성한 글을 편집하는 것이 칼럼니스트의 글을 수정하는 것과 크게 다르지 않았다고 밝혔다. 또한 GPT-3가 작성한 뉴스 기사가 기존에 사람이 작성한 기사인지 판별하는 테스트에서 실험자들은 평균 52%로 구분에 성공했다고 한다. 가장 확률이 낮은 것은 12%의 실험자들만이 AI 작성 기사일 것이라고 추측하는 데 성공했다.
GPT-3가 유사 AI 언어 모델이나 이전 세대의 GPT 기술과 다르게 다가온 것은 학습 데이터의 엄청난 양과 이를 처리할 수 있는 모델의 구조 때문이었다. GPT-3는 방대한 양의 데이터 세트(3000억 개의 토큰)와 매개변수(1750억 개)를 갖췄다고 알려졌다.
AI의 기술 발전은 곧 매개변수 수를 높이는 것이라 할 정도로 매개변수가 많을수록 AI는 더 정교한 학습이 가능하다. GPT-3는 이런 결과로 높은 언어 수준을 갖출 수 있었다.
언어 모델의 규모가 10배, 100배 이상 커져서 GPT-3 수준에 이를 때, 모델의 테스트 정확도는 0~20% 선에서 50~60%를 넘어서는 수준으로 높아져 쓸 만한 언어 지능이 확보될 수 있다는 가능성을 GPT-3가 보여준 것이다. GPT-3의 AI 언어 모델 자체는 완전히 새로운 것은 아니지만, 양적인 변화가 임계치를 넘어서는 것만으로도 질적인 차원의 변화를 가져온다는 점을 보여줬다. 이 때문에 구글, 마이크로소프트, 메타 등도 AI 언어 모델 규모의 거대화 경쟁에 합류했다. 우리나라 빅테크들의 투자와 연구도 활발한 상황이다.
SK텔레콤, 토종 GPT-3에 지속 투자
GPT-3를 개발한 오픈AI의 사례를 보듯, 향후 AI 언어 모델을 보유한 기업이 미래 시장에서 경쟁우위를 점할 것으로 보고 SK텔레콤은 2018년부터 AI 언어 모델을 개발해왔다. 특히 GPT-3에 이용된 데이터가 대부분 영어 기반이기 때문에 한국어 AI 중심의 토종 GPT-3 개발에 지속 투자해왔다.
SK텔레콤은 2019년 KoBERT를 개발해 고객센터 챗봇 등에 활용하고 있다. 2020년 4월 KoGPT-2 개발을 완료해 챗봇의 대화를 더 자연스럽게 발전시켰다. 2020년 10월에는 뉴스나 문서를 고품질 요약문으로 만들어 내는 등 텍스트 처리 역량이 뛰어난 KoBART를 개발해 자연어 이해 및 처리 영역 기술력을 강화했다. 작년 4월에는 국립국어원과 한국어에 적합한 차세대 AI 언어모델 개발 업무 협약을 체결했다. 올해 5월에는 SK텔레콤이 자체 개발한 GPT-3 기반 한국어 특화 버전이 탑재된 AI 서비스 에이닷의 안드로이드 오픈 베타 버전을 공개했다.
에이닷은 ‘따뜻한 기술’로 고객의 불편을 바로잡고, 모바일 환경에서 고객에게 좀 더 도움이 되는 서비스를 제공하겠다는 SK텔레콤의 ‘AI 서비스 컴퍼니’를 향한 지향점을 담고 있다.
에이닷에 탑재된 AI 언어 모델은 SK텔레콤이 GPT-3 구조를 기반으로 한국어 특화 버전을 자체 개발해 일반 소비자를 대상으로 내놓은 첫 번째 AI 서비스다. GPT-3를 기반으로 일상적인 대화와 고객이 요구하는 특정 작업 처리를 자연스럽게 결합했다.
에이닷을 설치한 이용자들은 나만의 개성을 반영한 캐릭터를 만들고 꾸밀 수 있으며, AI 캐릭터와 음성 대화 또는 문자를 통해 자유롭게 대화하고 궁금한 정보를 물어볼 수 있다. T맵, UT, 플로, 웨이브 등을 앱 안에서 편리하게 이용할 수 있다.
SK텔레콤이 서울시와 함께 구축하고 있는 차세대 지능형 교통 시스템(C-ITS) 적용 지역을 확대했다고 27일 밝혔다. C-ITS는 자율주행 실현을 위한 기반 기술로 꼽힌다. 차량과 도로 등 각종 교통 인프라를 5세대(5G) 이동통신으로 연결하는 것이 골자다.SK텔레콤은 서울시와 C-ITS 실증사업의 일환으로 서울 상암 일대에 자율주행차 시범운행 지구를 구축했다. 정보통신기술(ICT)을 기반으로 자율주행 차량이 운행할 수 있는 지역이다.기존엔 상암 문화비축기지 인근 상업·주거지역 일부였던 시범운행 지구를 월드컵경기장, 난지한강공원, 하늘공원 일대 등으로 대폭 확대했다. 시범운영 지구를 운행하는 자율주행차는 서울시가 제공하는 V2X(차량·사물 간 통신) 단말기를 통해 SK텔레콤의 안전 운행 정보를 받을 수 있다.SK텔레콤은 디지털 트윈 기술을 활용해 상암 자율주행 시범운영 지구를 3차원(3D) 모델로 만들어 서울 미래 모빌리티센터의 자율주행 관제 시스템과 연동했다. 차량과 신호 정보, 위험 알림 등 정보를 통합 관제할 수 있다. 서울시 등은 디지털트윈을 자율주행 시뮬레이터로도 활용할 방침이다.상암 일대 총 32.3㎞ 길이 24개 도로엔 신호제어기와 불법주정차 카메라, 어린이보호구역 감지 카메라 등 교통 인프라가 대폭 확충됐다. 이를 기반으로 어린이보호구역 진입 알림, 보행자 알림, 돌발상황 폐쇄회로TV(CCTV) 영상 등 안전 운행에 도움을 주는 서비스를 추가 제공한다는 게 SK텔레콤의 설명이다.SK텔레콤은 2019년부터 서울시 C-ITS 실증사업을 해왔다. 그간 시내 주요 도로에 5G 센서와 사물인터넷(IoT) 인프라를 구축했다. 시내버스와 택시엔 5G 첨단 운전자 지원 시스템(ADAS)을 장착했다. SK그룹 관계사인 티맵모빌리티의 내비게이션 티맵을 통해선 주요 교차로 신호 정보를 제공하고 있다.선한결 기자 always@hankyung.com
정보통신기술(ICT) 기업들이 자동차를 ‘바퀴 달린 스마트폰’으로 만들고 있다. 통합형 차량 인포테인먼트(IVI) 시스템을 통해서다. 인포테인먼트는 인포메이션(정보)과 엔터테인먼트(즐거움)의 합성어다. 차량 시스템을 통해 내비게이션, 차량 관리와 날씨 관련 정보, 음악·영상 등을 아울러 제공하는 서비스를 뜻한다. ○LGU+, 렉서스·도요타에 IVI 장착LG유플러스는 최근 렉서스코리아, 도요타코리아와 통합 IVI 플랫폼 계약을 체결했다. 두 브랜드가 국내 시장에 출시하는 완성차 대부분에 유플러스드라이브(U+Drive) 기반 IVI 플랫폼을 장착한다.음성 명령만으로 차량 목적지를 설정하고 차량 공조기를 제어할 수 있다. 미디어 기능으로는 LG유플러스의 온라인동영상서비스(OTT) U+모바일tv와 야구 중계 서비스 플랫폼 U+프로야구를 넣는다. 오디오 플랫폼 지니뮤직·팟빵 등도 탑재한다. 차량 내 IVI를 LG유플러스의 스마트홈 플랫폼과 연동해 차 안에서 집안 가전기기를 제어할 수도 있다. LG유플러스는 앞서 쌍용차와 푸조, 닛산 등에도 IVI를 공급했다.SK텔레콤은 작년까지 산하에 뒀던 티맵모빌리티와 함께 IVI 사업을 벌였다. BMW, 재규어 등에 IVI를 공급했다. SK텔레콤은 작년 11월 SK스퀘어가 분사해 나가면서 일부 완성차 브랜드와의 IVI 계약을 티맵모빌리티로 이관한 것으로 알려졌다.대표적인 게 구글 안드로이드 운영체제(OS)를 쓰는 볼보자동차 전 모델에 티맵 IVI를 장착하는 계약이다. 티맵 IVI는 SK텔레콤의 인공지능(AI) 플랫폼 ‘누구(NUGU)’를 기반으로 한다. 음악 스트리밍 플랫폼 플로(FLO) 등 SK그룹 관계사들의 각종 미디어 서비스도 연동한다.티맵모빌리티와 볼보는 2년여간 약 300억원을 들여 볼보 전용 IVI를 개발했다. 내비게이션 T맵 서비스의 기존 구성을 차량 계기판과 헤드업디스플레이(HUD) 등 자동차 환경에 맞게 재설계했다. 양사는 자율주행용 지도, 차량 내 결제 솔루션 등의 기능을 개발해 IVI에 들일 계획이다.KT는 최대주주로 있는 지니뮤직을 통해 완성차들과 협력하고 있다. 지니뮤직은 현대자동차와 기아, 테슬라 등 차량에 스트리밍 서비스를 적용했다. IVI 시스템을 통해 스트리밍 서비스를 이용하면 스마트폰을 차량과 블루투스로 연결해 서비스를 쓸 때보다 더 많은 기능을 활용할 수 있다는 설명이다. ○네이버도 IVI 연구 … 향후 새 먹거리네이버는 자사 웹 브라우저 웨일을 기반으로 한 IVI 시스템 웨일오토를 연구하고 있다. 작년 말 자사 개발자 콘퍼런스에서 관련 중간 결과를 발표했다. 웨일오토 앱을 통해 차량 내 좌석, 공조장치 등을 성공적으로 제어했다는 게 주요 내용이다. 네이버 관계자는 “자동차를 비롯한 여러 디바이스 환경에서 웨일 운영체제가 사용자에게 편리함을 제공하는 기반 기술이 될 수 있게 할 것”이라고 말했다.ICT기업엔 IVI 시스템이 중장기 새 먹거리가 될 수 있다. 완성차업체들과 한 번 공급 계약을 맺으면 수년간 매출이 보장된다. 계약금과 함께 차량 한 대가 팔릴 때마다 장착된 IVI 시스템에 대해 완성차기업이 IVI 기업에 로열티를 지급하는 구조다. 차량 구입 후 첫 3~5년은 IVI를 무료로 쓸 수 있고, 이후엔 유료로 전환하는 모델이 대부분이라 향후 구독료 매출도 기대할 수 있다.한국자동차연구원에 따르면 차량 기능 관련 구독 서비스 채택률이 30%까지 늘어나면 국내 자동차 서비스 부문 영업이익 총규모는 1180억달러(약 150조원)에 달할 전망이다.선한결 기자 always@hankyung.com
한글은 초성과 중성, 종성을 사용해 1만 개 이상의 문자를 만들어낸다. 인류가 고안한 문자 가운데 가장 우수하다는 평가를 받는 이유다. 오늘날 한글과컴퓨터를 있게 한 ‘한컴오피스 한글’은 이런 한글 창제의 과학적 원리를 그대로 적용한 워드프로세서다. 각각의 자모를 조합해 하나의 글자를 만드는 조합형 문자코드를 사용한 최초의 소프트웨어(SW)로 ‘디지털 한글’의 시대를 열었다. ○하숙방에서 탄생한 한글 1.0한글이 처음 등장한 것은 1989년 4월이다. 서울대 동아리인 컴퓨터연구회에서 만난 이찬진(전 한컴 대표) 김택진(엔씨소프트 대표) 우원식(전 엔씨소프트 CTO) 김형집(전 엔씨소프트 부사장) 등이 하숙방에서 “편리한 한글 프로세서를 우리 손으로 만들어보자”고 의기투합한 지 6개월여 만에 한글 1.0이 나왔다.당시 도스(DOS) 운영체제(OS)에서도 한글을 쓸 수 있는 워드프로세서는 있었다. 하지만 이런 프로세서들은 글자를 미리 만들어 컴퓨터에 기억시켰다가 키보드를 통해 입력된 글자와 대조해 이미지가 일치하는 것을 내보내는 완성형 방식이었다. 이 때문에 미리 입력한 글자 2350개만 구현할 수 있었다. 가령 똠방각하와 펩시콜라를 입력하면 각각 또M방각하와 페P시콜라로 표현됐다.당시 한글은 한글 초성·중성·종성을 조합해 만들 수 있는 1만1172자를 완벽하게 표현해냈다. 그뿐만 아니라 옛 한글까지도 구현할 수 있었다. 국가 표준이던 두벌식 자판은 물론 공병우 박사가 고안한 세벌식 자판도 지원해 기존 워드프로세서와 차별화했다. 한컴 관계자는 “한글을 기점으로 한글은 쓰는 시대를 지나치는 시대로 전환됐다”며 “사람들은 책상에 놓인 흰 종이가 아니라 컴퓨터 화면을 보고 키보드 자판기를 두드리게 됐다”고 강조했다. ○국민이 살려낸 한글한글은 DOS가 설치된 어떤 PC에서도 쉽게 한글을 입력할 수 있다는 장점으로 선풍적 인기를 끌었다. 한글 첫 번째 버전이 나온 다음해인 1990년 10월 9일 한글날 한글과컴퓨터가 정식으로 설립됐다. 1993년 국내 소프트웨어업계 최초로 연간 매출이 100억원을 넘어섰다. 1996년 9월 코스닥시장에 상장했다. 한때 한글의 워드프로세서 시장 점유율은 90%에 육박했다.한글 덕분에 한국은 ‘MS 워드’가 장악하지 못한 몇 안 되는 시장으로 남아있었다. 하지만 1990년대 후반 불법 복제가 만연하고 외환위기까지 닥치면서 부도 직전까지 내몰리기도 했다. 당시 마이크로소프트는 한컴에 2000만달러를 투자하는 조건으로 한글 개발을 하지 않을 것을 내걸었다. 당시 경영진은 마이크로소프트의 조건을 받아들였지만 한글 이용자와 한글학자, 벤처기업가를 중심으로 ‘한글 살리기 운동’이 벌어졌다. 한컴은 마이크로소프트의 제안을 거절했다. 당시 1만원의 가격으로 한글을 1년간 쓸 수 있는 사용권을 판매하는 ‘한글 815’ 버전이 출시돼 200만 장 가까이 팔려나가기도 했다. ○오피스 SW로 해외 시장도 공략한글이 30년 이상 사용되고 있는 가장 큰 이유는 한글 문서 작성에 최적화됐기 때문이다. 특히 한국식 문서에서 빼놓을 수 없는 각종 표와 서식을 만드는 데는 다른 프로세서와 비교하기 어려울 정도로 편하다는 평가다.한컴은 워드프로세서를 넘어 오피스 소프트웨어 전반으로 사업 영역을 확대했다. 2016년 내놓은 한컴오피스 네오(NEO)는 MS 오피스와의 호환성과 다국어 버전의 제품, 문서 번역 기능 등을 앞세워 MS 오피스의 대체제로 관심을 얻었다. 2014년부터는 별도의 프로그램 설치 없이 문서를 편집할 수 있는 한컴오피스 웹도 내놨다. 한컴 관계자는 “한국 시장에서 30% 이상 시장 점유율을 확보하고 있다”며 “오랜 기간 마이크로소프트와 경쟁하며 국내 시장을 지켜온 기술력을 바탕으로 PC, 모바일, 웹에 이르는 풀 오피스 라인업을 구축했다”고 설명했다.한컴은 오피스 소프트웨어의 구독형 서비스 도입 등 한컴오피스의 서비스 모델 전환을 추진하고 있다. 클라우드 사업 확장을 위해 국내외 주요 기업과 협력 관계를 강화하고 자체 서비스 대중화에도 집중하고 있다.회사 관계자는 “해외 홀딩스를 통해 글로벌 SaaS(서비스형 소프트웨어) 시장을 공략하는 한편 API(응용프로그래밍 인터페이스), SDK(소프트웨어개발키트) 분야까지 확장함으로써 기술 중심의 서비스화 전략을 추진할 것”이라며 “기존 사업 및 신규 사업들을 더 탄탄한 데이터 분석 기반에서 육성할 수 있도록 적극적인 기업 인수 등을 통해 역량 확보에 나설 계획”이라고 강조했다.이승우 기자 leeswoo@hankyung.com