국내에서 인공지능(AI)이 본격적으로 주목받기 시작한 것은 2016년입니다. 구글의 AI 전문 계열사 딥마인드의 바둑 AI인 알파고와 한국의 이세돌 기사 간 경기를 온 국민이 지켜봤죠. AI가 공상과학(SF) 영화 속에만 가능한 것이 아니란 것을 확인했습니다. 사람들이 AI를 직접 경험한 것은 이듬해부터입니다. SK텔레콤, KT, 네이버, 카카오 등이 잇따라 AI 스피커를 내놨죠. 사람의 말을 알아듣고 적절하게 대응하는 기기입니다. 이런 AI 스피커의 핵심 기술은 자연어처리(NLP)라고 합니다. 관련 기술의 마지막 단계는 영화 ‘그녀’에서 사만다일 겁니다. 사만다는 연인처럼 주인공의 공허한 삶을 채워주는 인간보다 인간 같은 AI입니다. 한경 긱스(Geeks)가 최근 급격히 커지는 NLP 시장을 한국 스타트업 중심으로 소개합니다.

흔한 것 같지만 높은 기술 수준이 필요한 AI 기술

최근 인공지능(AI) 분야에서 자연어처리(NLP) 관련 시장이 급격히 커지고 있다. AI 스피커, 챗봇 서비스, 전화 상담 등 다양한 곳에서 NLP 기술을 활용하고 있다. 관련 기술과 시장을 국내 유망 AI 스타트업이 혁신하고 있다는 평가다.

NLP는 컴퓨터와 사람의 언어 사이의 상호 작용에 대해 연구하는 AI의 주요 분야 중 하나다. 머신러닝을 통해 인간의 언어를 공부한 AI가 사람의 말이나 문자를 이해하고 다양한 업무를 처리한다. 학계에서 과학자들이 연구하던 NLP가 세상에 알려지기 시작한 것은 AI 스피커가 나오면서다. AI 스피커는 ‘오늘의 날씨는 어때?’, ‘신나는 음악 들려줘’ 등의 이용자의 말에 관련 정보나 서비스를 제공한다.
사람 같은 AI 만드는 '자연어처리' 기술…어떤 스타트업이 이끄나 [긱스]
맞춤법 검사 서비스도 NLP를 활용하는 대표적인 사례다. 사용자가 입력한 문장과 사전 정보를 대조해 어떤 단어의 표현이 잘못됐는지, 올바른 언어 사용법 등은 무엇인지 알려준다. 최근 많은 기업이 소비자의 제품에 대한 평가를 확인하기 이용하는 소셜네트워크(SNS)의 게시물 분석에도 NLP가 동원된다. 글로벌 통계 플랫폼 스태티스타(Statista)에 따르면 글로벌 NLP 관련 시장은 지난해 175억달러(약 25조 1090억원)에서 오는 2025년 433억달러(62조 1138억원)로 급격히 커질 전망이다.

높은 수준의 기술력이 필수인 NLP 산업에서 한국 스타트업이 주목받고 있다. 튜닙은 NLP, 초대규모 AI 등 고난도 AI 기술을 자체 개발하는 업체다. 카카오의 AI 전문 자회사 카카오브레인 출신의 NLP 엔지니어들이 주축으로 지난해 3월에 설립했다. 튜닙은 지난달 열린 글로벌 스타트업 축제 ‘스플래쉬 2022’에서 대상도 받았다. 앞서 튜닙은 ‘2022 인공지능 온라인 경진대회’에서도 과학기술정보통신부 장관상을 받기도 했다. 튜닙은 올해 들어 AI 기반 챗봇 서비스를 잇따라 내놨다. 지난 8월에 내놓은 여행 챗봇 ‘블루니’는 세계 어디든 다닐 수 있는 캐릭터다. AI 연구단체 오픈AI의 언어모델인 ‘GPT-3’에 기반으로 개발한 영어 챗봇이다. 해외 명소 등 여행을 주제로 한 가벼운 대화부터 깊이 있는 정보도 제공한다.
튜닙의 반려견 챗봇 코코 마스 대화 모습. 문자 이해를 넘어 정서적 교감이 가능하다. 튜닙 제공
튜닙의 반려견 챗봇 코코 마스 대화 모습. 문자 이해를 넘어 정서적 교감이 가능하다. 튜닙 제공
지난 5일에는 반려견 캐릭터 챗봇 코코와 마스의 시험 버전을 출시했다. 코코와 마스는 각각 다른 성격을 가진 강아지 캐릭터의 AI 챗봇이다. 이용자와 정서적 교감이 가능한 것이 특징으로 간식 주기, 산책하기 등 실제 반려견 같은 활동과 N행시 등 여러 게임을 함께할 수 있다. 문자의 이해를 넘어 사람과 정서적인 교감이 가능하도록 튜닙의 자체 개발한 언어모델로 1.2TB(테라바이트)에 달하는 양의 한국어 데이터를 학습시켰다. 코코와 마스는 카카오톡 채널에서 ‘DearMate 코코’, ‘DearMate 마스’를 친구로 추가하면 누구든지 이용 가능하다.

다양한 분야에서 쓰이는 NLP

구글코리아 연구개발(R&D) 총괄사장을 역임한 조원규 대표가 설립한 스켈터랩스도 챗봇을 앞세워 AI 서비스를 확대하고 있다. 스켈터랩스의 ‘AIQ(AI with Quality) 챗봇’은 높은 ‘의도 파악률’이 강점인 대화형 AI 솔루션이라고 회사 측은 설명했다. AIQ 챗봇은 스켈터랩스의 챗봇 기획 전문가가 고객사의 요구 사항과 관련 데이터를 기반으로 맞춤형 챗봇 시나리오를 직접 기획하는 방식으로 만든다. AIQ 챗봇의 지원 영역으로는 고객 문의 응대, 예약, 조회, 변경 사항 확인, 제품 소개 등이다. 롯데홈쇼핑, 퍼시스, 위대한상상(요기요) 등이 AIQ 챗봇을 사용하고 있다. 조 대표는 “고비용과 인력난 문제로 챗봇 도입을 망설이는 중소규모 사업자들의 디지털 전환을 돕기 위해 AIQ 챗봇의 공급 범위를 확대하고 있다”고 말했다.

글로벌 시장조사업체 CB인사이트가 매년 선정한 글로벌 ‘100대 AI 스타트업’에 올해 한국 기업으로 유일하게 이름을 올린 트웰브랩스도 NLP 업체다. 첨단 NLP와 컴퓨터 비전을 융합해 영상에서 원하는 장면을 찾는 기술을 개발했다. 이용자가 기억 나는 영화의 대사나 상황 묘사 등을 입력하면 해당 장면을 찾아낸다. 예를 들어 ‘아부지 뭐하시노’라고 치면 영화 ‘친구’의 교실 장면이 뜨는 식이다. 트웰브랩스은 기술력을 인정받아 지난 3월 시드(회사 설립 단계 투자)로 60억원을 유치했다. AI 분야의 세계적인 석학 페이페이 리 미국 스탠퍼드대 교수도 투자해 화제를 모았다.

NLP 스타트업 액션파워는 사람의 음성을 글자로 변화하는 서비스 다글로를 운영하고 있다. 지난 2017년에 나온 다글로는 자체 개발한 엔드투엔드(E2E) 음성인식 엔진을 채용해 정확도가 95% 정도라고 회사 측은 설명했다. 지원하는 언어는 한국어, 영어, 일본어, 중국어, 베트남어 등 총 14개다.
리턴제로의 비토. 통화를 음성으로 전환하는 서비스다. 숫자·영문자 표기도 가능하다. 비토 제공
리턴제로의 비토. 통화를 음성으로 전환하는 서비스다. 숫자·영문자 표기도 가능하다. 비토 제공
AI스타트업도 액션파워와 비슷한 서비스를 제공하고 있다. 리턴제로는 일명 ‘AI 전화’ 앱 비토는 통화 음성 내용을 글자로 바꿔주는 서비스다. 지난 7월에 나온 ‘비토 스피치’는 누구나 음성인식 문자변환 기술을 사용할 수 있는 오픈 API(응용프로그램 인터페이스) 솔루션이다. 리턴제로는 비토로 확보한 음성 데이터로 음성인식 정확도를 높인 AI 모델을 비토 스피치에 적용했다. 비토 관계자는 “비토의 핵심 기술인 소머즈 엔진은 한국어 특성상 정확히 인식하기 어려운 구어체와 자유 발화 등에 특화돼 소음에 노출된 통화 환경에서도 빠르고 정확한 텍스트 변환 기술을 보여준다”고 설명했다.

네이버와 카카오도 NLP 시장에서 경쟁

국내 정보기술(IT) 대기업들도 NLP 기술과 관련 서비스 개발에 회사 역량을 집중하고 있다. 이들은 NLP의 바탕인 일명 ‘초(超)대규모 AI’ 개발을 주도하고 있다. 네이버는 초거대 AI인 하이퍼클로바’를 지난해 처음 공개했다. AI 모델의 크기와 성능을 보여주는 매개 변수(파라미터)가 하이퍼클로바는 2040억 개다. 일론 머스크가 설립한 AI연구소 오픈AI의 ‘GPT-3(1750억 개)’를 넘어서는 수준이다. 하이퍼클로바는 GPT-3보다 한국어 데이터를 6500배 이상 학습했다는 것이 네이버 측 설명이다.
네이버의 AI 기술을 활용한 클로바노트. 음성을 글자로 변환해주고 관련 내용 요약 서비스도 제공한다. 네이버 제공
네이버의 AI 기술을 활용한 클로바노트. 음성을 글자로 변환해주고 관련 내용 요약 서비스도 제공한다. 네이버 제공
학습 데이터 중 한국어 비중이 97%에 달해 세계에서 가장 큰 한국어 거대 언어모델을 구축했다. 역대 최고의 자연어 처리 기반 AI로 평가받는 오픈AI의 GPT-3 API(프로그램 언어 형식)를 분석해보면 97%가 영어다. 한국어는 0.01%에 불과하다. 애초에 글로벌 인터넷상 한국어 데이터가 0.6%밖에 되지 않기 때문이다. 앞서 네이버는 AI 성능 향상과 대용량 데이터 처리를 위해 지난 2020년 국내 기업 최초로 700페타플롭(1페타플롭은 초당 1000조 회 연산 처리가 가능한 수준) 성능의 슈퍼컴퓨터를 도입했다.

카카오는 AI 전문 자회사 카카오브레인이 NLP 사업을 이끌고 있다. 지난 13일 ‘카카오디벨로퍼스’에 자체 개발한 한국어 특화 초거대 AI 언어 모델 ‘KoGPT’를 오픈 API(응용프로그램 인터페이스)로 공개했다. 카카오디벨로퍼스는 웹 서비스, 모바일 앱, 기타 응용 프로그램 개발에 필요한 플랫폼 및 카카오의 다양한 서비스와 연계할 수 있는 부가 기능을 제공하는 개발자 전용 웹사이트다.'KoGPT API'는 이용자가 입력한 한국어를 사전적, 문맥적으로 이해하고 이용자 의도에 적합한 문장을 생성하는 기능을 제공하는 도구다. 맥락과 의도에 따라 문장을 생성해 상품 소개글 작성, 감정 분석, 기계 독해, 기계 번역 등 높은 수준의 언어 과제를 해결하고 다양한 분야에서 활용할 수 있다고 카카오 측은 설명했다.

개발자는 쇼핑몰, 배달앱 등 다양한 서비스 개발 시 'KoGPT API'를 적용해 상품 광고 카피를 쉽게 만드는 등 마케팅 등에 활용할 수 있다. 예를 들어 이용자가 ‘곤약’, ‘워시’, ‘바디’, ‘트리트’, ‘샤워’, ‘보습’ 등의 핵심 키워드를 입력하면 ‘스크럽부터 보습까지?’라는 광고 문구를 자동 생성한다. 서비스 이용자들이 작성한 후기를 보고 긍·부정 판단은 물론 상품의 특징을 정확하게 파악하고 분류할 수도 있다. 예를 들어 ‘이번에 냉장고를 구매했는데 엄청 튼튼하고 지난번 구매했던 헤어드라이어보다 가격이 합리적’이라는 후기가 있다면 KoGPT가 ‘튼튼’이라는 단어를 이해해 해당 상품을 내구성이 뛰어난 제품으로 분류한다.

참 한 가지 더

“NLP 기술이 필요한 기업에 최고 B2B 서비스도 제공합니다”

박규병 튜닙 대표 인터뷰
사람 같은 AI 만드는 '자연어처리' 기술…어떤 스타트업이 이끄나 [긱스]
최근 유명 인터넷 게시판이나 소셜네트워크서비스(SNS)에서 일명 AI N행시가 인기를 끌었다. 이름을 입력하면 AI가 이름의 각 글자를 첫 글자로 삼아 짧은 글을 만들어내는 서비스다. 예를들어 ‘박명수’를 쓰면 ‘제된 상의 시간을 없이’라고 나오는 식이다. 결과물 수준이 높아 화제가 됐다. 해당 서비스는 AI스타트업 튜닙이 내놓은 것이다.

지난해 3월에 설립된 튜닙은 설립된 지 2년도 되지 않아 국내 NLP 기술 시장에서 가장 주목받는 업체 중 하나가 됐다. 창업자인 박규병 튜닙 대표는 카카오브레인 설립 단계부터 NLP팀을 이끌며 EMNLP, 인터스피치 등 해외 최고 권위의 AI 학회에서 10편 이상의 논문을 발표했다. 오픈소스 공유 플랫폼 깃허브 등 개발자 커뮤니티에서도 기술 역량을 인정받아 창업 당시부터 투자사와 개발자들로부터 관심을 끌었다. 지난해 11월 펄어비스캐피탈, 네이버, DSC인베스트먼트 등으로부터 30억 원 규모의 시드(회사 설립 전 단계) 투자를 유치했다.

박 대표는 “최근 메타버스 등 사람을 닮은 외모나 목소리를 만드는 기업이 많은데 튜닙은 기술 장벽이 높은 인간의 지능 같은 것을 만드는 업체”라며 “지능은 대화 등 언어로 증명할 수 있는데 이를 보여주는 것이 챗봇”이라고 설명했다. 튜닙은 최근 N행시, AI챗봇 블루니, 코코, 마스 등 B2C(기업과 개인 간 거래) AI 챗봇 서비스로 세상에 알려졌다. 해당 서비스를 만들면서 B2B(기업 대 기업 거래) 서비스도 자연스롭게 내놓게 됐다. 박 대표는 “사람들이 생각하는 것보다 인간의 언어라는 것은 굉장히 복잡하다”며 “AI 챗봇 작동에 필요한 여러 가지 기술을 만들었고 이를 최근 기업 대상 상품으로 출시했다”고 설명했다.

튜닙은 지난 8월 언어 관련 윤리성 판별, 비식별화 등 11 개 기능의 API오픈 API(응용프로그램 인터페이스) 제품을 출시했다. 튜닙이 공개한 서비스는 자체 개발한 NLP 엔진 기반의 한국어·영어 API 서비스다. 별도의 추가 코딩이나 배경지식 없이도 사용자가 원하는 단어나 문장을 입력하면 AI가 자동으로 인식해 적합한 결과를 제공한다.

‘윤리성 판별(Safety Check)’ API의 경우에는 사용자가 문자를 입력하면 튜닙의 딥러닝 모델이 문맥을 분석하고 혐오 표현을 자동 탐지해 모욕, 욕설, 폭력, 범죄 조장 등 11가지 항목으로 분류한다. 해당 혐오 표현의 심각성을 주의, 명백, 심각 등 3단계로 알려준다. 순화 표현으로 대체한 결과도 같이 제공한다.

튜닙의 ‘비식별화’ API는 개인정보보호 및 데이터 활용에 유용한 기능이다. 정부에서 발표한 개인정보 비식별 조치 가이드라인에 따라 사용자가 입력한 문장에서 이름, 주소, 전화번호, 주민등록번호 등 14개 개인정보 항목을 자동 판별해 삭제, 마스킹, 범주화 등의 방식으로 비식별화한다. 이외에도 텍스트 분석, 이미지 분석, 영상 분석, 방언 번역, 어린아이 목소리 합성, 감정 분류 등 다양한 서비스에 적용 가능한 API도 제공한다. 해당 11개 API는 튜닙의 홈페이지에서 데모 버전을 바로 확인할 수 있다.

일반 소비자에 N행시만큼 흥미로운 서비스는 정치 성향 예측 API다. 아무 글을 입력하면 글쓴이의 정치적인 성향을 보수, 진보, 중도 등의 비율로 보여준다. 박 대표는 “정치 성향 판단은 주관성이 강한 영역으로 정치 성향이 강한 인터넷 게시판의 글을 공부한 AI가 정치적인 성향을 추론한다”고 설명했다.

튜닙은 이번 API 공개를 시작으로 본격적인 B2B 및 B2B2C 사업 확장에 나섰다. 박 대표는 “IT 대기업보다 뛰어난 기술과 스타트업 특유의 빠른 사업 확장 속도로 국내 AI 서비스 시장을 혁신할 것”이라고 강조했다.

김주완 기자