세상을 먼저 떠난 일곱 살 딸 나연이를 다시 만났다. 가상현실(VR) 기술로 생전 딸의 모습, 목소리를 그대로 재현했다. 엄마는 딸과 생전에 하지 않았던 대화도 나눴다. 2020년 많은 시청자를 울린 한 방송사의 다큐멘터리 내용이다. 목소리는 생전에 녹음된 음성을 바탕으로 인공지능(AI)을 활용해 만들었다. 국내에서 최고 수준으로 평가받고 있는 스타트업 네오사피엔스의 음성 합성 기술이다. 해당 다큐멘터리로 세상에 알려진 네오사피엔스가 최근에는 유튜버가 선호하는 서비스로 주목을 받고 있다. 김태수 네오사피엔스 대표를 한경 긱스(Geeks)가 만났다.
사진=임대철 기자
사진=임대철 기자
김 대표는 국내 대표적인 AI 음성 기술 전문가다. KAIST 대학원에서 머신러닝을 이용한 음성·멀티미디어 신호처리를 전공했다. LG전자와 퀄컴 등에서 10년 이상 음성인식, 음질향상, 소리인식 등의 기술을 활용한 제품을 개발했다. LG전자에서 여러 사람의 목소리를 분리하는 기술을 만들었고, 퀄컴의 핵심 기술인 ‘스냅드래곤 보이스액티베이션’을 개발했다. 2019년 'AI 성우' 서비스 타입캐스트를 출시했다. 누적 가입자 수가 최근 155만 명을 넘어섰다. 유료 이용자 수는 지난 3년 동안 18배 급증했다. 68개국에서 돈을 내고 타입캐스트를 사용하고 있다. 지난해 국내 유튜브 쇼츠(짧은 영상) 부문에서 최다 시청자를 기록한 유튜브 채널 ‘1분요리 뚝딱이형’에 나오는 목소리를 타입캐스트에서 만들었다. 설립 당시 2명이었던 직원은 지금은 60명이 넘는다. 보통 스타트업의 연간 퇴사율은 50%가 넘는다. 하지만 네오사피엔스는 20%대 초반을 유지하고 있다.

Q. 직원 퇴사율이 낮은 편입니다.
A. 조직 문화가 정말 훌륭하다고 생각합니다. 그런데 증빙할 방법이 없어서요(웃음) 그동안 말을 제대로 못했습니다. 조직 문화 담당하는 리더가 따로 있어요. 2년 전부터 계속 관련 업무를 봤습니다. HR 리더죠. 사내에 피플 러닝 세션이라고 있어요. 피플 이슈에 대해서 교육할 것들, 조직 문화, 비전 공유 등이 잘 되는지 매달 체크하고 있죠. 분기별로 컬처 데이라고 정해서 아예 하루를 날을 잡아서 하루 종일 사무실에 관련 행사를 합니다.회사의 방향과 정책 등을 공유하는 행사죠.

Q. 2년 전이면 사내 문화보다는 성장에 더 신경 써야 할 시기 아닌가요.
A. 지금은 직원이 70명 가까이 됩니다. 2년 전은 20명 좀 넘어갈 시기였어요. 사실 어떻게 보면 그 정도 규모 조직에서 대표가 혼자 (HR업무를)할 수도 있다고 사람들이 생각하는데요. 생각해 보면 거기서 그냥 계속 머무르면 상관없어요. 그런데 그다음에 우리가 목표한 매출이 매년 두 배 이상 성장해 왔죠. 사람 숫자로 두 배 증가하면 20명이 40명이 되는 겁니다. 그러면 절반이 아예 새로운 사람이 들어오는 거잖아요. 새로운 20명이 회사에 온보딩해야 해요. 대표이사와 코파운더들의 철학, 회사 문화, 이런 것들을 잘 흡수해도 일하는 방식은 20명이 들어오면 완전히 다르게 변해버립니다. 절반이 기존과 다르잖아요. 20명 중에 10명이 나가고 20명이 추가로 입사하면 회사 문화로 보면 완전히 다른 회사가 되는 거죠. 여기서 생길 수 있는 문제를 방지하기 위해 조직문화 업무를 맡는 직원을 뽑아서 새로운 사람을 온보딩시키고 일하는 방식이라든지 우리가 그동안 잘 성장시킨 것을 계속 주입하는 거죠. 그렇게 계속 한 팀으로 가야 됩니다. 우리가 잘하던 방식을 계속 전파할 수가 있고요. 조직이 커지더라도 잡음이 안 생기고 더 빠르게 성장시킬 수 있거든요.

Q. 네오사피엔스가 첫 창업입니다. 관련해서 시행착오한 경험도 없었을 것 같습니다.
A. 예전 직장인 퀄컴이 한국에 R&D센터를 세웠고 본사 임원이 한국에 왔습니다. 스타트업처럼 성장한 조직이죠. 사람 한두 명 뽑아서 프로젝트를 셋업하고 제품을 만들어서 본사의 프로덕트 라인으로 집어넣는 이런 일을 했었죠. 스타트업에서 제품 만들어서 출시하는 것과 흡사합니다. 거기서 엔지니어를 계속 뽑다 보니 처음에 1명 시작하다가 10명, 20명, 30명 확 늘었죠. 위계질서도 생기고 룰도 만들고요. 아예 없던 조직이었기 때문에 그런 걸 했거든요. KAIST 선후배들 중 스타트업을 했던 사람들이 꽤 있거든요. 실패한 쪽도 있었고 성공한 쪽도 있었는데요. 그런 분들이 인력과 조직 문화에 대해서 많이 얘기해서 간접 경험도 있습니다.

Q. 네오사피엔스의 사내 복지는 무엇이 있나요.
A. 뭔가 한도를 정해서 지원하는 방식을 피하려고 합니다. 예를 들어 듣고 싶은 강의가 있으면 마음대로 수강할 수 있습니다. 대신 관련해서 간단한 리포트를 쓰게 합니다. 외국어 공부도 있고요. 회사 지원금으로 운동도 하고요.

Q. 직원 중 한 달에 최고 얼마까지 교육비로 쓰나요.
A. 제가 전부 보고 있지는 않아서요. 100만원 정도 쓰는 분이 있는 걸로 알아요.

Q. 휴가 제도는 어떤지 궁금합니다.
A. 마음대로 사용할 수 있습니다.

Q. 사내 복지만으로 인재 확보가 가능한가요.
A. 사실 사내 복지를 내세우지 않아요. 이걸 외부에 일부러 알리지 않죠. 오히려 숨기는 편이거든요(웃음) 기대가 크면 실망도 클 수 있거든요. 그런 것보다는 우리 회사의 비전과 가치, 일하는 방식, 우리 기술력 등에 관심 있는 분과 일하고 싶어요. 그런데 회사에 왔더니 사내 복지도 잘 돼 있네. 이런 만족감도 얻는 것 같아요. 결국 우리 제품과 서비스를 잘 어필해야 합니다. '나도 이런 것 만드는 데 공헌하고 싶어' 이런 사람을 많이 모시려고 합니다. AI 연구자를 채용하기 위해서는 사업도 열심히 하고 있지만 특허나 관련 논문 등 다른 회사에 없는 신기한 기술이라든지, 이런 걸 보여주고 있어요. 여기는 새로운 기술을 잘 만들고 있다는 것을 보여주죠. 그동안 회사가 만든 서비스가 기술이 있으면 관심이 가게 됩니다.
490개 'AI 성우' 만든 네오사피엔스 대표가 홀로 미국에 가는 이유 [긱스]
Q. 채용 업무도 직접 하나요.
A. 정말 잘 안 뽑히는 포지션이 있고 전략적으로 필요하면 제가 연락하기도 합니다. 직원 70명이 그렇게 큰 회사는 아니잖아요. 한 명 한 명 채용할 때 제가 최종 인터뷰도 하고요.

Q. 개발자는 자기 만족도 중요할 것 같습니다. 회사에서 이런 부분을 어떻게 충족해주나요.
A.성과를 공유하려고 합니다. 스톡옵션을 계속 지급하고 있어요. 회사가 크면 금전적인 보상도 커지겠죠. 단순히 상장할 때 창업자가 주식을 주는 것이 아니라 지금부터 성과를 다 공유해서 가져갈 수 있도록 구조를 만들고 있죠. 내가 지금 하는 일이 많은 사람에게 도움을 주고 있다는 것을 아는 것도 중요해요. 고객의 목소리를 다양한 채널로 듣고 있습니다. 고객의 목소리를 정리하고 고객 인터뷰도 하고. 관련 데이터를 만들어서 공유하고 있습니다. 주제를 바꿔가면서 이런 걸 전사적으로 공유하는 세션들이 있거든요. '이런 게 문제라고 사람들이 생각하는구나. 내가 이 문제를 풀고 있구나' 이런 걸 알게 되는 거죠. 이용자가 잘 쓰면 그런 사례도 공유하면서 개발자가 알게 됩니다. 매출이나 어떤 지표를 정하면 너무 먼 목표잖아요. 실무자는 좀 더 앞단의 수치를 보는 거죠. 그런 것을 쪼개서 보고 우리가 어떤 걸 해야 되고, 그걸 하면 무엇을 달성했는지 데이터로 확인할 수 있습니다. 등대로 보는 북극성 지표가 하나가 있지만 실제로 그걸 다 쪼개서 보면 관련 데이터가 한 100여 종이거든요. 개개인의 개발자는 거기에 연결돼 있죠.

Q. 개인 업무에 대한 구체적인 성과 지표가 있는지 궁금합니다.
A. 개인별로는 관리하고 있지는 않고요. 팀별로 하고 있어요. 예를 들어 고객의 이탈을 막는 업무면 서비스 이탈률에 반영이 되고 있습니다. 고객의 사용량을 늘리는 업무면 타깃 고객 등의 사용량으로 알 수가 있죠.

Q. 어떤 퍼포먼스가 나오는지 지표가 세분돼 있어서 성취감이나 만족감을 쉽게 느낄 수 있겠네요.
A. 네 맞아요.

Q. 조직 문화 구축에 투자한 성과가 있었나요.
A. 일단 전체적으로 봤을 때 조직이 어그러져서 안 되는 경우가 없었어요. 내부에 분쟁이 생겨서 코파운더들끼리 이견이 생기거나 새로 들어오신 분과 기존에 계시던 분이 문제가 생긴 적도 없었죠. 물론 소소하게 근무하다가 이직하시고 이런 분은 간혹 있지만요. 조직에 문제가 생기면 몇 달은 일이 제대로 안 될 거잖아요. 그런 게 없으니까 일도 착착 계획대로 되고요. 이런 것들이 결국 성과를 만들어 내는 데 있어서 다 뒷받침을 해줬다고 생각하는 거죠.

Q. AI 성우 서비스인 타입캐스트 서비스 규모가 확대하고 있습니다.
A. 올해도 새로운 기능들이 많이 들어갔고요. 내 목소리를 복제해서 사용할 수 있는 마이보이스메이커 기능도 출시했습니다. 타입캐스트에 비디오를 업로드하고 비디오 백그라운드에 더빙 넣는 기능도 들어갔고요. 곧 나올 기능 중에는 백그라운드 뮤직 BGM도 타입캐스트에 바로 넣고 유튜브 쇼츠도 쉽게 만들 수 있게 합니다. 가상 인간 아바타 비디오 이런 것도 계속 업그레이드하고 있죠.

Q. 지원 언어도 늘었죠.
A. 계속 추가하고 있습니다. 최근에 프랑스어도 추가됐고요. 지금은 한국어, 영어, 일본어, 독일어, 프랑스어, 스페인어 까지 제공합니다. 중국어, 포르투갈어 성우 AI도 올해 내놓을 겁니다.

Q. 한국어 AI 성우도 계속 늘고 있습니다. 지금도 많은 것 같은데요.
A. 이용자마다 사용처가 다르고요. 지금 우리나라에 아나운서가 수백 명 있어요. 그래도 아나운서가 계속 나오잖아요. 트렌드가 조금씩 다를 수도 있고요. 콘텐츠의 종류나 장르나 이런 것도 중요하죠. 대중음악으로 보면 계속 새로운 노래를 작곡하잖아요. 다양성도 중요하고 새롭게 뭔가가 나와야 된다고 생각해요. 휴먼 다큐멘터리, 뉴스, 날씨 정도 등 말하는 패턴이 다르거든요.

Q. 성우 목소리도 유행이 있나요.
A. 그런 것도 좀 있더라고요. 요즘 뜨는 목소리로 발키리라는 캐릭터가 있어요. 화내는 여성 목소리에요. 이 목소리로 유튜브 쇼츠 만들어 유튜브 구독자 많이 확보한 이용자도 있어요,.

Q. 기존 목소리의 톤을 바꾸면 그렇게 나오기 어렵나요.
A. 톤을 바꾸고 튜닝하는 것 자체가 새로운 목소리이긴 합니다. 그런데 이용자에 목소리를 알아서 톤 조절해서 쓰라는 건 글자 폰트 디자인해서 사용하라고 하는 것과 같아요. 이런 폰트, 저런 폰트를 골라서 쓰게 해주는 겁니다. 앞으로 내가 내 목소리로 만들어서 다른 사람한테 팔 수도 있겠죠.
490개 'AI 성우' 만든 네오사피엔스 대표가 홀로 미국에 가는 이유 [긱스]
Q. 목소리가 너무 많아서 고르기 어렵습니다.
A. 이런 문제를 해결하기 위해 상반기에 이용자가 원하는 목소리를 쉽게 찾을 수 있는 기능을 추가했습니다. 데이터를 분석해서 추천 알고리즘을 활용했죠.

Q. 처음에는 목소리가 몇 개 였나요.
A. 목소리 캐릭터 20개부터 시작했습니다. 거의 다 한국어였고 영어는 남자와 여자 한 두 개씩 있었죠. 지금은 490개 정도 됩니다. 최근에 추가 속도를 늦추기는 했는데 하반기에 한 달에 10여 개씩 늘리고 있죠.

Q. 실적은 어떤가요.
A. 올해는 매출이 작년보다 세 배 정도 예상합니다.

Q. 다른 성과 지표도 궁금합니다.
A. 유료 구독자가 최근 3년 새 18배 성장했습니다. 세계 68개국에 유료로 쓰고 있죠.

Q. 챗GPT가 출시 후 달라진 점이 있을까요.
A. 타입캐스트에 긍정적인 영향을 줬습니다. 저희 서비스는 대본이 있어야 합니다. 텍스트가 있다는 전제로 오디오나 비디오를 만들 수 있잖아요. 챗GPT로 텍스트 생산이 전보다 10배, 100배 늘릴 수 있는 환경이 됐어요. 이전에는 글을 잘 못 써서 영상을 만들지 못한 경우가 있었는데 지금은 챗GPT로 쉽게 글을 만들 수 있습니다. 챗GPT 나오고 영상 제작 수요가 확 늘었죠, 올 초에는 해외에서 타입캐스트 사용이 급증해서 국내 사용 비중이 30%로 떨어지기도 했죠. 해외 매출이 늘었어요.

Q. 다른 변화는 없나요.
A. 기존 서비스에 음성을 추가하려는 시도가 늘었어요. 많은 기업에서 고객 응대로 챗봇을 씁니다. 하지만 이전에는 제대로 작동하지 않았어요. 소비자와 상호작용이 부족했죠. 그런데 AI 활용하면서 대화가 되는 겁니다. 여기에 AI 성우를 사용해 수요가 있어요.

Q. AI 성우 시장 경쟁이 치열해졌을 것 같습니다.
A. 맞습니다. 경쟁 구도가 생기고 있습니다.

Q. 타입캐스트의 기술 수준은 어떤가요.
A. 국내에서는 웹사이트 트래픽이나 공신력 있는 조사를 봐도 저희가 압도적입니다. 해외에는 이제 시작이죠. 세계적으로 압도적으로 잘하는 업체는 아직 없어요. 우리가 할 수 있죠. 1~2년 지나면 그런 업체가 생길 것 같거든요. 저희는 적어도 세계 3위에는 들어갈 겁니다.

Q. 해외 시장 공략 계획이 궁금합니다.
A. 제가 직접 미국으로 갑니다. 새로 창업한다는 생각으로 실리콘밸리에서 도전할 계획입니다. 미국 이용자에 맞게 제품도 개선하고 기술도 개발하고요. 영어 친화적으로 서비스를 업그레이드하는 거죠.

Q. 지금은 인터넷도 있고 한국에서 근무하면서 미국 시장 진출할 수 있는데요.
A. 그렇게 해서 성공한 사례가 없어요. 제품이 잘 팔리려면 글로벌 스탠다드에 맞아야 합니다. 그러려면 그들의 문화를 잘 알아야 하고요. 미국 사용자와 같은 장소와 시간대에 살아야 그 문화가 보일 거예요. 원래 영어 서비스인데 한국어를 지원하는 사이트를 보면 뭔가 불편하잖아요. 번역도 그렇지만 한국인이 사용하기 어색한 UI도 있고요. 반대로 한국 사이트를 먼저 만들고 이것을 영어로 번역해서 제공하면 미국인도 불편할 겁니다. 지금 이 시장이 폭발적으로 크고 있어서 지금 해외에서 잘해야 합니다. 실제 해외가 수요도 훨씬 크고 이것를 빨리 가서 잡지 않으면 안 되겠다라는 생각을 하는 거죠. 한국에서 해외로 직원을 보내서 성공한 경우도 거의 없어요. 현지에서 채용해서 성공한 사례도 못 본 것 같고요.
490개 'AI 성우' 만든 네오사피엔스 대표가 홀로 미국에 가는 이유 [긱스]
Q. 해외에서 성과가 나오는데 얼마 정도 걸릴까요.
A. 1년 안에 꽤 가시적인 것을 보여야 그다음이 있을 거라 생각하고 있고요. 단기적으로는 한 1년 정도 보고 있어요

Q. 아무래도 해외에 계시면 국내 업무는 소홀해지지 않을까요.
A. 저는 해외에 간다라고 생각하지 않고 있어요. 원격 근무라고 봅니다. 시간대가 좀 다르지만 부산에서 일하는 것처럼 원격 근무라고 생각합니다. 가서 완전히 안 오는 것도 아니고. 한 달이나 두 달에 한번은 한국에 올 겁니다. 갑자기 국내에 현안이 생겼을 때 어떻게 할지 검토해 봤어요. 한국에서 오후에 현안이 생겨서 제가 한국에 와야 한다면 비행기 타고 다음 날 오전에 인천에 도착할 수 있더라고요. 완전히 다른 세계라고 생각하고 있지 않아요.

Q. AI 시장 전망 좀 해주세요.
A. 1년 전과 크게 바뀌진 않았어요. 다만 1~2년 전에 예상했던 것보다 시장이 더 빨리 커질 것으로 보고 있습니다. 한 5년 후면 '이 정도 될 거야' 했는데 내년에 그 정도가 올 것 같아요. 사람의 생산성이 AI로 더 극대화가 될 것 같고요.

Q. AI 관련 저작권 이슈는 어떻게 생각하시나요.
A. 저희 같은 경우는 합법적인 데이터는 당연히 다 취득하고 있어요. 성우에 대한 보상 체계를 잘 만들었죠. 정부에서 공개한 공공데이터도 있고 웹 크롤링 데이터들도 있을 수 있는데요. 어느 정도 가이드라인이 정해져야 할 것 같아요. AI도 표절을 하면 안 됩니다. 저작권도 원본 저작자의 저작 권리가 보호돼야 하죠. 다만 AI가 데이터를 학습하는데 좀 더 자유로워질 필요는 있습니다. 사람도 영화를 보거나 존경하는 어떤 작가의 그림을 보거나 음악을 듣고 거기서 배우잖아요. 사람 작가나 배우, 가수도 그렇게 학습해서 자신의 스타일대로 결과물을 내는 겁니다. 이 결과물에 대해서는 당연히 저작권 같은 게 강력하게 좀 보호가 돼야 하죠. 그런데 학습하는 차원에서는 자유롭게 학습을 할 수 있어야 하고요. 이렇게 될 수 있게 공공도서관을 우리가 다 운영하듯이 누구든 가서 공부하잖아요. 책을 다 읽을 수 있지만 그 책을 외워서 내가 똑같이 써서 출판하면 안 되는 거잖아요. 그런데 공부는 할 수 있는 거잖아요. 이렇게 AI도 공부는 할 수 있어야 한다고 생각해요. 정부도 AI를 학습하는 데 저작권이 있더라도 좀 사용하게 해주자도 이런 취지인 것 같아요. 이것이 저작권을 다 무시하는 건 아니고요. 결과물을 활용하는데 있어서 저작권을 어떻게 할지는 좀 더 체계적으로 시스템을 만들어야 합니다. 저희도 여러 데이터를 활용해서 목소리를 만들었는데 배우 이병헌과 비슷한 결과물이 나온다면 팔 수가 없어요. 못 쓰게 하든지 보상을 주든지 관리가 필요합니다.

Q. 앞으로 어떤 AI 서비스까지 나올까요.
A. 직접 보기 힘든 연예인 대신에 AI 기반으로 영상으로만 접할 수 있는 엔터테인먼트 상품이 나올 것 같습니다. 실존 인물이 아니라 버추얼이 이죠. 유튜브 채팅창에 올라오는 댓글을 알아서 대응하고요. TV나 미디어에서 접하는 사람의 절반 이상은 진짜 사람이 아닐 것 같습니다. 사람임을 증명하는 게 중요해질 수도 있고요.

김주완 기자 kjwan@hankyung.com