액션파워, 기록관리 AI ‘다글로’ 성능 업그레이드
-
기사 스크랩
-
공유
-
댓글
-
클린뷰
-
프린트
음성인식 정확도 높이고, 여러 사람 목소리도 구별
액션파워(공동대표 조홍식 이지화)가 기록관리 AI 서비스 ‘다글로’의 성능을 크게 개선했다고 23일 밝혔다. 30만명 이상의 회원에게 회의, 통화, 강의 영상을 텍스트로 변환하고 정리해주는 서비스를 제공해 온 다글로는 이번 모델 업그레이드를 통해 업계 최고 수준의 성능을 갖게됐다고 설명했다.
이번 성능 개선의 핵심은 크게 세 가지다. 우선, STT(Speech-to-Text) 모델 자체의 크기를 확대해서 음성인식 정확도 자체를 100%에 가깝게 개선했다. 또한, VAD(음성 감지) 기능을 크게 높여서 여러 사람의 대화에서도 목소리를 정확하게 분리해 낸다. 마지막으로, 숫자와 영어 발음까지 명확하게 표시하도록 함으로써 ‘거의 완벽한’ 텍스트 변환에 가독성까지 높인 결과를 도출하게 됐다. 다글로는 다른 음성변환 서비스와의 가장 큰 차별점으로 '멀티모달(Multi-modal) 지원'을 꼽는다. 대표적으로, 영상 파일을 업로드하거나 유튜브 링크를 붙여 넣으면, 바로 영상의 음성을 원고로 생성한다. 뿐만 아니라 크롬 확장 프로그램으로 다글로를 설치할 수 있어서, 유튜브 영상을 시청하면서 바로 다글로로 텍스트 변환을 시작할 수 있다.
변환 결과는 일반 문서 파일뿐만 아니라 자막 파일로도 바로 다운로드가 가능하다. 상반기 마지막 업데이트 예정인 기능은 통화 내용을 바로 텍스트로 변환하고 보여주는 것이다.
이지화 공동대표(CTO)는 “액션파워의 기술적 초점은 개발 막바지 단계인 자체 대규모 언어모델(LLM) 상용화에 맞춰져 있다"며 "지금 다글로는 원고를 생성하고 키워드를 뽑아주고 요약을 해주지만 앞으로는 회의 후 실행할 일들과 다음 일정까지 정리해서 알려주고, 영상에서는 가장 많이 시청된 부분만 따로 뽑아서 요약해 줄 것"이라고 말했다.
한경닷컴 뉴스룸 open@hankyung.com
이번 성능 개선의 핵심은 크게 세 가지다. 우선, STT(Speech-to-Text) 모델 자체의 크기를 확대해서 음성인식 정확도 자체를 100%에 가깝게 개선했다. 또한, VAD(음성 감지) 기능을 크게 높여서 여러 사람의 대화에서도 목소리를 정확하게 분리해 낸다. 마지막으로, 숫자와 영어 발음까지 명확하게 표시하도록 함으로써 ‘거의 완벽한’ 텍스트 변환에 가독성까지 높인 결과를 도출하게 됐다. 다글로는 다른 음성변환 서비스와의 가장 큰 차별점으로 '멀티모달(Multi-modal) 지원'을 꼽는다. 대표적으로, 영상 파일을 업로드하거나 유튜브 링크를 붙여 넣으면, 바로 영상의 음성을 원고로 생성한다. 뿐만 아니라 크롬 확장 프로그램으로 다글로를 설치할 수 있어서, 유튜브 영상을 시청하면서 바로 다글로로 텍스트 변환을 시작할 수 있다.
변환 결과는 일반 문서 파일뿐만 아니라 자막 파일로도 바로 다운로드가 가능하다. 상반기 마지막 업데이트 예정인 기능은 통화 내용을 바로 텍스트로 변환하고 보여주는 것이다.
이지화 공동대표(CTO)는 “액션파워의 기술적 초점은 개발 막바지 단계인 자체 대규모 언어모델(LLM) 상용화에 맞춰져 있다"며 "지금 다글로는 원고를 생성하고 키워드를 뽑아주고 요약을 해주지만 앞으로는 회의 후 실행할 일들과 다음 일정까지 정리해서 알려주고, 영상에서는 가장 많이 시청된 부분만 따로 뽑아서 요약해 줄 것"이라고 말했다.
한경닷컴 뉴스룸 open@hankyung.com