홍콩 AI 연구팀 논문과 유사
일부 문장, 한 단어 빼고 일치
서울대측 "연구진실성 조사 중"
서울대 인공지능(AI) 연구팀의 국제 학회 발표 논문이 표절로 드러난 가운데, 같은 연구팀의 또 다른 논문이 해외 논문을 표절했다는 의혹이 제기됐다. 이번 논문은 이종호 과학기술정보통신부 장관 아들인 이모씨가 1저자로 발표한 것이어서 파장이 커질 전망이다.
○홍콩·중국 논문 표절 의심
1일 한국경제신문 취재 결과, 표절 의혹을 받고 있는 논문은 지난해 6월 발표된 ‘Energy-efficient Knowledge Distillation for Spiking Neural Networks(스파이크 신경망을 위한 에너지 효율적인 지식 증류법)’다. 앞서 지난달 24일 표절 의혹이 제기된 논문과 마찬가지로 윤성로 서울대 전기정보공학부 교수 연구실에서 나온 논문이다. 이 장관의 아들인 서울대 박사과정생 이모씨가 1저자로, 윤 교수가 교신저자로 이름을 올렸다. 나머지 공저자 3명 중 2명은 먼저 표절 의혹이 제기됐던 논문에도 참여한 대학원생들이다.
이 논문이 표절한 해외 논문은 두 개로, 2019년 홍콩계 AI 기업인 센스타임 연구팀 논문과 2021년 중국 장쑤대 연구팀 논문이다. 본지가 논문들을 대조한 결과 이씨의 논문은 해당 논문과 적게는 18단어로 이뤄진 한 문장, 많게는 44단어로 이뤄진 두 문장을 거의 그대로 옮겨 실었다. 학계에 따르면 인용 표시를 한 경우라도 여섯 단어 이상 연쇄적으로 표현이 일치할 경우 표절로 본다.
○비동사만 바꾸고 그대로 베끼기도
표절 대상 논문으로 지목된 센스타임 연구진 논문의 제목은 ‘Knowledge Distillation via Route Constrained Optimization’. 이씨의 논문 3쪽, 2.2절 첫 번째 문장은 이 논문에서 26개 단어로 이뤄진 한 문장과 거의 같다. 원문의 ‘is’를 ‘has been’으로 바꾼 것 말고는 완전히 똑같은 문장이다. 센스타임 논문에 대한 인용 표시도 없다.
이 부분은 관련 선행 연구를 설명하는 대목으로, 코넬대 연구진이 2006년 발표한 논문을 인용 표시했다. 이씨의 논문은 센스타임 연구진이 코넬대 연구진의 논문을 자신들의 언어로 새롭게 요약, 인용한 대목을 그대로 베껴온 것으로 보인다.
이씨의 논문과 센스타임의 논문이 동일하게 코넬대 연구진의 논문을 인용했다고 하더라도 문장이 똑같다면 표절로 판정될 수 있다. 연구윤리를 원칙대로 따른다면 이씨는 센스타임의 문장을 그대로 가져오는 것이 아니라, 코넬대 연구진의 논문을 자신의 말로 새로이 요약해야 한다.
같은 문단의 또 다른 문장도 센스타임 논문의 18단어 한 문장과 비슷하다. 괄호 속의 표현을 삭제하고, 단어 ‘can’을 추가한 것을 제외하고는 12단어가 동일하다.
두 번째 표절 의혹 대상 논문은 중국 장쑤대 연구자 등이 지난해 3월 ‘컴퓨터 비전 국제 저널(International Journal of Computer Vision)’을 통해 발표한 ‘Knowledge Distillation: A Survey’라는 논문이다.
이씨의 논문 3쪽에 44개 단어로 구성된 두 문장은 장쑤대 논문의 두 문장을 가져와 짜깁기한 것으로 추정된다. 장쑤대 원문의 ‘targets’라는 단어를 ‘labels’로 바꾼 것과 전치사, 관사 몇 개를 교체한 것 말고는 문장의 구조와 단어 선택이 똑같다. 한국경제신문은 윤 교수의 입장을 듣기 위해 연락을 시도했지만 답변을 듣지 못했다.
○서울대 “표절 조사 진행 중”
윤 교수 연구팀은 지난달 24일 앞서 제기된 논문 표절 의혹으로 서울대 자체 조사를 받고 있다. ‘국제 컴퓨터 비전 및 패턴 인식 학술대회(CVPR)’에서 발표한 논문이 문제가 됐다. 2018년 캐나다 토론토대 연구물 등 10편이 넘는 논문에서 문장을 그대로 베꼈다는 의혹이 제기됐고, 연구팀이 이를 인정하면서 파문이 일었다.
서울대는 지난달 27일 총장 직권으로 연구진실성조사위원회를 소집해 진상 조사에 착수했다. 논문의 제1저자인 서울대 전기정보공학부 박사과정생 김모씨를 비롯해 교신저자 윤 교수, 다른 서울대 소속 공저자들에 대해 조사하고 있다. 결과 보고서는 조사위를 구성한 지난달 27일로부터 60일 이내에 제출하도록 돼 있다.
“약 50개 대형 병원에서 6000만명에 가까운 환자 데이터를 구축했습니다. 인공지능(AI) 기반 의료 빅데이터 분석 플랫폼을 이용해 헬스케어 데이터 사업 영역을 확장하겠습니다”김일호 에비드넷 최고재무책임자(CFO)는 11일 한국경제신문 주최로 열린 ‘2022 대한민국 바이오투자 콘퍼런스(KBIC 2022)’에서 이같이 말했다. 에비드넷은 인공지능(AI) 기반 빅데이터 플랫폼을 이용한 전자의무기록(EMR) 등 의료데이터 관리 업체다. 서울대 기계항공공학부, 중앙대 의대 출신인 조인산 최고경영자(CEO)가 회사를 이끌고 있다. 에비드넷은 AI 기반 헬스케어 데이터 산업의 성장세에 주목하고 있다. 회사에 따르면 지난해 211억달러였던 세계 헬스케어 데이터 산업 시장 규모는 5년 뒤인 2026년 289% 수준인 751억달러로 성장할 전망이다. 우리나라 전자의무기록(EMR) 구축율은 92%이지만 의료기관 간 정보 연계는 부족하다. EMR 시스템이 건강보험심사평가원의 수가 청구에 초점을 맞춰 구축된 탓에 기관별로 EMR의 내용들의 표준화작업이 이뤄지지 않았던 탓이다. 김 CFO는 “각 병원마다 표준화돼있지 않은 데이터를 전처리해야 하다보니 그간 헬스케어·의료 AI 범용 기술을 만들기가 어려웠다”며 “개인 의료기록의 통합 기술도 부재한 상황”이라고 말했다.에비드넷의 강점은 데이터의 양이다. 에비드넷은 수십개 이상의 병원의 표준화 연구가 용이하도록, 여러 기관 데이터 중 중요한 일부 데이터를 추출해 표준화하는 공통데이터모델(CDM) 작업을 진행했다.김 CFO는 “국내 47개 대형 병원에서 5800만여명의 환자의 정보를 구축했다”며 “환자당 10년 이상의 의무기록을 확보하고 있다”고 설명했다. 이어 “이용하는 데이터 자체는 병원 내 서버에 저장돼 있고 우리는 분석명령문(쿼리)을 보내고 그 결과인 통계값만 가져오기 때문에 정보유출 우려가 없다”고 덧붙였다.에비드넷 설명에 따르면 일본 건강 빅데이터업체인 JMDC는 1400만명 가량의 의료데이터를 이용해서 약 2000억원의 연매출을 내고 있다. JMDC보다 4배 이상의 데이터를 확보하고 있는 만큼 사업 확장성이 크다는 설명이다. 에비드넷은 지난 6월에 신한금융그룹에서 100억원 규모 투자를 유치했다. 한국로슈진단, 외국계 보험사 등과도 협업관계를 구축한 상태다.에비드넷의 빅데이터 플랫폼인 ‘에빅스원’은 연구 개설, 연구설계, 연구 실행, 결과 조회, 결과반출 등을 하나로 통합한 플랫폼이다. 국내 주요 500개 질병에 대한 질병 현황, 약물처방빈도, 수술빈도, 검사빈도 등의 통계를 제공하는 ‘에빅스인사이트’, 각 대학병원 임상시험 대상자 선별을 위한 소프트웨어 등도 개발을 완료한 상태다.김 CFO는 “네부 데이터 과학자를 이용해서도 자체 질환 예측 AI 알고리즘을 개발하고 있다”며 “지난달 서원우 강동성심병원 순환기내과 교수 연구진이 우리의 플랫폼을 이용해 고지혈증 환자 1460만3568명의 임상데이터를 연구했던 결과가 최근 국제학술지 ‘심혈관당뇨학’에 게재하는 등 성과도 입증했다” 말했다.이주현 기자 deep@hankyung.com
국내 통신사들이 인공지능(AI) 반도체 사업에 적극적으로 투자하고 있다. 직접 AI 반도체를 개발하거나 유망 스타트업의 지분을 사고 협력을 모색하는 사례가 부쩍 늘었다. 글로벌 AI 반도체 강자 엔비디아에 대한 의존도를 낮추는 동시에 AI 경쟁력도 강화한다는 포석이다. AI 반도체는 데이터 학습·추론에 필수적인 ‘대규모 연산’을 빠르고 효율적으로 실행하는 칩으로 AI의 두뇌 역할을 한다. 구글 검색, 유튜브의 동영상 추천 등에 AI 반도체가 쓰이고 있다. ○신경망처리장치 개발 나선 KTKT의 AI 사업 목표는 하드웨어와 소프트웨어를 동시에 제공하는 ‘풀 스택’ 사업자로 도약하는 것이다. 이를 위해 KT는 AI 반도체 생태계 구축에 적극 나서고 있다. 반도체 경쟁력이 올라가야 데이터 학습과 추론 등 AI 기술 수준을 높일 수 있다.KT는 지난 6일 AI 반도체 전문 팹리스(설계전문 업체) 회사인 리벨리온에 300억원을 투자했다고 발표했다. 사업 협력도 강화한다. 리벨리온은 2020년 설립돼 주문형 반도체(ASIC) 설계 분야에서 경쟁력을 갖췄다는 평가를 받는다. 카카오벤처스와 신한캐피탈 등도 과거 1000억원 규모 자금을 투자한 바 있다.KT가 AI 관련 기업에 투자하는 것은 이번이 두 번째다. 지난해엔 국내 AI 인프라 솔루션 전문 기업 ‘모레’에 투자했다. KT는 리벨리온, 모레와 함께 차세대 AI 반도체 설계와 검증, 대용량 언어모델 협업 등을 추진할 계획이다. KT그룹의 AI 인프라·응용 서비스와 모레의 AI 반도체 구동 소프트웨어, 리벨리온의 AI 반도체 역량을 융합해 그래픽처리장치(GPU) 수천 개가 들어가는 ‘GPU팜’을 연내 구축할 계획이다. 내년에는 GPU팜에 자체 개발한 AI 반도체를 접목한다.KT는 우선 AI 알고리즘 연산에 최적화된 신경망처리장치(NPU)를 개발할 예정이다. 이를 KT의 모빌리티, 금융 디지털전환(DX) 등 다양한 영역에서 활용하고, 국내 사업 성과를 바탕으로 해외 판로도 확보할 계획이다. 회사 관계자는 “국내 주요 기업과 AI 스타트업, 대학 등에 저렴하고 성능 높은 AI 인프라를 제공해 국가 AI 생태계 발전에 기여할 것”이라고 설명했다. ○SK, ‘X330’ AI 반도체 출시 예정SK는 그룹 차원에서 AI 반도체를 직접 개발하고 있다. 사피온이 주력 업체다. 사피온은 SK텔레콤과 SK스퀘어, SK하이닉스 등 3개 회사가 투자해 설립한 팹리스다. 작년 말 SKT에서 분사했다. 본사는 미국 실리콘밸리에 있다.사피온의 주력 사업은 AI 반도체 설계다. 사피온은 2020년 AI 반도체 X220을 출시했다. 내년 상반기 차세대 제품인 ‘X330’ 칩을 출시할 계획이다. 류수정 사피온 대표는 지난 4월 실리콘밸리에서 열린 간담회에서 “성능과 활용도 측면에서 모두 경쟁력이 있다”고 강조했다.사피온은 데이터 학습보다는 ‘추론’에 특화된 반도체를 개발할 계획이다. AI의 추론은 학습된 네트워크를 기반으로 문제가 생겼을 때 해결하고 답을 찾는 과정이다. 류 대표는 “자율주행용 반도체는 오프라인으로 학습된 네트워크를 가지고 있다가 (돌발상황 같은) 문제가 들어오면 답을 내는 추론이 중요하다”며 “사피온 칩은 추론에 최적화돼 있어 문제를 풀 때 효율성이 높다”고 강조했다.사피온의 강점 중 하나로 ‘SK그룹 소속’이란 점이 꼽힌다. 계열사가 테스트 시장 역할을 할 수 있고 세계적인 반도체 기업 SK하이닉스의 지원도 기대할 수 있다는 것이다. 류 대표는 “사피온은 SK 계열사들이 제품을 써보도록 해 성능에 대한 검증 자료를 확보한 뒤 글로벌 시장에 나갈 수 있다”며 “동시에 외부 고객사도 적극적으로 확보할 것”이라고 말했다.실제 사피온은 NHN의 클라우드 서비스에 AI칩을 제공하기로 했다. 미국에선 미디어그룹 싱클레어와 동영상의 해상도나 초당 프레임(화면) 수를 높이는 업스케일링(upscaling) 사업을 함께하기로 했다.고급 인력 확보에도 적극 나섰다. 최근 김태진 부사장을 영입한 게 대표적이다. 김 부사장은 반도체 영업 분야에서 오랜 기간 일한 것으로 알려졌다. 2004~2018년엔 엠텍비젼 미국법인에서 글로벌 스마트폰 제조사와 완성차 업체를 상대로 애플리케이션프로세서(AP), 모바일멀티미디어플랫폼(MMP) 등을 공급한 경험도 있다. 직전 직장은 정보기술(IT) 인프라 기업인 슈퍼마이크로다. 사피온의 김 부사장 영입은 AI 반도체 제품의 고객 확보에 적극 나서겠다는 의미로 분석된다.황정수 기자 hjs@hankyung.com
각종 수학 문제를 손쉽게 풀어내는 초거대 언어모델이 개발됐다. 언어모델이 인간의 언어를 이해하고 처리하는 자연어처리(NLP) 분야를 넘어 미지의 영역으로 평가받던 양적추론(Quantitative Reasoning)까지 가능해졌다는 평가가 나온다.11일 정보기술(IT)업계에 따르면 구글은 최근 자사 블로그를 통해 최신 초거대 언어모델 ‘PaLM(Pathways Language Model)’을 기반으로 한 NLP 신경망인 ‘미네르바(Minerva)’를 공개했다. 미네르바는 계산기와 같은 외부 도구에 의존하지 않고 수학 문제처럼 양적추론이 필요한 문제들을 해결한다. 양적추론이란 질문을 분석하고 이해하는 방식으로 단계별로 추론해 답을 찾아내는 과정을 뜻한다. 미네르바는 이런 과정을 자연어 처리 모델과 표준 수학 표기법을 결합해 해결했다는 게 구글의 설명이다.미네르바는 지문을 보면 이를 이해한 뒤 문제를 단순화시킨 후 변수와 방정식을 설정해 문제를 풀어낸다. 이런 방식으로 학부생 수학 전공 수준의 문제까지 일정 수준의 정확도로 해결한다.인공지능(AI)업계에선 미네르바처럼 AI와 머신러닝을 통해 수학 문제를 빠르게 풀어내는 사례가 없었다는 점을 주목해야 한다는 평가가 나온다. 수학 문제를 풀기 위해선 숫자를 인식하는 것은 기본이고 문장 분석, 수학 표기법, 공식 기호 등에 대한 이해도 필요하다. 주어진 데이터를 이해하고 이를 활용하는 과정도 복잡하다.구글은 초거대 AI로 방대한 수학 사용 사례를 분석하는 방식으로 문제를 해결했다. 구글은 118GB(기가바이트)에 달하는 수학과 과학 분야 논문과 데이터를 머신러닝을 통해 미네르바에 학습시켰다. 미네르바의 기반이 된 PaLM은 구글이 지난 4월 선보인 초거대 언어모델로 현존 최고 성능을 자랑한다. 기존 대표 AI 언어모델인 오픈 AI의 GPT-3보다 약 세 배 큰 5400억 개 파라미터(매개변수)를 보유했다.구글은 “언어모델과 머신러닝은 현대 과학 분야에서 가장 뛰어난 도구지만 대부분 언어 처리를 중심으로 활용 범위가 한정돼 있었다”며 “연구진과 학생들이 미네르바를 통해 수학은 물론 향후 과학, 천문학 등 다양한 분야에서도 새로운 기회를 창출할 수 있는 데 도움이 되길 바란다”고 말했다.배성수 기자 baebae@hankyung.com