데이터 전문가들이 꼭 알아야 할 알고리즘 5개

오춘호 선임기자

입력2021.05.12 23:46 수정2021.05.12 23:56

AI 패턴 인식에는 서포트 벡터 머신이 필요
순환신경망 갈수록 쓰임새 많아

인공지능(AI)의 핵심은 데이터에 있다고 해도 과언이 아닙니다. 데이터 과학자들은 이 데이터를 분석해 통찰력을 얻어 기업 의사결정에 도움을 주는 전문가들입니다. 이들은 각종 알고리즘 도구를 사용해 기계학습 모델을 구축해 데이터를 분석합니다. 세상에는 많은 알고리즘이 있지만 기계학습의 세계에 힘을 실어주는 데이터 과학 알고리즘들이 많이 있습니다. 데이터 전문저널 애널리틱스 인사이트가 데이터 과학자라면 꼭 알아야 할 머신 러닝 세계 지원 5개의 알고리즘을 정리했습니다. 이를 소개합니다.

① 선형 회귀(Linear Regression)= 가장 기본적이고 보편화한 데이터 알고리즘입니다. 독립 변수와 종속 변수의 관계를 그래프와 수치로 보여줍니다. 모든 데이터 포인트에서 수직거리가 최소가 되도록 최적의 선형 라인을 그려 이를 토대로 데이터의 관계를 보여주는 프로그램입니다.

②로지스틱스 회귀(Logistics Regression)= 선형 회귀분석의 종속변수를 수치가 아닌 범주로 구분하는 알고리즘입니다. 하나의 집단에 속하지만 어느 집단인지 알지 못하는 수치가 있다면 이를 특정 집단으로 분류하기 위해 사용됩니다. 데이터 출력값이 수치보다 어느 클래스에 분류되는지가 더욱 중요합니다.

③서포트 벡터머신(Support Vector Machine) = 인공지능 패턴 인식에 필요한 대표적 알고리즘입니다. 안면 인식과 유전자 특성화 작업에 많이 쓰입니다. 의학분야에서 서포트백터 머신으로 화합물을 분류하면 90%의 정확도로 단백질을 구별할 수 있다고 합니다. 데이터 전문가들이 분류 오류를 최소화할 수 있도록 하는 모델도 있습니다.

④ K 평균 군집화(K-mean clustering) = 비슷한 특성을 갖는 데이터를 K개의 클러스터로 묶는 알고리즘입니다. 고객을 나눠 마케팅 활동을 효율적으로 하는 것, 특정 독자에게 뉴스 기사를 추천하는 것 등이 이 알고리즘 기법을 통해 이뤄집니다. 잘 된 군집화는 분산이 작은 클러스터링입니다.

⑤ 순환신경망 (Recurrent Neural Network) = 시계열 데이터와 같이 시간 흐름에 따라 변화하는 데이터를 학습하기 위한 딥러닝 모델입니다. 궁극의 신경망이라고 부를 만큼 응용할 수 있는 곳이 많고 사용된 데이터를 시간의 순차적 진행으로 표현할 수 있습니다. 하지만 이전 단계의 정보가 제대로 반영되지 않을 수 있기 때문에 이를 모두 포함하려면 또 다른 알고리즘이 필요할 수 있습니다.

오춘호 연구위원

관련 뉴스

1

AI로 퀀텀 점프 성공한 한국생명공학연구원

세계적으로 코로나19 팬데믹 사태가 장기화하면서 포스트 코로나 시대가 가져올 미래를 예측하고 대비하기 위한 움직임이 분주하다. 특히 기업들을 중심으로 업무 프로세스 개선과 효율성 증대를 위한 디지털 변혁(digital transformation)의 새바람이 불고 있다. 정부에서는 한국판 뉴딜 종합계획을 발표하면서 4차 산업혁명의 변화와 혁신의 핵심 동력인 ‘인공지능(AI)’을 사회혁신의 동인으로 삼기 위해 ‘인공지능 국가전략’을 수립하고 있다. 이러한 디지털 뉴딜은 코로나 이후 변화하게 될 미래사회에 대한 디지털 대전환을 이끄는 정책이며, 디지털 전환은 D.N.A. (Data –Network - AI) 등 기술로 산업 혁신을 견인하는 요소로 자리매김하고 있다. 기업들이 1990년대 비용 절감을 위해 전사적자원관리(ERP), 2000년 이후 비즈니스프로세스아웃소싱(BPO)에 많은 관심을 가졌으나, 최근에는 24시간 불평 한마디 없이 업무를 척척 해내는 디지털 직원을 적극 채용하고 있다. 바로 로보틱프로세스자동화(RPA)라고 불리는 업무처리 자동화 소프트웨어이다. RPA를 사용하면 핵심 업무는 아니면서도 간혹 분노까지 유발하는 반복적이고 지루한 업무들을 컴퓨터 소프트웨어를 통해 자동화할 수 있다. 무엇보다 많은 시간을 빼앗기는 작업을 사람이 하는 것과는 비교할 수 없을 정도로 더 빠르고 더 정확하게 오류 없이 처리할 수 있다는 장점이 있다. 이런 RPA가 자동화를 통해 업무를 수행하지만, 지시된 업무 외적인 비정형 데이터 집계나 관리, 업무 효율성을 나아지게 하는 것도 AI 기능을 도입해 더욱 효율적인 자동화 프로세스를 완성할 수 있다. 즉 AI가 업무의 양을 조율하고 결정을 한다면, RPA는 명령받은 업무를 보다 효율적으로 처리할 수 있는 도구가 될 수 있는 것이다. 기존 RPA가 업무의 효율성을 높이기 위해 루틴화한 워크 플로우를 자동화했다면, AI가 적용된 RPA는 향후 데이터 집계에 대한 판단, 적용 값을 벗어나는 오류 상황에 대한 판단과 결정, 나아가 개선된 업무의 적용까지 확대될 예정이다. AI를 도입한 RPA는 대규모 투자와 오랜 시간이 소요되는 전사적자원관리와 달리 기존의 업무 프로세스와 시스템을 그대로 유지한 상태에서 적은 비용으로 짧은 시간에 다양한 형태와 방법으로 적용이 가능하다는 점에서도 매력이 있다. 또한 단순·반복적인 업무를 디지털 직원이 자동으로 처리해 주기 때문에 사람들은 더 부가가치가 높은 창의적이고 전문적 혹은 재량적 업무에 더 많은 시간을 할애할 수 있어 업무성과를 높일 수 있다. 디지털 전환의 큰 흐름에 맞춰 일반 기업 중심으로 적용되던 RPA가 공공부문으로 빠르게 확산하고 있다. 이미 미국의 공공기관에서 도입하여 성공한 사례도 있다. 한국생명공학연구원도 지난해 정부출연연구기관으로서는 최초로 로봇프로세스자동화 시스템을 도입하였으며, RPA에 AI 요소를 도입해 더욱 효율적인 업무 수행과 데이터 분석을 해나갈 수 있게 됐다. 도입에 앞서 우선 직원들이 RPA에 대한 이해도를 높일 필요가 있었다. 이를 위해 RPA 교육과 세미나를 3차례에 걸쳐 실시했고, 부서별로 면담과 논의를 거쳐 적용 대상 업무 수요를 취합했다. 최종적으로 업무량, 업무 복잡도, 업무 규모 등을 고려하여 과제공고, 세금계산서 발행요청, 입찰공고의 알리오 공지 등 4개 업무를 선정하고, 시범적으로 RPA를 적용했다. 그 결과 연간 약 600시간의 업무시간을 절감하는 효과를 얻을 수 있었다. 특히 직원들은 단순·반복적인 업무들이 자동화되어 시간 절감뿐만 아니라 오류 발생 비율이 줄어들어 만족도가 높았다. 향후 시범사업의 효과를 적극 알리고 전사적 업무 분석을 통하여 대상 업무를 점차 확대할 계획이다. 여기에 그치지 않고 RPA 기술이 빠른 속도로 발전하고 있다는 점을 고려해 대상 업무의 난이도를 높여갈 계획이다. 현재는 화면 인식이나 문자 인식 등 소극적인 AI 기술을 이용했다면 향후에는 문서에 첨부된 특정 이미지를 더 고도화된 AI 기반의 문서 인식(OCR 등), 비정형 데이터 분석 등을 이용해 증빙의 가능 여부를 확인하고 가능한 경우에는 관련 데이터를 디지털로 변경하는 것이다. RPA가 초기에는 단순하고 반복적인 업무를 처리하는 수준에 그쳤지만, 챗봇, 자연어 처리, 음성과 문자 인식, 기계학습이 가능한 지능형 RPA가 도입되고 있어 자동화 영역과 대상이 더욱 확대되고 있다. 이제 사람이 하는 잡무를 로봇이 대신하는 수준을 넘어서, 디지털 직원을 염두에 두고 업무 프로세스를 재구축할 필요가 있다. 따라서 RPA의 목표는 일부 업무의 효율화에 맞추기보다는 장기적으로 디지털 변혁에 동참할 인력을 기르고 시스템을 갖춰가는 데 있다. 이제 디지털 변혁을 통해 일하는 방식을 리부팅(Rebooting)하는 것을 준비해야 할 시점이다.
2

기업 AI 최강 난적은 '데이터 품질'

기업들은 매일 구매자 행동과 재고관리,판매, 고객 서비스 데이터를 모으고 있습니다. 하지만 이 데이터의 대부분은 그다지 쓸모가 없다는 인식이 강합니다. 데이터가 있지만 접근하기가 힘들고 각종 데이터에 대한 표준화도 제대로 이뤄지지 않았다고 평가합니다.미국 시장조사업체 얼레이션은 미국과 영국 독일 등 6개 국에서 직원 2500명 이상인 300개 기업의 경영자와 데이터 담당자들을 대상으로 데이터에 대한 인식과 활용 등을 살펴보는 설문조사를 했습니다. 그 결과 응답자의 87%가 데이터 품질이 기업에서 AI를 성공적으로 구현하는데 가장 큰 장요인이라고 답했습니다. 46%는 데이터 품질을 매우 걱정한다는 응답을 했습니다. 이런 우려가 나오는 이유로는 데이터 수집 전반에 걸쳐 일관된 표준이 마련돼 있지 않다(50%)는 응답이 가장 많았습니다. 이어 개인 정보 보호(48%), 데이터의 접근 용이성(44%)에 대한 애로를 꼽았습니다. 데이터 품질 우려 이유 "표준화 안 돼 있기 때문" AI를 구축하는 목표로 가장 많이 꼽은 것은 제품과 서비스를 개선하고 혁신하는 것(43%)이었으며, 이어 기업 경영의 효율성 향상(33%), 고객 경험의 향상(24%) 순으로 나타났습니다. 또한 AI에 대한 자금 조달을 관리하는 경영진의 동의를 얻는 것(55%)이 AI 모델을 만드는 기술이 없는 직원을 설득시키는 것(45%)보다 애로가 더 큰 것으로 나타났습니다. AI를 구축한 기업에서 AI에 대한 직원들의 편견을 막는 방안으로 더 나은 모델링 기술을 확보하는 것(44%)이 가장 많았으며 데이터 접근을 쉽게 하기 위한 데이터 카탈로그화(38%), 정보를 크라우드소싱하는 능력(38%) 등의 순으로 조사됐습니다. 데이터 분석의 우선 순위로는 기업 경영의 효율성(51%)을 꼽았으며 디지털 전환(50%), 직원 감사(49%) 등의 순이었습니다.
3

비정형 데이터 의료 AI 개발 나선 부산대병원

# 자연어처리 의료 AI ‘비비안’부산대병원은 지난해 2월부터 자연어를 처리하는 의료인 공지능 ‘비비안’을 국내 최초로 도입했다. 병력지와 판독지 같은 문자서술형(free text) 자료에서 데이터를 분석하고, 대한민국 표준질병사인 분류 코드를 추출할 수 있다. 외래진료 시 의료진이 환자에게 더 집중할 수 있는 환경을 조성하고 의료데이터 생산성과 품질 향상으로 질 높은 의료서비스를 할 수 있도록 설계됐다. 비비안으로 코딩 작업을 수행할 경우 작업 시간이 줄어들어 업무효율도 30% 정도 개선된다. 추출된 코드의 양과 정확도도 향상할 수 있게 됐다. # 안과 부산대병원은 2019년부터 부산시와 공동으로 AI 기반 안과 질환 조기진단 및 치료 가이드 기술을 개발하고 있다. 부산대병원을 주관으로 AI 기능을 탑재한 보급형 고성능 안저촬영기를 개발해 보급할 계획이다. 안저 촬영기는 망막 상태를 이미지화해 망막 질환을 진단하고 분석하는 의료기기다. 보급형 안저촬영기와 진단용 AI 서비스를 부산 지역 16개 구·군 보건소에 보급할 계획이다. # 닥터 앤서 사업 참여부산대병원은 ‘AI정밀의료솔루션(닥터앤서2.0)개발 사업’도 수행하고 있다. ‘지능형 의료 소프트웨어 닥터앤서1.0 사업’의 업드레이드 버전이다. 국민 체감도가 높은 12개 질환의 의료데이터를 수집·활용해 예측, 진단, 치료, 예후 관리를 지원하는 25개의 AI 의료 소프트웨어를 개발하는 게 목표다. AI 의료 소프트웨어는 의료현장에서 의료진을 지원하고 진단 정확도를 높이며, 진료 단계별 소요 시간을 단축한다. 닥터앤서2.0을 중심으로 정밀 의료가 활성화되도록 타 사업과 연계하고, 개발된 AI 의료 소프트웨어가 국민 체감형 서비스로 확산 할 수 있도록 애플리케이션 형태로 만들 계획이다. # 오믹스 머신러닝 센터 의료데이터를 추출하고 가공하는 ‘오믹스 머신 러닝 센터’도 역점 사업 중 하나다. 그동안 활용하기 힘들었던 비정형 의료 데이터를 자연어 처리 엔진을 통해 구조화하고 여러 가지 데이터 결합과 활용을 모색하는 게 주요 역할이다. 데이터 활용, 하드웨어 활용 등을 사용자에게 제공한다. AI를 개발할 수 있는 기초 플랫폼도 제공한다.타 진료 기관과의 협력을 통해 메디컬 AI 시스템의 깊이와 폭을 확대할 계획이다. 이를 통해 기업 연구 활동도 지원할 수 있도록 이른 시일 내에 개소할 계획이다. # AI 기반 당뇨병 예방·관리 플랫폼 부산대병원은 고령화 사회 진입에 따라 증가하는 당뇨병의 예방·관리를 위해 수리 모델링과 인공지능(AI) 활용 ‘당뇨병 예방·관리 플랫폼 개발사업’을 추진하고 있다. 부산시의 당뇨병 유병률은 11.9%로 전국 평균보다 높은 수준이다. 그러나 관리율은 낮은 편이다. 당뇨병은 한번 발병하면 심각한 합병증 유발 등 관리와 완치가 어려운 질환이다. 특히 코로나19에 감염될 경우 중증 질환으로 진행될 수 있다. 발병 전 단계부터 예방할 수 있는 관리 시스템이 필요한 실정이다. 이 사업은 당뇨병 발병 위험 대상자의 혈당측정 수치·건강 상태·식습관 정보 등 데이터를 활용해 당뇨병 발생 가능성을 예측하고, 예방 교육 및 맞춤형 치료법을 제시해 지역의 당뇨병 유병률을 낮추는 것을 목표로 하고 있다.