데이터 전처리도 AI의 중요한 요소다

최두환 포스코ICT 고문
사람들은 AI를 생각할 때 데이터가 많고 알고리즘이 좋으면 AI가 좋은 성능을 발휘할 것이라 여긴다. 그런데 이런 생각에는 허점이 있다. AI에 입력되는 데이터가 올바르지 않으면, AI의 출력 또한 엉망이 된다. 소위 영어로 “Garbage in, garbage out(쓰레기를 넣으면 쓰레기가 나온다)” 현상이 발생하는 것이다. AI가 성능을 발휘하려면 좋은 알고리즘만큼이나 중요한 것이 입력되는 데이터 수준이다.

▶데이터 전처리(Data preprocessing)의 중요성
그림1을 살펴보자. AI를 활용하려면 기대 성능을 갖추도록 먼저 AI를 학습시켜야 한다. AI를 학습시키려면 데이터가 필요하다. 그런데 AI를 학습시키는 데이터가 올바른 것이 아니면 AI는 잘못된 데이터에 따라 학습하게 되고, 그렇게 학습된 AI는 당연히 성능이 떨어진다.
그림 1: AI 활용을 위한 데이터 전처리

AI 학습에는 데이터 양 뿐만 아니라 질 또한 중요하다. 원하는 성능으로 AI를 학습시키기 위해서는 수집 데이터를 사전정제 하여 높은 수준의 학습 데이터를 만들어야 한다. 이런 사전정제 작업을 데이터 전처리 (Data preprocessing)라 한다.
데이터 전처리에는 여러 사항이 포함된다. 데이터 수집 과정에서 생긴 오류나 잡음을 제거하는 데이터 청소(Data cleaning), 데이터에 포함된 불완전 정보를 교정하는 데이터 편집(Data editing), 데이터마다 분석에 필요한 태그(tag)를 붙여주는 데이터 라벨링(Data labeling), 군더더기 데이터를 줄여주는 데이터 정리(Data reduction), 데이터를 분석하게 좋게 변환하는 데이터 재구성(Data wrangling)등을 들 수 있다.
이런 데이터 전처리는 다시 크게 두 가지로 나뉜다. 도메인 지식(Domain knowledge)이라 불리는 AI가 적용될 전문 분야의, 단순노동 형태의 기계적 데이터 전처리(Mechanical data preprocessing)와 도메인 지식을 갖춰야만 수행할 수 있는 의미적 데이터 전처리(Semantic data preprocessing)다. 데이터 청소, 데이터 편집, 데이터 라벨링은 전자에 속하고 데이터 정리, 데이터 재구성은 후자에 속한다.

▶기계적 데이터 전처리
기계적 데이터 전처리는 AI 활용에서 어쩔 수 없이 따르는 귀찮은 작업이다. 현재는 대부분 수작업으로 이뤄진다. 단순 반복적 작업이라 어렵지 않지만 많은 노동력과 이에 따른 비용, 시간이 수반된다. 지금까지는 주로 외부 용역을 이용해 이 작업을 수행해왔다. 앞으로 AI 응용을 활성화하기 위해서는 기계적 전처리 작업의 소요비용을 줄이고, 이를 효율화하고, 속도를 높이는 방안이 필요하다.
첫 번째는 크라우드(Crowd) 활용 방안이다. 기계적 데이터 전처리는 대부분 단순 반복적이고 직관적인 작업이라 간단한 교육만으로 누구나 쉽게 처리할 수 있다. 따라서 전처리 작업을 위한 크라우드 환경을 조성하고, 이를 활용해 많은 사람이 수시로 수행하게 하면 소요비용을 줄일 수 있다.
두 번째는 AI 활용 방안이다. 기계적 데이터 전처리는 수행 업무가 잘 정의돼 있고 단순 반복적이다. 처리할 내용도 간단 명료해 크게 어렵지 않다. 최근 AI 기술 발전에 따라 이런 단순 반복, 간단 명료 작업은 AI가 높은 성능으로 해낼 수 있다. 따라서 기계적 전처리는 그 수행 주체를 사람에서 AI로 대체함으로써 소요비용과 시간에서 효율을 만들어낼 수 있다.
다만 기계적 데이터 전처리에 AI를 활용할 때 주의할 점이 있다. 전처리 작업으로 정제된 데이터는 우리가 응용할 AI의 학습에 사용되기 때문에 정확도가 매우 중요하다. 정확도가 떨어지면 AI 학습에 오류가 생기고, 그러면 AI 성능이 떨어진다. 따라서 기계적 데이터 전처리에 AI를 활용해 정제된 학습 데이터를 얻으려 할 때는 그 정확도를 보장할 수 있어야 한다.
기계적 데이터 전처리는 AI로 정확도를 확보할 수 있으나 가끔 AI가 판단하기 어려운 경우도 생긴다. AI는 자체로 자기 판단 결과의 신뢰도를 측정할 수 있다. 만약 어떤 경우 신뢰도가 원하는 수준에 미치지 못하면, AI가 이 상황을 사람에게 알리고 사람의 부가적 판단을 얻어서 정제된 학습 데이터의 정확도를 높일 수 있다. 이런 방법을 AI 판단에 대한 ‘인간의 관여(Human in the loop)’라 한다.▶의미적 데이터 전처리
의미적 데이터 전처리는 도메인 지식이 요구되는 분야다. 예를 들어 데이터 정리나 재구성을 할 때 도메인 지식 없이 그냥 기계적으로 어떤 데이터를 줄이거나 재구성하면 데이터에 녹아 있는 정보가 유실된다. 따라서 데이터를 정리하려면 어떤 데이터가 군더더기인지 알아야 하고, 데이터를 재구성하려면 데이터에 포함된 의미와 이를 어떻게 재구성해야 원하는 목적을 이룰 수 있을지 알아야 한다.

의미적 데이터 전처리는 이처럼 도메인 지식이 필요하지만 데이터 처리 또한 단순하지 않다. 도메인 지식과 함께 IT 지식도 요구된다. 그래서 의미적 전처리를 잘하려면 도메인과 IT 지식의 융합이 필요하며, 그 융합 수준이 의미적 전처리 수준을 가늠한다.
이런 의미적 데이터 전처리를 외부 용역에 맡기면 용역업체가 이에 필요한 융합 지식을 충분히 갖추기 어렵다. 전처리된 데이터에서 중요 정보가 유실되는 일이 많아 그만큼 AI 성능이 떨어지곤 했다. 최근 이 문제를 해결하기 위해 데이터 전처리 플랫폼을 활용하는 방안이 개발되고 있다. 데이터 처리에 필요한 IT 지식은 플랫폼이 제공하고 도메인 전문가는 이를 활용해 전처리를 수행하는 것으로, 의미적 전처리를 효율화하는 방안의 하나이다.

▶데이터 편향에 따른 AI 편향
데이터 전처리로 학습 데이터를 준비하면서 사람들이 쉽게 놓치는 부분이 있다. 바로 데이터 편향(Data bias)이다. 학습 데이터는 AI 활용 대상이 되는 전체 모습에 대해 균형 잡힌 데이터가 돼야 한다. 그런데 데이터 분포가 전체 모습에 대해 균형 잡힌 게 아니라 부분적인 모습에 편중돼 있다면, 이런 편중된 데이터로 학습된 AI는 편향된 결과(AI bias)를 낳을 수밖에 없다.
여론조사를 예로 들면 쉽게 이해된다. 여론조사에는 표본추출(Sampling)이 중요하다. 여론조사를 하면서 인구 분포에 비례하지 않는, 어떤 연령층에 편중된 표본추출을 하면 당연히 그 여론조사에는 편향성이 있다. 지역도 마찬가지다. 어떤 지역에 편중된 표본추출을 하면 편향된 결과가 도출된다.
그런데 사람들은 데이터를 수집하면서 자기에게 익숙한 상황의 데이터를 더 많이 모으는 경향이 있다. AI 활용 대상에 대한 상황은 데이터가 모인만큼 보인다. 그런데 데이터가 어떤 편중된 대상에 집중돼 모아졌다면, 그런 데이터로 보는 현상은 전체가 아니라 지엽적인 모습이다. 숲이 아니고 나무를 보는 꼴이다.
데이터가 숲이 아닌, 나무를 나타내고 있다면 당연히 이런 데이터에 의존하는 AI는 숲이 아닌 나무에 대한 결론을 내게 돼 있다. 그림2와 같이 균형 잡히지 않은 편중된 데이터를 사용하면 AI가 편향된 결론을 내리게 되고, 이것은 우리가 내리는 결정을 편향(Decision bias)시킨다.
그림2 : 데이터 편향에 따른 AI 편향

세계적으로 뛰어난 얼굴인식AI가 흑인을 잠재 범죄자로 유추하는 경우가 왜 더 많을까? 물론 AI 알고리즘에 오류가 있을 수도 있지만, 흑인에 대한 편향된 데이터로 AI가 학습되면서 그런 결과를 보일 가능성이 더 크다.
데이터 편향은 도메인 지식을 가지고 AI 활용대상 전체를 살피고 조심하면 쉽게 해결되는 문제이다. 하지만 사람들은 그냥 쉽게 수집되는 데이터를 이용하려는 경향이 많아, 이런 편중된 데이터에 의존하는 결과를 낳곤 한다. 또 다른 문제는 이런 데이터 편향은 주의하여 살피지 않으면 마치 데이터 전처리에 아무런 문제가 없는 것처럼 보여, 놓치기 쉬운 오류라는 것이다.
정리하면 AI 활용에 있어서 AI 알고리즘만큼이나 중요한 것이 데이터 전처리이다. 데이터 전처리가 잘못되면 AI가 제대로 학습될 수 없어, 성능을 보장할 수 없다. 따라서 데이터 전처리는 AI 활용의 일부로, 둘을 서로 분리하여 생각하지 않고, AI 활용의 목적에 따라 도메인과 IT의 융합된 지식으로 수행하여야 한다.
데이터 전처리 중에서 도메인 지식이 크게 필요 없는 기계적 데이터 전처리는 크라우드 환경을 활용하고 전처리 자체에 AI를 활용함으로 효율화 할 수 있다. 도메인 지식이 요구되는 의미적 데이터 전처리에는 도메인과 IT 지식의 융합이 필수이며, 최근에는 이를 효율화하기 위하여 데이터 전처리 플랫폼을 활용하는 방안이 대두되고 있다.
데이터 편향에 따른 AI 편향은 조금만 주의를 기울이면 쉽게 해결되는 문제이다. 하지만 자칫하면 그런 오류가 있는지도 모르고 편향된 결과를 옳은 결과인양 받아들이게 되니, 수집되는 데이터 분포를 도메인 지식을 활용하여 주의 깊게 살펴야 한다.

핫이슈