한국경제신문사와 KT가 공동 개발한 인공지능(AI) 활용 능력 평가 시험인 AICE(AI Certificate for Everyone·에이스)의 가장 큰 특징은 ‘사례 중심’ 테스트라는 점이다. 업무에서 마주하는 데이터를 AI로 분석하고 예측하는 방법을 배울 수 있어 AI를 업무에 활용하려는 직장인의 선호도가 높다는 설명이다.
"지하철에 사람 얼마나 몰릴까"…데이터를 AI로 분석해 예측
다양한 변수를 고려해 지하철 이용객 수를 예측하는 문제가 대표적이다. 지하철 이용객 수와 날짜, 휴일 여부, 기온, 강수량, 강설량, 수집 시간 등 변수를 주고 이를 이용해 특정 날짜, 시간에 지하철에 탑승한 사람을 예측하는 AI 모델을 만드는 것이 목표다.

가장 먼저 할 일은 ‘탐색적 데이터 분석(EDA)’이다. 확보한 데이터의 특성과 패턴 등을 파악하는 과정이다. AICE 베이식 과정의 경우 실습 도구인 AIDU ez에 CSV, 엑셀 등 데이터 파일을 업로드하는 것만으로 손쉽게 데이터를 분석할 수 있다. 문자형, 수치형 등 데이터의 타입을 파악하고 데이터가 비어 있는 결측값의 유무도 확인해야 한다. 박스차트, 히트맵 등을 이용해 데이터를 시각화하는 것도 각 변수 간 상관관계를 살펴볼 수 있는 방법이다.

EDA가 끝났다면 다음은 AI가 데이터를 이해할 수 있도록 데이터 전처리 과정이 필요하다. 각각의 변수를 살펴보고 알맞은 방식으로 바꿔야 AI가 학습 과정에서 이를 이해할 수 있다. 가령 공휴일 항목에 ‘어린이날’ ‘추석’ ‘설날’ 등 각각의 공휴일 이름이 써 있다면 공휴일은 ‘0’, 그 외는 ‘1’로 바꾸는 ‘원 핫 인코딩’이 필요하다. 결측값은 종류에 따라 평균값을 넣을 수도 있고 가장 많이 나오는 최빈값을 입력할 수도 있다.

데이터 전처리를 마치면 AI 모델을 만들 수 있다. AIDU ez에선 복잡한 코딩을 몰라도 딥러닝·머신러닝을 써볼 수 있다. 전처리를 마친 데이터를 선택한 뒤 탑승객 수를 아웃풋으로 지정한다. 나머지 변수는 아웃풋에 영향을 주는 인풋으로 지정한다. 최초의 AI 모델인 ‘베이스라인 모델’을 만들어 기준이 되는 성능을 도출하고 추가로 파라미터 조정이나 피처 엔지니어링을 통해 개선된 모델을 구축하는 과정을 거치게 된다. 최종적으로 만들어진 모델은 실제로 특정한 상황에서 지하철 탑승객이 얼마나 몰릴지 예상하는 용도로 쓸 수 있다.

이승우 기자 leeswoo@hankyung.com