맞혀야 하는 D+1 미세먼지 농도가 레이블(label), 그 외의 정보는 피처(feature)다. 쓸모 있는 데이터와 그렇지 않은 데이터를 가려내기 위해 에이아이두 이지(AIDU ez)를 실행하고 데이터 분석에 나섰다.
‘기초 정보 분석’ 탭에서 항목별 데이터를 보면 결과에 영향을 주지 않는 데이터를 볼 수 있다. 행 번호를 기록한 인덱스와 모두 동일한 값을 보여주는 장치 서비스 ID, 하나의 값이 대다수를 차지하는 장치 모델명 등이 대표적이다. 평균 CO2 농도는 전체 2만 개 데이터 중 98.6%의 값이 ‘0’이라는 사실도 알 수 있다. 이 같은 데이터를 AI에 학습시키면 예측의 정확도를 떨어뜨릴 수 있으니 삭제한다.
다음으로 할 일은 값이 없는 데이터, 결측값을 채우는 일이다. 측정 범위와 평균 온도 데이터는 각각 300여 개의 결측값이 존재한다. ‘데이터 가공’ 탭에서 손쉽게 결측값을 입력할 수 있다. 측정 범위는 최빈값을, 평균 온도는 평균값을 선택했다.
데이터 전처리를 마쳤다면 AI 모델 학습을 시작할 차례다. 필요 없는 인덱스, 장비, CO2 등의 데이터는 피처에서 제외했다. 장소 코드 데이터의 유형은 숫자형(numerical)에서 범주형(category)으로 바꿔야 한다. 숫자형으로 두면 AI가 학습 과정에서 숫자 크기에 따른 가중치를 줄 수 있어서다.
D+1 미세먼지 농도를 아웃풋 데이터로 옮겨놓고 ‘학습 시작’을 누르면 AI 모델이 만들어진다. 변수 영향도를 확인한 결과 평균 쾌적지수가 다음날 미세먼지 농도에 가장 큰 영향을 미친다는 사실을 확인할 수 있다. AI 모델에 새로운 데이터를 입력하면 다음날 미세먼지 농도를 예측할 수 있다.
앞서 배운 타이타닉 생존자 예측 문제는 생존과 사망 가운데 하나를 예측하는 ‘분류(classification)’에 해당한다. 미세먼지 예측은 구체적인 수치를 맞히는 ‘회귀(regression)’ 문제로 볼 수 있다. 분류와 회귀는 머신러닝 방식 가운데 정답을 주고 AI를 학습시키는 ‘지도 학습’의 대표적인 유형이다. 제1회 AICE 정기시험에서 도 분류와 회귀에 관한 문제가 하나씩 출제됐다.
이승우 기자 leeswoo@hankyung.com