'미세먼지 농도' 예측…어떤 데이터가 쓸모 있나

이승우 기자

입력2022.11.13 18:09 수정2022.11.14 00:43 지면A11

'코알못' 기자 AICE 도전기 (5)·끝

마지막으로 해볼 인공지능(AI) 모델링은 ‘미세먼지 수치 예측’이다. 주어진 데이터는 측정 일자의 평균 온도와 습도, 미세먼지 농도, 초미세먼지 농도, 이산화탄소(CO2) 농도, 소음, 유해가스 농도, 쾌적지수, 그리고 다음날(D+1) 미세먼지 평균 농도 등이다.

맞혀야 하는 D+1 미세먼지 농도가 레이블(label), 그 외의 정보는 피처(feature)다. 쓸모 있는 데이터와 그렇지 않은 데이터를 가려내기 위해 에이아이두 이지(AIDU ez)를 실행하고 데이터 분석에 나섰다.

‘기초 정보 분석’ 탭에서 항목별 데이터를 보면 결과에 영향을 주지 않는 데이터를 볼 수 있다. 행 번호를 기록한 인덱스와 모두 동일한 값을 보여주는 장치 서비스 ID, 하나의 값이 대다수를 차지하는 장치 모델명 등이 대표적이다. 평균 CO2 농도는 전체 2만 개 데이터 중 98.6%의 값이 ‘0’이라는 사실도 알 수 있다. 이 같은 데이터를 AI에 학습시키면 예측의 정확도를 떨어뜨릴 수 있으니 삭제한다.

다음으로 할 일은 값이 없는 데이터, 결측값을 채우는 일이다. 측정 범위와 평균 온도 데이터는 각각 300여 개의 결측값이 존재한다. ‘데이터 가공’ 탭에서 손쉽게 결측값을 입력할 수 있다. 측정 범위는 최빈값을, 평균 온도는 평균값을 선택했다.

데이터 전처리를 마쳤다면 AI 모델 학습을 시작할 차례다. 필요 없는 인덱스, 장비, CO2 등의 데이터는 피처에서 제외했다. 장소 코드 데이터의 유형은 숫자형(numerical)에서 범주형(category)으로 바꿔야 한다. 숫자형으로 두면 AI가 학습 과정에서 숫자 크기에 따른 가중치를 줄 수 있어서다.

D+1 미세먼지 농도를 아웃풋 데이터로 옮겨놓고 ‘학습 시작’을 누르면 AI 모델이 만들어진다. 변수 영향도를 확인한 결과 평균 쾌적지수가 다음날 미세먼지 농도에 가장 큰 영향을 미친다는 사실을 확인할 수 있다. AI 모델에 새로운 데이터를 입력하면 다음날 미세먼지 농도를 예측할 수 있다.

앞서 배운 타이타닉 생존자 예측 문제는 생존과 사망 가운데 하나를 예측하는 ‘분류(classification)’에 해당한다. 미세먼지 예측은 구체적인 수치를 맞히는 ‘회귀(regression)’ 문제로 볼 수 있다. 분류와 회귀는 머신러닝 방식 가운데 정답을 주고 AI를 학습시키는 ‘지도 학습’의 대표적인 유형이다. 제1회 AICE 정기시험에서 도 분류와 회귀에 관한 문제가 하나씩 출제됐다.

이승우 기자 leeswoo@hankyung.com

관련 뉴스

1

'AICE' 첫 시험 2000명 몰렸다

국내 유일의 인공지능(AI) 테스트인 AICE(AI Certificate for Everyone) 첫 정기시험에 2000명에 달하는 응시자가 몰렸다.13일 AICE 사무국에 따르면 지난 12일 열린 제1회 AICE 정기시험에 1984명이 참여했다. 기업이나 기관 단위로 참가한 사례도 59건 있는 것으로 나타났다. AICE는 한국경제신문사와 KT가 함께 개발한 AI 교육·평가 도구다. 첫 정기시험에는 비전공자를 대상으로 하는 베이식(BASIC)과 준전문가 대상 어소시에이트(ASSOCIATE) 두 종류의 시험이 치러졌다.내년에는 분기에 한 차례씩 정기시험이 열린다. 전문가용 프로페셔널(PROFESSIONAL) 시험과 중·고등학생 대상 주니어(JUNIOR), 초등학생용 퓨처(FUTURE) 등 시험 과목도 세분화한다.이승우 기자 leeswoo@hankyung.com
2

"AI는 어렵다, 심리적 장벽 깨"…대기업 30곳 "AICE 자격증 우대"

지난 12일 열린 제1회 AICE(AI Certificate for Everyone) 정기시험에서 절반이 넘는 1015명의 응시자가 ‘베이식(BASIC)’ 시험을 선택했다. 인공지능(AI)에 관심은 있지만 접점이 없었던 비전문가들의 관심이 폭발적이었다. 기업에선 내부 교육 프로그램으로 활용하는 것은 물론 새로운 프로젝트에 AI를 폭넓게 도입할 수 있을 것이란 목소리가 나왔다. 대학생들 사이에서도 ‘취업에 도움이 되는 유용한 시험’이란 호평이 쏟아졌다. “막연한 심리적 장벽 낮추는 기회”이번 AICE 베이식 시험에선 주어진 데이터를 분석하고 AI 모델을 만들어 이를 활용해 가상의 데이터를 대입할 때 어떤 결과가 나올 것인지 예측하는 문제 2개가 출제됐다. 현업에서 사용하는 데이터를 가공한 만큼 준비 과정에서 데이터 활용에 대한 인사이트를 얻을 수 있다는 게 응시자들의 공통된 반응이었다. 특히 그동안 AI를 접하기 어려웠던 문과 계열 학생들의 반응이 뜨거웠다. 신재은 씨(23·중앙대 광고홍보학과 3학년)는 “그동안 막연하게 ‘AI는 어려울 것’이라는 심리적 장벽이 있었다”며 “이번 AICE 시험을 준비하면서 이런 심리적 장벽을 낮추고, 멀게만 느껴졌던 AI 분야가 흥미롭게 다가왔다”고 말했다.AI에 대한 지식을 통해 취업 기회를 넓힐 수 있을 것이란 반응도 많았다. 전서원 씨(22·동덕여대 국어국문학과 3학년)도 “비전공자임에도 큰 어려움 없이 데이터 해석과 실질적인 AI 활용 능력 등을 경험하고 배울 수 있었다”며 “AI를 활용한 실무에 대한 자신감은 물론 AI를 더 공부하고 싶다는 도전 의식도 품게 됐다”고 전했다.파이선과 각종 머신러닝 라이브러리를 쓸 수 있는 준전문가 대상 어소시에이트 시험에서도 단편적 지식보다 실제 데이터를 분석하고 AI 모델을 만드는 과정을 묻는 문제가 나왔다. 어소시에이트 시험에 응시한 베스핀글로벌의 한 관계자는 “주어진 조건에서 값을 구하는 실습 문제가 많아 생각보다 난도가 높았다”며 “이론 공부보다는 사례 위주로 실제 애플리케이션을 돌려보는 연습이 더 필요할 것 같다”고 설명했다. 대웅제약, 사내 교육과 AICE 연계AICE 시험을 사내 교육 프로그램과 연계하거나 평가에 활용하는 기업도 늘어나는 추세다. 사내 교육 프로그램인 DABA(Daewoong AI Big data Academy·다바)를 운영 중인 대웅제약이 대표적 사례다. 다바 프로그램 이수자들은 다음달 AICE 특별 시험을 통해 그동안 갈고닦은 AI 능력을 검증할 계획이다. 7기 교육 프로그램에 참여한 34명과 사내 IT 운영팀 6명 등 총 40명이 AICE에 응시할 예정이다.대웅제약은 AICE를 통해 다바 교육의 효과를 확인할 계획이다. 회사 관계자는 “교육 프로그램의 완성도에는 자신이 있었지만, 참가자들의 실력을 객관적으로 검증할 수단이 없었다”며 “다바와 AICE를 연계하면 데이터 전처리와 모델링 등의 이해도가 더 높아질 것”이라고 말했다.KT를 비롯해 현대중공업, 동원그룹, 신한은행, 하나은행 등이 AICE를 채용 및 사내 교육 등에 활용하고 있다. 채용 때 AICE 자격 소지자를 우대하는 기업도 KT, 현대중공업, 동원F&B 등 30곳에 달한다.이승우/이지현/선한결 기자 leeswoo@hankyung.com
3

지하철 붐비는 요일?…상명대생 "현장형 AI, 배울 맛 나"

‘코로나19가 잦아든 내년 봄, 주요 벚꽃 명소에는 얼마나 많은 사람이 몰릴까.’ ‘서울 시내 지하철이 가장 붐비는 건 어느 요일, 어느 시간대일까.’이번 학기 상명대에 개설된 ‘AI+X 선도 인재 기초 프로젝트’ 수업의 주제다. 해결할 문제들을 직접 발굴하고, 인공지능(AI) 알고리즘을 활용해 답하는 식으로 프로젝트가 진행된다. 데이터를 분석하는 데 적절한 알고리즘을 ‘사이킷런’과 같은 라이브러리에서 골라내 자신만의 예측 모델을 만드는 게 핵심이다. 이렇게 습득한 문제해결력을 바탕으로 AICE(AI Certificate for Everyone) 자격에 도전하는 것으로 프로젝트가 마무리된다. “AI는 공대생 전유물 아니야”13일 교육계에 따르면 상명대와 성균관대 등이 한국경제신문사와 KT가 함께 개발한 AI 교육·평가 도구인 AICE와 연계한 교육과정을 마련해 운영하고 있다.상명대의 ‘AI+X 선도 인재 양성 프로그램’ 과정이 대표적인 사례로 꼽힌다. 자신의 전공 분야인 ‘X’에 AI를 접목할 수 있는 역량을 길러준다는 의미로 ‘AI+X’라는 이름을 붙였다는 게 상명대의 설명이다. KT 현직자와 상명대 교수들이 협업해 과정을 꾸렸고, 12학점의 과정을 이수하면 연말에 도입될 AI 부문 ‘마이크로 디그리’를 취득할 수 있다.지난 9월 시작한 첫 수업엔 30여 명이 참여했다. 전공자로서 AI 개발자가 되려는 학생들뿐 아니라 생명공학·경영학·경제학 등 다양한 전공 배경을 가진 학생들이 지원했다. 생명공학 전공자는 바이오 데이터를, 경영·경제 전공자는 금융 소비 데이터를 활용해 각 전문 분야의 문제를 해결하는 식으로 전공을 살린다.이지항 상명대 휴먼지능정보공학전공 교수는 “기존의 교육과정이 연구자를 양성하기 위한 이론에 집중했다면, 이 과정은 데이터에서 의미를 뽑아내 시장을 형성할 수 있는 ‘현장용 AI 역량’을 기르는 데 초점을 맞춘다”고 설명했다. 이어 “다양한 전공의 학생들이 AI를 손쉽게 활용할 수 있도록 하는 것이 궁극적인 목표”라고 덧붙였다.과정을 마친 학생들이 AICE 자격에 도전한다는 점도 눈여겨볼 만하다. 비전공생들은 코딩 없이 업무에 AI를 활용하는 능력과 결과 해석력을 평가하는 ‘베이식’ 단계를 목표로 한다. 전공생은 파이선의 머신러닝, 딥러닝을 이용한 모델링까지 평가하는 ‘어소시에이트’ 단계가 목표다. 이 교수는 “베이식 단계만 취득해도 기업에서 서비스나 사업을 기획할 때 개발자와 수월하게 소통할 수 있다”며 “어소시에이트를 따면 데이터의 의미를 추출해 실무에 활용하는 능력이 있다고 볼 수 있다”고 설명했다. 성균관대, 졸업 요건에 AICE 포함성균관대에서는 지난 여름방학 ‘도전학기’에 165명의 학생이 AICE를 취득하기 위한 수업을 2주간 들었다. 성균관대는 올해부터 AICE를 졸업 요건에 포함했다. 졸업하려면 ‘신 3품 인증’을 받아야 하는데, 이 3품 중 하나인 AI 분야에 AICE가 들어갔다.수업은 철저히 실전 위주였다. 특정한 문제를 해결하기에 적합한 알고리즘을 골라내고 사용할 수 있도록 ‘사이킷런’, ‘텐서플로’와 같은 딥러닝 라이브러리 활용법을 배웠다. 오하영 성균관대 소프트웨어융합대학 교수는 “지난여름 수업은 주어진 예제를 해결하고, 자격증을 취득하는 데 집중됐다”며 “장기적으로는 학생이 직접 문제를 발굴하고, 이를 해결하기 위해 AI를 활용하는 프로젝트를 함께 진행하는 프로그램을 마련할 계획”이라고 말했다.최예린 기자 rambutan@hankyung.com