사진과 기사는 큰 관련 없음.  /사진=게티이미지뱅크
사진과 기사는 큰 관련 없음. /사진=게티이미지뱅크
서술형 답안을 정확하게 채점해주는 인공지능(AI)이 개발됐습니다. 사람이 논술형 답안을 채점하는 수준의 정확도로 필기 답안을 빠르게 분석하고 채점해주는 기술입니다. 향후 이런 기술이 고도화된다면 객관식 문항을 채점해주는 OMR 카드처럼 서술형 문항도 오류 없이, 빠른 자동 채점 시스템이 구현될 것이란 관측입니다.

이시오카 츠네노리 일본 대학입시센터 교수와 나카가와 마사키 도쿄농공대학교 특임교수는 학생들이 수기로 작성한 서술형 일본 '대학입시센터시험' 문항을 최신 AI에 자동 채점시킨 결과 거의 인간과 같은 수준의 정확도로 채점이 이뤄졌다고 합니다. 일본 대학입시센터시험은 한국의 대학수학능력시험에 해당하는 시험입니다.

일본 정부는 특히 대학 입시에서 서술형 문항 도입을 적극적으로 고려하고 있습니다. 한국의 교육부와 과학기술정보통신부를 합친 격인 일본의 행정기관 문부과학성은 학생들의 사고력과 표현력, 판단력을 측정하기 위해 대학입시센터에서 서술형 문항 도입을 검토해오고 있다고 합니다. 서술형 문항은 다지선 문항을 풀며 아무 답안이나 선택하는 시쳇말로 '찍기'도 불가능해 보다 객관적이기도 합니다.

이러한 상황에서 서술형 문항 도입 여부를 결정지을 핵심 사안 중 하나는 자동 채점 시스템을 구축하는 것입니다. 사람이 서술형 문항을 채점한다면 채점자마다 점수 편차를 보이거나, 혹여나 오류가 발생할 수도 있기 때문입니다. 수많은 학생의 답안을 모두 일일이 채점한다면 시간도 오래 걸립니다. 더군다나 시험이 학생들의 대학 진학을 결정지을 입시 시험이라면 더욱 객관적인 채점 기준이 필요합니다.

일본은 서술형 자동 채점 시스템 구축에 한발 더 나아간 모습입니다. 모든 건 AI 덕분입니다. 츠네노리 교수 등은 12만 건에 달하는 채점 데이터를 활용해 2년간 연구를 진행한 결과 AI를 통해 사람이 채점하는 것과 약 96%의 정확도로 채점할 수 있게 됐다고 합니다. 가장 정확도가 낮은 경우에도 93% 아래로 떨어지진 않았다고 합니다. 처리 속도도 빠릅니다. 25개 음절의 답안은 0.059초만에, 80~120개 음절의 답안은 029초안에 이뤄졌다고 합니다.

연구진에 따르면 필기를 인식하는 AI가 학생들의 서술형 답안을 파악한 뒤, 답안의 전후 관계, 글의 맥락 등을 분석한다고 합니다. 이 과정에서 100만 개 이상의 사람의 필기 데이터를 사전에 학습한 심층 AI 4개가 함께 활용됩니다. 4명의 인간 채점자가 교차 검증하는 구조인 셈이죠. 이후 구글의 딥러닝 언어처리 모델 '버트(BERT)'를 이용해 성적을 총 7단계로 세분화해 채점합니다.

이번 연구에서 기술적으로 눈여겨볼 부분은 크게 두 가지입니다. 사람들의 수기 답안을 인식하는 것부터 채점까지 모두 한 번에 이뤄진다는 것입니다. 별도의 추가 알고리즘 없이도 답안 인식 과정에선 수정 테이프와 지우개 자국 등을 파악하고, 일정한 정확도로 채점을 진행합니다. 본래 하나의 AI 솔루션을 만들 땐 정확도를 높이기 위해 다양한 수정 알고리즘을 도입하는 게 일반적이지만, 이번 자동 채점 시스템은 단번에 '인간에 필적하는' 정확도의 시스템으로 개발됐다는 것이죠.

두 번째는 12만 건에 달하는 채점 데이터를 활용했다는 것입니다. 니혼게이자이신문에 따르면 시험 채점 데이터는 일반적으로 비공개로 돼 있고, 연구가 목적이라 하더라도 활용할 수 있는 데이터는 한정돼 있습니다. 매체는 "해당 주제와 관련된 국내외 연구 사례를 찾아봐도 활용되는 데이터는 2000건 정도에 그친다"며 "12만 건에 달하는 빅데이터를 활용한 자동 채점 시스템 구현은 아마 세계 최초일 것"이라고 전했습니다.

물론 이 자동 채점 시스템이 아직 상용화될 정도로 완전한 것은 아닙니다. 앞서 언급했듯 해당 모델은 정해진 채점 데이터를 기반으로 작동하는 만큼, 대학입시센터시험에 특화된 귀납적(inductive) 모델에 가깝습니다. 쉽게 말하면 대량의 개별 데이터가 있어야만 채점이 가능한 시스템입니다. 그러나 앞으로는 모범 답안 한 개만 있어도 이를 정답으로 인식해 채점을 할 수 있는 '연역적(deductive) 모델로 나아가야 한다는 설명입니다.

또한 자동 채점 시스템에 대한 신뢰도를 높일 필요도 있습니다. 예컨대 사람과 AI가 동시에 채점을 한 뒤, 오류가 발생했다면 다른 사람이 교차 검증하는 식으로 채점에 대한 학생들의 신뢰도를 높여야 한다는 설명입니다. 이 두 가지 방향으로 자동 채점 시스템이 발전된다면 대학입시 시험뿐만 아니라 학교 일선 현장에서도 활용될 수도 있게 된다는 설명입니다.

배성수 IT과학부 기자