"한국 한의학 특성 잘 반영 못하는 약점도 노출"
가천대 연구팀 "챗봇 GPT-4, 한의사 국가시험 통과 수준 성능"
가천대학교 한의과대학 김창업 교수 연구팀은 생성형 인공지능 챗봇 모델 GPT-4가 한의사 국가시험을 통과하는 수준의 성능을 나타냈다고 22일 밝혔다.

이 연구 결과는 온라인 과학 저널 '플로스 디지털 헬스'(PLOS Digital Health)에 실렸다.

연구팀은 GPT-4 모델을 한의학 인공지능 개발에 적용할 수 있을지 등을 평가하기 위해 이번 연구를 진행했다.

앞서 연구에서는 GPT-4가 2022년 시행된 한의사 국가시험에서 평균 57.59%의 정답률을 기록해 합격선(60% 이상)에 약간 못 미쳤으나 이번 연구에서는 GPT-4의 언어모델에 문항을 제시하는 방식을 최적화해 모델의 성능을 극대화하는 기법인 '프롬프트 엔지니어링'을 활용했다.

그랬더니 이번 시험 결과에선 합격선을 웃도는 정답률을 보였다.

2022년 한의사 국가시험 문제를 GPT-4에 제시한 뒤 정답률을 평가했는데 GPT-4는 340문항 중 225문항을 맞혀 66.18%의 정답률을 나타냈다.

과목별 정답률도 과락 기준인 40%보다 높게 나왔다.

GPT-4는 과목별 정답률의 편차가 크게 나타났는데 국제적으로 표준화된 진단기준에 대한 문제가 주로 출제된 본초학, 소아과학, 부인과학 과목은 81.2%, 81.2%, 79.2%의 높은 정답률을 보였다.

반면 한국 한의학의 특성을 반영하는 보건의약관계법규, 사상의학 과목은 40.0%, 43.8%로 상대적으로 낮은 정답률을 나타냈다.

연구팀은 "한국어로 된 문항을 언어모델에 그대로 입력했을 때는 평균 정답률이 51.82%였는데, 한의학 용어를 한자로 함께 적었을 때는 57.59%, 지시와 문제를 영어로 스스로 번역하게 한 뒤 이 문제를 풀게 했을 경우는 63.65%로 상승해 정답률이 높아지는 것을 확인했다"라고 말했다.

그러면서 "이번 연구에서 GPT-4는 한국의 특수성을 잘 반영하지 못할 수 있다는 점을 보였다"라며 "추후 의료 인공지능 모델을 개발할 때 각 국가와 지역의 특수성을 반영할 수 있는 노력이 필요할 것으로 보인다"라고 밝혔다.

가천대 연구팀 "챗봇 GPT-4, 한의사 국가시험 통과 수준 성능"
/연합뉴스