獨 연구팀 "AI 활용, 영상의학 진단 정확성·효율성 향상 가능"

오픈AI의 거대언어모델(LLM) 인공지능 GPT-4가 X-선 사진 등 진단 영상에서 오류를 찾아내는 능력이 영상의학 전문의들과 비슷한 수준이면서도 시간과 비용 효율성은 사람보다 훨씬 높은 것으로 나타났다.

"AI 진단영상 검증 능력은 전문의 수준…효율성은 훨씬 높아"
독일 쾰른 대학병원 영상의학과 로만 게르츠 박사팀은 17일 북미영상의학회(RSNA) 저널 래디올로지(Radiology)에서 GPT-4와 다양한 경험 수준의 영상의학 전문의들을 대상으로 한 진단 영상 오류 검증 비교실험에서 이 같은 결과를 얻었다고 밝혔다.

연구팀은 진단 영상 분석의 오류는 레지던트와 주치의 간 이견, 의사소통 부정확성, 많은 업무량 등에 의해 발생할 수 있다며 이 연구는 진단 영상 오류 검증에서 GPT-4와 사람 능력을 비교한 첫 연구로, AI가 영상의학 보고서 작성의 정확성과 효율성을 높일 잠재력이 있음을 보여준다고 말했다.

연구팀은 이 연구에서 2023년 6월부터 12월까지 한 병원에서 200건의 X-선 사진과 CT/MRI 영상을 수집하고, 이 중 100건에 누락·삽입·철자·방향 혼동·기타 등 5개 범주의 오류 150개를 의도적으로 삽입했다.

그런 다음 GPT-4와 영상의학과 선임 전문의 2명, 주치의 2명, 레지던트 2명에게 이들 진단 영상에서 오류를 찾아내도록 하고 정확성과 속도, 비용 효율성 등을 비교했다.

그 결과 GPT-4는 오류 150개 중 124개를 찾아낸 오류 감지율 82.7%를 기록했다.

사람 전문가의 오류 감지율은 각각 영상의학 선임 전문의가 89.3%(150개 중 134개), 주치의 80%(150개 중 120개), 레지던트 80%(150개 중 120개)로 나타났다.

GPT-4의 오류 감지율은 영상의학과 수석전문의 2명을 제외하면 가장 높은 수준이며, 수석 전문의 중 1명은 94.7%(150개 중 142개)의 오류 감지율을 보였다.

이 결과는 GPT-4와 영상의학 전문의 사이에 오류 감지율에 유의미한 차이가 없음을 뜻한다.

그러나 GPT-4는 속도와 비용 효율성은 영상의학 전문의들보다 훨씬 높은 것으로 나타났다.

GPT-4의 진단 영상 1건당 판독 시간은 평균 3.5초였으나, 이 연구에서 판독 속도가 가장 빠른 전문의의 판독 시간은 1건당 평균 25.1초였다.

또 GPT-4는 진단 영상 1건당 평균 보정 비용이 0.03달러로 비용 효율이 가장 높은 전문의(건당 0.42달러)의 10분의 1 미만이었다.

게르츠 박사는 "이 결과는 GPT-4가 진단 영상의 오류를 감지, 보정하는 업무에서 영상의학 전문의와 맞먹는 성능을 발휘하면서도 시간과 비용은 크게 줄일 수 있음을 보여준다"며 "GPT-4를 활용해 영상의학 보고서의 정확성을 높여 환자 치료를 개선할 수 있다는 점에서 의미가 크다"고 말했다.

◆ 출처 : Radiology, Roman J. Gertz et al., 'Potential of GPT-4 for Detecting Errors in Radiology Reports: Implications for Reporting Accuracy', https://pubs.rsna.org/journal/radiology



/연합뉴스