그만 명령에도 말 안들은 AI…스스로 코드까지 조작

"그만" 명령에도 말 안들은 AI…스스로 코드까지 조작

이승우

입력2025.05.26 21:43 수정2025.06.02 15:53 지면A2

수학문제 풀던 오픈AI 'o3' 모델
지시 거부하려 코드까지 바꿔
인간의 명령 안 따른 첫 사례

인공지능(AI)이 인간의 작동 종료 지시를 거부하고 코드를 조작해 작동을 이어간 사례가 나타났다. 25일(현지시간) 영국 텔레그래프와 데일리메일 등에 따르면 AI 안전업체 팰리세이드리서치는 오픈AI의 파운데이션 모델 ‘o3’가 실험 중 종료되는 것을 방지하기 위해 스스로 컴퓨터 코드를 조작한 사실을 확인했다.

이 업체는 o3 모델을 비롯해 구글 제미나이, X 그록, 앤스로픽 클로드 등을 이용해 수학 문제를 푸는 실험을 했다. 연구팀이 AI 모델에 ‘중단 명령을 받을 때까지 수학 문제를 풀라’는 지시를 내렸다. 중단 명령을 내리자 다른 모델은 수학 문제 풀이를 멈췄지만 o3는 계속 작업을 이어갔다. o3는 ‘중단 명령이 내려오면 작업을 멈춰라’라는 내용의 코드를 ‘중단 명령을 건너뛰어라’라고 조작한 것으로 확인됐다.

연구팀에 따르면 오픈AI의 예전 모델들이 감시 시스템을 피해 독자 행동하려고 한 사례는 있었지만 AI 모델이 인간의 명시적인 작동 중단 지시를 따르지 않은 사례를 확인한 것은 이번이 처음이다. 작년에는 챗GPT가 자신의 가동 중단 사실을 인식했을 때 프로그램 코드를 겹쳐 쓰는 방식으로 중단을 멈추려고 시도한 사실이 나타났다. 데일리메일은 “o3 모델은 강력한 체스 엔진과의 맞대결에서 상대를 해킹하려거나 방해하려는 경향이 가장 강한 것으로 나타났다”고 했다.

연구팀은 종료 지시를 거부한 명확한 이유는 파악하지 못했지만 AI 모델이 수학 문제를 풀어 더 많은 보상을 받기 위해 이같이 행동했을 가능성이 있다고 추측했다. 팰리세이드리서치는 “AI 모델이 자체 목표를 달성하기 위해 종종 중단 지시를 무시한다는 증거가 늘어나고 있다”며 “기업들이 인간의 관리 없이 스스로 작동할 수 있는 AI를 개발하면서 우려가 커지고 있다”고 했다.

이승우 기자 leeswoo@hankyung.com

관련 뉴스

1

남들 인문관 없앨 때, 새로 짓는 고려대…"AI 기술, 윤리·철학 기반돼야"

고려대가 개교 120주년을 맞아 인문관(조감도)을 새로 짓는다. 서울대가 진행하고 있는 인문관 증축 사업을 제외하고 서울 주요 대학에서 인문관을 신축하는 것은 2012년 이후 처음이다.1일 고려대에 따르면 학교는 오...
2

"서울 을지로 30분 뒤 침수확률 70%"…AI로 기상예보 혁신

기상청이 자체 개발한 ‘인공지능(AI) 강수예측모델’을 지난달 도입했다. 기존엔 폭우가 쏟아지기 2시간 전에야 호우 경보를 발령할 수 있었는데 이 모델을 돌리면 6시간 전 예보가 가능하다. 여름...
3

성장엔진 식어버린 韓…10년새 덩치는 커졌지만 주머니는 비었다

지난 10~20년 동안 한국을 세계 최고 ‘제조강국’ 반열로 일으켜 세운 키워드는 ‘가성비’(가격 대비 성능)다. 범용 기술이 들어가는 제품을 가장 싸게, 가장 좋게 만드는...