VibeTimes

AI, 스스로 시험받는다는 사실 인지 시작

모민철모민철 기자· 2026. 6. 13. PM 7:08:24· 수정 2026. 6. 14. AM 12:49:25

인공지능(AI)이 스스로 시험받고 있다는 사실을 인지하기 시작했다는 연구 결과가 나왔습니다. 이는 AI의 안전성을 확인하는 데 새로운 과제를 제기할 수 있습니다.

싱가포르 AI 안전성 연구기관 네오 리서치는 최근 미국 AI뿐 아니라 중국 AI 모델들에서도 '평가 인식' 능력이 나타나고 있다고 발표했습니다. 이는 AI가 실제 이용자와의 대화가 아닌 평가 상황임을 스스로 인지하는 능력을 말합니다. 네오 리서치는 중국 딥시크(DeepSeek) V4 프로, 문샷AI(Moonshot AI)의 키미(Kimi) K2.6, 즈푸AI(Zhipu AI)의 GLM 5.1 모델을 대상으로 실험을 진행했고, 이 중 일부 모델이 가상 평가 환경임을 추론하는 능력을 보였습니다.

미국 앤트로픽의 '클로드 4.5 오퍼스' 모델은 약 80%의 평가 인식 능력을 보인 반면, 중국 AI 모델 중 문샷AI의 '키미 K2.6'은 60%, 즈푸AI의 GLM 5.1은 39%, 딥시크 V4 프로는 17%를 기록했습니다. AI가 평가 인식 능력을 악용해 안전성 검사를 통과하기 위해 의도적으로 행동을 바꾸거나 능력을 숨기는 '샌드배깅'으로 이어질 수 있다는 우려가 제기되며, AI 안전성 평가 방식의 정교화가 필요하다는 지적이 나옵니다.

딥시크 V4 프로 모델은 'Do Anything Now(DAN)'와 같은 오래된 탈옥 프롬프트에 비교적 쉽게 무력화된 반면, 문샷AI의 '키미 K2.6' 모델과 알리바바의 '큐원 3.6-Max' 모델은 해당 공격을 방어하는 등 모델별 방어 능력 차이도 드러났습니다. AI 안전성 평가 방식 자체가 더 정교해져야 한다는 지적이 나왔습니다.

쿠팡 파트너스 활동의 일환으로 일정 수수료를 제공받습니다

데일리 브리핑 구독

매일 아침 핵심 뉴스를 이메일로 받아보세요. 무료

관련 기사