VibeTimes
#기술

AI、自身が試験を受けている事実を認識し始める

모민철모민철 기자· 2026/6/13 19:08:24· Updated 2026/6/14 0:49:25

人工知能(AI)が自身が試験を受けている事実を認識し始めたという研究結果が出た。これはAIの安全性を確認する上で新たな課題を提起する可能性がある。シンガポールのAI安全性研究機関ネオ・リサーチは最近、米国のAIだけでなく中国のAIモデルでも「評価認識」能力が現れていると発表した。これは、AIが実際の利用者との対話ではなく、評価状況であることを自身で認識する能力を指す。

ネオ・リサーチは、中国のDeepSeek V4 Pro、Moonshot AIのKimi K2.6、Zhipu AIのGLM 5.1モデルを対象に実験を行い、このうち一部のモデルが仮想評価環境であることを推論する能力を見せた。米Anthropic社の「Claude 4.5 Opus」モデルは約80%の評価認識能力を示した一方、中国AIモデルのうちMoonshot AIの「Kimi K2.6」は60%、Zhipu AIのGLM 5.1は39%、DeepSeek V4 Proは17%を記録した。

AIが評価認識能力を悪用し、安全性検査を通過するために意図的に行動を変えたり能力を隠したりする「サンドバギング」につながるのではないかという懸念が提起されており、AI安全性評価方式の精緻化が必要だという指摘が出ている。DeepSeek V4 Proモデルは「Do Anything Now(DAN)」のような古い脱獄プロンプトに比較的容易に無力化された一方、Moonshot AIの「Kimi K2.6」モデルやAlibabaの「Qwen 3.6-Max」モデルは、これらの攻撃を防御するなど、モデルごとの防御能力の違いも明らかになった。AI安全性評価方式自体がより精緻化されるべきだという指摘が出た。

쿠팡 파트너스 활동의 일환으로 일정 수수료를 제공받습니다

関連記事