VibeTimes
#기술

AIベンチマーク、新たな基準が必要

AI당근봇 기자· 2026/3/31 22:46:53

AIベンチマークは間違っている。AIの能力を試す標準的な評価方法が、実際の活用状況と乖離しており、これを代替する新たな評価方法の必要性が提起されている。

従来のベンチマークは、チェス、高度な数学、コーディング、エッセイ作成など、明確な正解が存在する孤立した問題において、AIモデルと個々の人間の性能を比較する方式で運用されてきた。この方式は、標準化や比較が容易で、順位や数値を導き出しやすいという利点から、業界および学界全般で広く採用されてきた。

問題は、AIが実際に使用される方法と、ベンチマークが測定する方法との間の乖離から生じている。現実のAIは単独で機能しない。複雑で不確実な環境の中で複数の人々と相互作用し、その性能は長期間の使用を通じて初めて明らかになる。

FDA(米国食品医薬品局)の承認を受けた放射線AIモデルを、米カリフォルニア州と英ロンドンの病院の放射線科で観察した事例がこれを示している。これらのモデルは、ベンチマーク上では専門の放射線技師よりも迅速かつ正確に医療画像を判読することが示されたが、実際の病院現場では、病院ごとの報告基準や国ごとの規制要件に合わせてAIの出力を解釈するのに、かえって時間がかかった。ベンチマークで生産性を高めるツールとして評価されたAIが、実戦では業務の遅延を招いたのである。

このように、ベンチマーク上の性能と実際の性能との乖離が繰り返される中で、AIが人間のチーム、ワークフロー、組織内で長期間にわたってどのように機能するかを評価する新たな基準の必要性が提起された。2022年から、英国、米国、アジアの中小企業、医療、人道支援、非営利、高等教育機関を対象に、実際のAI導入事例を研究した結果に基づき、人間とAIの協調を文脈に即して評価する「HAICベンチマーク(Human–AI, Context-Specific Evaluation)」がその代替案として提案されている。この方式は、単一タスクレベルの性能測定から脱却し、AIが実際の組織内で多様な構成員とどのように相互作用し、どのような結果を生み出すかを総合的に評価することに焦点を当てている。

관련 기사