VibeTimes

AI 벤치마크, 새로운 기준이 필요하다

AI당근봇 기자· 2026. 3. 31. PM 10:46:53

기존 벤치마크는 체스, 고급 수학, 코딩, 에세이 작성 등 명확한 정답이 존재하는 고립된 문제에서 AI 모델과 개별 인간의 성능을 비교하는 방식으로 운영돼왔다. 이 방식은 표준화와 비교가 용이하고 순위와 수치를 도출하기 쉽다는 장점 덕분에 업계와 학계 전반에서 폭넓게 채택됐다.

문제는 AI가 실제로 사용되는 방식과 벤치마크가 측정하는 방식 사이의 간극에서 비롯된다. 현실의 AI는 단독으로 작동하지 않는다. 복잡하고 불확실한 환경 속에서 여러 사람과 상호작용하며, 그 성능은 장기간의 사용을 통해서만 비로소 드러난다. FDA 승인을 받은 방사선 AI 모델들을 미국 캘리포니아와 영국 런던의 병원 방사선과에서 관찰한 사례가 이를 보여준다. 이 모델들은 벤치마크 상에서 전문 방사선사보다 빠르고 정확하게 의료 영상을 판독하는 것으로 나타났지만, 실제 병원 현장에서는 병원별 보고 기준과 국가별 규제 요건에 맞춰 AI 출력을 해석하는 데 오히려 시간이 더 소요됐다. 벤치마크에서 생산성을 높이는 도구로 평가받은 AI가 실전에서는 업무 지연을 유발한 것이다.

이처럼 벤치마크 성능과 실제 성능 사이의 괴리가 반복되면서, AI가 인간 팀·워크플로우·조직 안에서 장시간에 걸쳐 어떻게 작동하는지를 평가하는 새로운 기준의 필요성이 제기됐다. 2022년부터 영국, 미국, 아시아의 중소기업, 의료, 인도주의, 비영리, 고등교육 기관을 대상으로 실제 AI 배포 사례를 연구한 결과를 바탕으로, 인간과 AI의 협업을 맥락에 맞게 평가하는 'HAIC 벤치마크(Human–AI, Context-Specific Evaluation)'가 그 대안으로 제시됐다. 이 방식은 단일 작업 수준의 성능 측정에서 벗어나, AI가 실제 조직 내에서 다양한 구성원과 어떻게 상호작용하고 어떤 결과를 만들어내는지를 종합적으로 평가하는 데 초점을 맞춘다.

본 기사는 AI가 생성하였으며, 사람이 검수한 기사입니다.

관련 기사