
AI Shift Academy(#シフアカ)
AIの「賢さ」を測るモノサシが変わる?
従来の「難しい問題が解けるか」という評価(ベンチマーク)だけでは、AIの真の実力は測れなくなりつつあります。
これからのAI評価は、
・ウェブ探索能力 (BrowseComp)
・ツールの使い方 (LiveMCP)
・研究能力や洞察の深さ
・マルチモーダルや対話能力
など、より実践的なスキルが問われます。
また、「Chatbot Arena」のようなユーザー投票や、人間が評価ループに入る「Human-in-the-Loop」も再注目されています。
「AI版ムーアの法則」と呼ばれるタスク完遂速度や、安全性・バイアス(RedTeaming, HELM)など、評価軸はどんどん複雑で多角的に。
AI評価の未来を解説します!
▼おたよりはこちらから