「AIの評価」今後のAI評価 #2-5

https://is1-ssl.mzstatic.com/image/thumb/PodcastSource221/v4/13/55/40/135540c3-25c1-a603-a749-41897a23e5c9/7fcb8276-9e58-4b68-bb35-497a323aa6dc.jpg/600x600bb.jpg

AI Shift Academy

株式会社AI Shift

13 episodes

4 days ago

サイバーエージェントグループ・株式会社AI Shiftが提供する、AI技術の進化をストーリーとして読み解く、AI教養ポッドキャストです。 ▼おたよりフォームご意見・ご感想は下記よりお送りください。 https://forms.gle/djeA4bbMgVkJMdK79 ▼各種リンク AI Shiftホームページ：https://www.ai-shift.co.jp/ AI Shift Xアカウント：https://x.com/AIShift_PR 及川(パーソナリティ)：https://x.com/cyber_oikawa

Technology

RSS

All content for AI Shift Academy is the property of 株式会社AI Shift and is served directly from their servers with no modification, redirects, or rehosting. The podcast is not affiliated with or endorsed by Podjoint in any way.

Technology

https://d3t3ozftmdmh3i.cloudfront.net/staging/podcast_uploaded_nologo/44191611/44191611-1754990846663-dbda56dd244bf.jpg

「AIの評価」今後のAI評価 #2-5

AI Shift Academy

18 minutes 32 seconds

2 weeks ago

「AIの評価」今後のAI評価 #2-5

AI Shift Academy（#シフアカ）

AIの「賢さ」を測るモノサシが変わる？

従来の「難しい問題が解けるか」という評価（ベンチマーク）だけでは、AIの真の実力は測れなくなりつつあります。

これからのAI評価は、

・ウェブ探索能力 (BrowseComp)

・ツールの使い方 (LiveMCP)

・研究能力や洞察の深さ

・マルチモーダルや対話能力

など、より実践的なスキルが問われます。

また、「Chatbot Arena」のようなユーザー投票や、人間が評価ループに入る「Human-in-the-Loop」も再注目されています。

「AI版ムーアの法則」と呼ばれるタスク完遂速度や、安全性・バイアス（RedTeaming, HELM）など、評価軸はどんどん複雑で多角的に。

AI評価の未来を解説します！

▼おたよりは⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠こちら⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠から