
AI Shift Academy(#シフアカ)
テーマ第2弾は「AIの評価」
第1回はAIの「知能」を測る方法の歴史を解説します。
人間と区別できるかで判断するチューリングテストから始まり、チェスAIのような課題達成能力、ベンチマークによる客観的比較、そして近年のLLMをAIに評価させる「LLM as a Judge」という最新の試みまでを紹介。
それぞれの評価方法のメリットと、指標が形骸化する問題点などを通して、AIの知能を問うことの難しさと面白さに迫ります。
▼おたよりはこちらから