AI Shift Academy(#シフアカ)「ショート編」では、話題のAI技術や最新論文を一つ取り上げ、コンパクトに紹介しています。
たった1文字の違いが、AIのテスト結果を左右する?
Metaの研究チームが発表した論文「A Single Character Can Make or Break Your LLM Evals」では、プロンプトの区切り文字を変えるだけで、AIの成績が20〜30%も上下することが明らかになりました。
なぜそんなことが起こるのか?
そして、私たちはどう対策すればいいのか?
AIが“言葉のかたち”にどれほど敏感なのかをわかりやすく紹介します。
AI Shift Academy(#シフアカ)
#2番外編として、ゲストパーソナリティの栗原から、言語処理学会「YANS」について紹介します。
毎年実施されている言語処理学会「YANS」
20代〜30代前半の研究者が中心で、活気ある雰囲気が特徴です。発表者と直接対話できる「ポスターセッション」がメインとなっており、参加者が自由にディスカッションできる場となっています。
番組では、特に印象的だった研究として、「言い淀み」や「ノリ」といった即興性を含むリアルな会話の再現を目指す「自発音声」の研究を紹介。
また、LLM(大規模言語モデル)を活用したデータセット作成など、学会で見られた最新の研究トレンドにも触れています。
AI研究の最前線がわかるエピソード、ぜひお聴きください!
▼おたよりはこちらから
AI Shift Academy(#シフアカ)
AIの「賢さ」を測るモノサシが変わる?
従来の「難しい問題が解けるか」という評価(ベンチマーク)だけでは、AIの真の実力は測れなくなりつつあります。
これからのAI評価は、
・ウェブ探索能力 (BrowseComp)
・ツールの使い方 (LiveMCP)
・研究能力や洞察の深さ
・マルチモーダルや対話能力
など、より実践的なスキルが問われます。
また、「Chatbot Arena」のようなユーザー投票や、人間が評価ループに入る「Human-in-the-Loop」も再注目されています。
「AI版ムーアの法則」と呼ばれるタスク完遂速度や、安全性・バイアス(RedTeaming, HELM)など、評価軸はどんどん複雑で多角的に。
AI評価の未来を解説します!
▼おたよりはこちらから
AI Shift Academy(#シフアカ)
TECH BLOG「LLM-as-a-Judgeにまつわるバイアスまとめ」はこちらから。
今回は「AIの評価」評価における課題についてお話しています。
特にLLMの性能評価における信頼性の問題を深掘りします。
今回の放送では、AI評価者や人間に内在し、結果を歪める「バイアス」の体系的な分析から始めます。
さらに、評価データが学習データに混入する「データ汚染」が如何にベンチマークを無意味にするか、そして評価AIの癖に最適化し実用性を損なう「ジャッジへの過適応」の危険性を指摘。
問題設定自体の誤りや環境依存性といった、スコアの再現性を揺るがす要因も解説。AIの能力を正しく見極める上で、開発者や研究者が直面する深刻な課題を論じます。
▼おたよりはこちらから
AI Shift Academy(#シフアカ)
今回は「AIの評価」LLM as a Judgeについてお話しています。
従来のAI評価は、自動指標では精度に、人手評価ではコストと時間に大きな課題がありました。
そこで登場したのが、GPTのような高性能LLMを「評価者」として使う新手法「LLM as a Judge」です。
人間による評価と遜色ない精度を実現しつつ、高速・低コストで大規模な評価を可能にします。評価の質はプロンプト設計が鍵を握り、明確な基準を与えることで人間の判断をスケールさせることができます。
RAGの性能評価や、AIからのフィードバックでAIを強化するRLAIFなど応用も多彩。
AI開発の常識を変えるこの技術を詳しく解説します!
▼おたよりはこちらから
AI Shift Academy(#シフアカ)
テーマ第2弾は「AIの評価」
かつて「人間らしさ」を問うたAI評価は、翻訳や要約など具体的なタスクの性能を競う時代へ。
そして、AI版センター試験とも言える「ベンチマーク」が登場し、開発競争が加速します。
今回の放送では、AI評価方法の歴史から、日本語特有のデータセット問題、そして国産ベンチマーク「JGLUE」の開発秘話までを深掘り!
ChatGPTの登場で評価の常識も激変し、今やAIがAIを評価する時代に…⁉
AI開発の裏側がわかる、知的好奇心をくすぐるエピソードです。ぜひお聴きください!
▼おたよりはこちらから
AI Shift Academy(#シフアカ)
テーマ第2弾は「AIの評価」
第1回はAIの「知能」を測る方法の歴史を解説します。
人間と区別できるかで判断するチューリングテストから始まり、チェスAIのような課題達成能力、ベンチマークによる客観的比較、そして近年のLLMをAIに評価させる「LLM as a Judge」という最新の試みまでを紹介。
それぞれの評価方法のメリットと、指標が形骸化する問題点などを通して、AIの知能を問うことの難しさと面白さに迫ります。
▼おたよりはこちらから
AI Shift Academy(#シフアカ)
#1番外編として、パーソナリティの自己紹介とPodcastのスタート秘話についてお話しております。
MLエンジニア戸田とチーフエバンジェリスト及川の普段の業務や二人の関わりについて紹介し、なぜPodcastを始めたのか、そのきっかけについて深掘ります。
次回は「#2 LLMの評価」編をお届けします!
お楽しみに!
▼おたよりはこちらから
AI Shift Academy(#シフアカ)
第5回は「RAGのR」編最終回、情報検索システムの商業化に迫ります。
今回は、画期的な検索理論が研究室を飛び出し、ビジネスの世界へと羽ばたいていく物語です。
「情報検索の父」が開発した技術は、世界初の商用オンライン検索サービスへと繋がります。
それは革命的でしたが、非常に高価でした。そこに「接続料金を気にせず使える」CD-ROMが登場し、「最新情報か、手軽さか」という競争が始まります。
この歴史は、単なる昔話ではありません。
現代のAI(特にRAG)を活用する上で欠かせない「情報源の質」「適切な技術選択」「ユーザー体験の設計」という本質的な教訓を教えてくれます。
情報の洪水と戦ってきた人類の歴史から、AI活用のヒントを探りましょう。
本テーマは、下記の5章で構成されています。
▼おたよりはこちらから
AI Shift Academy(#シフアカ)
第4回は「RAGのR」検索結果の順位付けに迫ります。
Google検索で当たり前の「検索順位」。しかし、かつて検索結果が五十音順だった時代をご存知でしょうか?
今回は、RAGの「R」=情報検索の歴史を深掘り。「大量にヒットしすぎて、どれを読めばいいかわからない」という課題を打ち破ったのは、「たくさん出てくる単語は重要」という直感と、「珍しい単語こそ重要」という逆転の発想でした。
このブレークスルーを導いた、哲学出身の女性研究者カレン・スパーク・ジョーンズの物語とは? 50年以上経った今も現役の技術「TF-IDF」の誕生秘話から、技術革新の本質に迫ります。
本テーマは、下記の5章で構成されています。
▼おたよりはこちらから
AI Shift Academy(#シフアカ)
第3回は「RAGのR」機械による検索の誕生に迫ります。
今、私たちは調べたいことを数秒で検索できます。しかし、その「当たり前」の裏には、膨大な手作業と時間がかかっていた時代がありました。
世界で初めて稼働した検索システム「MEDLARS」は、研究者が紙に書いた依頼をもとに、専門家が論理式を組み立て、数週間後にやっと結果が返ってくる──そんなプロセスでした。
それでも医学の世界では、人命を守るために欠かせない画期的な仕組みだったのです。ブール演算子、シソーラス、そして情報検索の評価指標。検索の原点を知ることは、AIやGoogle検索の未来を理解するヒントにもなります。
不便さと革新が同居していた時代の物語を、一緒にたどってみましょう。
本テーマは、下記の5章で構成されています。
▼おたよりはこちらから
AI Shift Academy(#シフアカ)
第2回は「RAGのR」検索結果の「評価」に迫ります。
RAGの検索技術(Retriever)の原点は、1960年代の手作業による壮大な実験にありました。
現代のAI評価にも通じる「再現率」と「適合率」という指標はこの時誕生します。
AIの性能をいかに測り、改善していくか、そのヒントを探ります。
本テーマは、下記の5章で構成されています。
▼おたよりはこちらから
AI Shift Academy(#シフアカ)開設!
記念すべき第1回は「RAGのR」(情報検索)の起源に迫ります。
私たちが今、生成AIで当たり前のように使っている「検索して情報を抽出する」技術は、どんな課題を乗り越え、どんな工夫と発想によって進化してきたのか?
その歩みをたどると、現代のRAGをうまく活用するためのヒントが見えてきます。
本テーマは、下記の5章で構成されています。
歴史を知り、思考の“足腰“を鍛えましょう!
▼おたよりはこちらから