AI Shift Academy

https://is1-ssl.mzstatic.com/image/thumb/PodcastSource221/v4/13/55/40/135540c3-25c1-a603-a749-41897a23e5c9/7fcb8276-9e58-4b68-bb35-497a323aa6dc.jpg/600x600bb.jpg

AI Shift Academy

株式会社AI Shift

13 episodes

4 days ago

サイバーエージェントグループ・株式会社AI Shiftが提供する、AI技術の進化をストーリーとして読み解く、AI教養ポッドキャストです。 ▼おたよりフォームご意見・ご感想は下記よりお送りください。 https://forms.gle/djeA4bbMgVkJMdK79 ▼各種リンク AI Shiftホームページ：https://www.ai-shift.co.jp/ AI Shift Xアカウント：https://x.com/AIShift_PR 及川(パーソナリティ)：https://x.com/cyber_oikawa

Technology

RSS

All content for AI Shift Academy is the property of 株式会社AI Shift and is served directly from their servers with no modification, redirects, or rehosting. The podcast is not affiliated with or endorsed by Podjoint in any way.

Technology

Episodes (13/13)

AI Shift Academy

【ショート編 #1】1文字でAIの評価が変わる？Metaが示したプロンプトの落とし穴

AI Shift Academy（#シフアカ）「ショート編」では、話題のAI技術や最新論文を一つ取り上げ、コンパクトに紹介しています。

たった1文字の違いが、AIのテスト結果を左右する？

Metaの研究チームが発表した論文「A Single Character Can Make or Break Your LLM Evals」では、プロンプトの区切り文字を変えるだけで、AIの成績が20〜30％も上下することが明らかになりました。

なぜそんなことが起こるのか？

そして、私たちはどう対策すればいいのか？

AIが“言葉のかたち”にどれほど敏感なのかをわかりやすく紹介します。

参考リンク：https://arxiv.org/abs/2510.05152

4 days ago

3 minutes 36 seconds

AI Shift Academy

#2 番外編〜言語処理学会「YANS」紹介〜

AI Shift Academy（#シフアカ）

#2番外編として、ゲストパーソナリティの栗原から、言語処理学会「YANS」について紹介します。

毎年実施されている言語処理学会「YANS」

20代〜30代前半の研究者が中心で、活気ある雰囲気が特徴です。発表者と直接対話できる「ポスターセッション」がメインとなっており、参加者が自由にディスカッションできる場となっています。

番組では、特に印象的だった研究として、「言い淀み」や「ノリ」といった即興性を含むリアルな会話の再現を目指す「自発音声」の研究を紹介。

また、LLM（大規模言語モデル）を活用したデータセット作成など、学会で見られた最新の研究トレンドにも触れています。

AI研究の最前線がわかるエピソード、ぜひお聴きください！

▼おたよりは⁠⁠⁠⁠⁠⁠こちら⁠⁠⁠⁠⁠⁠から

6 days ago

17 minutes 54 seconds

AI Shift Academy

「AIの評価」今後のAI評価 #2-5

AI Shift Academy（#シフアカ）

AIの「賢さ」を測るモノサシが変わる？

従来の「難しい問題が解けるか」という評価（ベンチマーク）だけでは、AIの真の実力は測れなくなりつつあります。

これからのAI評価は、

・ウェブ探索能力 (BrowseComp)

・ツールの使い方 (LiveMCP)

・研究能力や洞察の深さ

・マルチモーダルや対話能力

など、より実践的なスキルが問われます。

また、「Chatbot Arena」のようなユーザー投票や、人間が評価ループに入る「Human-in-the-Loop」も再注目されています。

「AI版ムーアの法則」と呼ばれるタスク完遂速度や、安全性・バイアス（RedTeaming, HELM）など、評価軸はどんどん複雑で多角的に。

AI評価の未来を解説します！

▼おたよりは⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠こちら⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠から

2 weeks ago

18 minutes 32 seconds

AI Shift Academy

「AIの評価」評価の課題 #2-4

AI Shift Academy（#シフアカ）

TECH BLOG「LLM-as-a-Judgeにまつわるバイアスまとめ」はこちらから。

今回は「AIの評価」評価における課題についてお話しています。

特にLLMの性能評価における信頼性の問題を深掘りします。

今回の放送では、AI評価者や人間に内在し、結果を歪める「バイアス」の体系的な分析から始めます。

さらに、評価データが学習データに混入する「データ汚染」が如何にベンチマークを無意味にするか、そして評価AIの癖に最適化し実用性を損なう「ジャッジへの過適応」の危険性を指摘。

問題設定自体の誤りや環境依存性といった、スコアの再現性を揺るがす要因も解説。AIの能力を正しく見極める上で、開発者や研究者が直面する深刻な課題を論じます。

▼おたよりは⁠⁠⁠⁠⁠⁠⁠⁠⁠こちら⁠⁠⁠⁠⁠⁠⁠⁠⁠から

3 weeks ago

26 minutes 37 seconds

AI Shift Academy

「AIの評価」LLM as a Judge #2-3

AI Shift Academy（#シフアカ）

今回は「AIの評価」LLM as a Judgeについてお話しています。

従来のAI評価は、自動指標では精度に、人手評価ではコストと時間に大きな課題がありました。

そこで登場したのが、GPTのような高性能LLMを「評価者」として使う新手法「LLM as a Judge」です。

人間による評価と遜色ない精度を実現しつつ、高速・低コストで大規模な評価を可能にします。評価の質はプロンプト設計が鍵を握り、明確な基準を与えることで人間の判断をスケールさせることができます。

RAGの性能評価や、AIからのフィードバックでAIを強化するRLAIFなど応用も多彩。

AI開発の常識を変えるこの技術を詳しく解説します！

▼おたよりは⁠⁠⁠⁠⁠⁠⁠⁠こちら⁠⁠⁠⁠⁠⁠⁠⁠から

3 weeks ago

19 minutes 49 seconds

AI Shift Academy

「AIの評価」ベンチマーク #2-2

AI Shift Academy（#シフアカ）

テーマ第2弾は「AIの評価」

かつて「人間らしさ」を問うたAI評価は、翻訳や要約など具体的なタスクの性能を競う時代へ。

そして、AI版センター試験とも言える「ベンチマーク」が登場し、開発競争が加速します。

今回の放送では、AI評価方法の歴史から、日本語特有のデータセット問題、そして国産ベンチマーク「JGLUE」の開発秘話までを深掘り！

ChatGPTの登場で評価の常識も激変し、今やAIがAIを評価する時代に…⁉

AI開発の裏側がわかる、知的好奇心をくすぐるエピソードです。ぜひお聴きください！

▼おたよりは⁠⁠⁠⁠⁠⁠⁠こちら⁠⁠⁠⁠⁠⁠⁠から

1 month ago

31 minutes 36 seconds

AI Shift Academy

「AIの評価」AI評価の歴史 #2-1

AI Shift Academy（#シフアカ）

テーマ第2弾は「AIの評価」

第1回はAIの「知能」を測る方法の歴史を解説します。

人間と区別できるかで判断するチューリングテストから始まり、チェスAIのような課題達成能力、ベンチマークによる客観的比較、そして近年のLLMをAIに評価させる「LLM as a Judge」という最新の試みまでを紹介。

それぞれの評価方法のメリットと、指標が形骸化する問題点などを通して、AIの知能を問うことの難しさと面白さに迫ります。

▼おたよりは⁠⁠⁠⁠⁠⁠こちら⁠⁠⁠⁠⁠⁠から

1 month ago

31 minutes 46 seconds

AI Shift Academy

#1 番外編〜パーソナリティ自己紹介&Podcastスタート秘話〜

AI Shift Academy（#シフアカ）

#1番外編として、パーソナリティの自己紹介とPodcastのスタート秘話についてお話しております。

MLエンジニア戸田とチーフエバンジェリスト及川の普段の業務や二人の関わりについて紹介し、なぜPodcastを始めたのか、そのきっかけについて深掘ります。

次回は「#2 LLMの評価」編をお届けします！

お楽しみに！

▼おたよりは⁠⁠⁠⁠⁠こちら⁠⁠⁠⁠⁠から

1 month ago

8 minutes 16 seconds

AI Shift Academy

「RAGのR」情報検索システムの商業化 #1-5

AI Shift Academy（#シフアカ）

第5回は「RAGのR」編最終回、情報検索システムの商業化に迫ります。

今回は、画期的な検索理論が研究室を飛び出し、ビジネスの世界へと羽ばたいていく物語です。

「情報検索の父」が開発した技術は、世界初の商用オンライン検索サービスへと繋がります。

それは革命的でしたが、非常に高価でした。そこに「接続料金を気にせず使える」CD-ROMが登場し、「最新情報か、手軽さか」という競争が始まります。

この歴史は、単なる昔話ではありません。

現代のAI（特にRAG）を活用する上で欠かせない「情報源の質」「適切な技術選択」「ユーザー体験の設計」という本質的な教訓を教えてくれます。

情報の洪水と戦ってきた人類の歴史から、AI活用のヒントを探りましょう。

本テーマは、下記の5章で構成されています。

情報検索の起源：人間はもともとどうやって探していたのか？なぜ検索が必要になったのか？
検索結果の「評価」：測れないものは改善できないという原則
機械による検索の誕生：コンピューターがもたらした新しい可能性
検索結果の「順位付け」：関連度という革命的な発想
情報検索システムの商業化：実験室から社会実装へ

▼おたよりは⁠⁠⁠⁠こちら⁠⁠⁠⁠から

1 month ago

21 minutes 26 seconds

AI Shift Academy

「RAGのR」検索結果の順位付け #1-4

AI Shift Academy（#シフアカ）

第4回は「RAGのR」検索結果の順位付けに迫ります。

Google検索で当たり前の「検索順位」。しかし、かつて検索結果が五十音順だった時代をご存知でしょうか？

今回は、RAGの「R」＝情報検索の歴史を深掘り。「大量にヒットしすぎて、どれを読めばいいかわからない」という課題を打ち破ったのは、「たくさん出てくる単語は重要」という直感と、「珍しい単語こそ重要」という逆転の発想でした。

このブレークスルーを導いた、哲学出身の女性研究者カレン・スパーク・ジョーンズの物語とは？ 50年以上経った今も現役の技術「TF-IDF」の誕生秘話から、技術革新の本質に迫ります。

本テーマは、下記の5章で構成されています。

情報検索の起源：人間はもともとどうやって探していたのか？なぜ検索が必要になったのか？
検索結果の「評価」：測れないものは改善できないという原則
機械による検索の誕生：コンピューターがもたらした新しい可能性
検索結果の「順位付け」：関連度という革命的な発想
情報検索システムの商業化：実験室から社会実装へ

▼おたよりは⁠⁠⁠こちら⁠⁠⁠から

2 months ago

21 minutes

AI Shift Academy

「RAGのR」機械による検索の誕生 #1-3

AI Shift Academy（#シフアカ）

第3回は「RAGのR」機械による検索の誕生に迫ります。

今、私たちは調べたいことを数秒で検索できます。しかし、その「当たり前」の裏には、膨大な手作業と時間がかかっていた時代がありました。
世界で初めて稼働した検索システム「MEDLARS」は、研究者が紙に書いた依頼をもとに、専門家が論理式を組み立て、数週間後にやっと結果が返ってくる──そんなプロセスでした。
それでも医学の世界では、人命を守るために欠かせない画期的な仕組みだったのです。ブール演算子、シソーラス、そして情報検索の評価指標。検索の原点を知ることは、AIやGoogle検索の未来を理解するヒントにもなります。
不便さと革新が同居していた時代の物語を、一緒にたどってみましょう。

本テーマは、下記の5章で構成されています。