Ep.33 CVPR 2025 Best Student Paper Honorable Mentions : Generative Multimodal Pretraining with Discrete Diffusion Timestep Tokens

https://is1-ssl.mzstatic.com/image/thumb/Podcasts211/v4/b3/58/2f/b3582f9b-b26d-9b9a-3c07-715af07ab41b/mza_9789556093446860372.jpg/600x600bb.jpg

名古屋ではたらく社長のIT実験室

ikuo suzuki

45 episodes

6 days ago

名古屋市に本社を置くシステムサーバーの社長が生成AIを使っていて思いついたことを試す実験場です。今のところ、たまたま私が興味を持ったテーマについて、GoogleのNotebookLMの音声概要機能を使って出力した音声データをアップロードしています。

Science

RSS

All content for 名古屋ではたらく社長のIT実験室 is the property of ikuo suzuki and is served directly from their servers with no modification, redirects, or rehosting. The podcast is not affiliated with or endorsed by Podjoint in any way.

Science

https://d3t3ozftmdmh3i.cloudfront.net/staging/podcast_uploaded_nologo/43552575/43552575-1745762941972-79cd4f7c12d62.jpg

Ep.33 CVPR 2025 Best Student Paper Honorable Mentions : Generative Multimodal Pretraining with Discrete Diffusion Timestep Tokens

名古屋ではたらく社長のIT実験室

9 minutes 21 seconds

4 months ago

Ep.33 CVPR 2025 Best Student Paper Honorable Mentions : Generative Multimodal Pretraining with Discrete Diffusion Timestep Tokens

Discrete Diffusion Timestep (DDT) Tokensに関するこの論文は、マルチモーダル大規模言語モデル (MLLMs)における視覚理解と生成を統合する革新的なアプローチを提案しています。既存のMLLMが使用する空間視覚トークンは、言語に固有の再帰的構造が欠けているため、LLMが完全に習得するのが困難であるという問題点を指摘しています。この課題に対処するため、著者は拡散タイムステップを活用して、離散的で再帰的な視覚トークンを学習する新しい手法を導入しています。これらのDDTトークンは、ノイズの多い画像における漸進的な属性損失を再帰的に補償することで、LLMの自己回帰推論能力と拡散モデルの正確な画像生成能力を効果的に組み合わせ、シームレスなマルチモーダル理解と生成を可能にします。実験では、このアプローチが、他のMLLMと比較して、マルチモーダル理解と生成の両方で優れた性能を達成していることを示しています。