Home
Categories
EXPLORE
True Crime
Comedy
Society & Culture
Business
Sports
History
News
About Us
Contact Us
Copyright
© 2024 PodJoint
00:00 / 00:00
Sign in

or

Don't have an account?
Sign up
Forgot password
https://is1-ssl.mzstatic.com/image/thumb/Podcasts211/v4/b3/58/2f/b3582f9b-b26d-9b9a-3c07-715af07ab41b/mza_9789556093446860372.jpg/600x600bb.jpg
名古屋ではたらく社長のIT実験室
ikuo suzuki
45 episodes
6 days ago
名古屋市に本社を置くシステムサーバーの社長が生成AIを使っていて思いついたことを試す実験場です。今のところ、たまたま私が興味を持ったテーマについて、GoogleのNotebookLMの音声概要機能を使って出力した音声データをアップロードしています。
Show more...
Science
RSS
All content for 名古屋ではたらく社長のIT実験室 is the property of ikuo suzuki and is served directly from their servers with no modification, redirects, or rehosting. The podcast is not affiliated with or endorsed by Podjoint in any way.
名古屋市に本社を置くシステムサーバーの社長が生成AIを使っていて思いついたことを試す実験場です。今のところ、たまたま私が興味を持ったテーマについて、GoogleのNotebookLMの音声概要機能を使って出力した音声データをアップロードしています。
Show more...
Science
https://d3t3ozftmdmh3i.cloudfront.net/staging/podcast_uploaded_nologo/43552575/43552575-1745762941972-79cd4f7c12d62.jpg
Ep.33 CVPR 2025 Best Student Paper Honorable Mentions : Generative Multimodal Pretraining with Discrete Diffusion Timestep Tokens
名古屋ではたらく社長のIT実験室
9 minutes 21 seconds
4 months ago
Ep.33 CVPR 2025 Best Student Paper Honorable Mentions : Generative Multimodal Pretraining with Discrete Diffusion Timestep Tokens

Discrete Diffusion Timestep (DDT) Tokensに関するこの論文は、マルチモーダル大規模言語モデル (MLLMs)における視覚理解と生成を統合する革新的なアプローチを提案しています。既存のMLLMが使用する空間視覚トークンは、言語に固有の再帰的構造が欠けているため、LLMが完全に習得するのが困難であるという問題点を指摘しています。この課題に対処するため、著者は拡散タイムステップを活用して、離散的で再帰的な視覚トークンを学習する新しい手法を導入しています。これらのDDTトークンは、ノイズの多い画像における漸進的な属性損失を再帰的に補償することで、LLMの自己回帰推論能力と拡散モデルの正確な画像生成能力を効果的に組み合わせ、シームレスなマルチモーダル理解と生成を可能にします。実験では、このアプローチが、他のMLLMと比較して、マルチモーダル理解と生成の両方で優れた性能を達成していることを示しています。

名古屋ではたらく社長のIT実験室
名古屋市に本社を置くシステムサーバーの社長が生成AIを使っていて思いついたことを試す実験場です。今のところ、たまたま私が興味を持ったテーマについて、GoogleのNotebookLMの音声概要機能を使って出力した音声データをアップロードしています。