アンドレイ・カーパシーが提言「テキストを画像で処理せよ」:DeepSeek-OCRとAIの未来を変える”光学的圧縮”の衝撃
LLMの「文脈長の壁」を視覚圧縮で破る:DeepSeek-OCRが示すAI記憶と効率の新境地
自分の声をサンプリングして、VibeVoice-7Bに喋らせてみた結果。
大規模言語モデル (LLM) における「幻覚 (hallucination)」と呼ばれる現象について考察しています。この現象は、モデルが自信を持って誤った情報を生成することを指し、OpenAIの最新研究論文がその原因と評価方法の改善を提案しています。資料は、現在のトレーニングと評価の仕組みが、不確実性を認めるよりも推測を報酬として与えているため、幻覚が継続していると主張しています。
スクリプト:
Speaker 1: こんにちは、みんな。今日は新しいAIのデモをためしてみるんだよね?
Speaker 2: そうそう。音声合成で自然な日本語が話せるか確認したいんだ。
Speaker 3: 楽しみだなぁ。どんな声になるのか想像できないよ。
Speaker 4: 私はちょっと不安。変なイントネーションにならないかな?
Speaker 1: まあまあ、ためしてみないとわからないよ。とりあえずやってみよう。
スクリプト:
Speaker 1: こんにちは、みんな。今日は新しいAIのデモをためしてみるんだよね?
Speaker 2: そうそう。音声合成で自然な日本語が話せるか確認したいんだ。
Speaker 3: 楽しみだなぁ。どんな声になるのか想像できないよ。
Speaker 4: 私はちょっと不安。変なイントネーションにならないかな?
Speaker 1: まあまあ、ためしてみないとわからないよ。とりあえずやってみよう。
Script:
Speaker 1: Hi everyone. We’re going to try a new AI demo today, right?
Speaker 2: Yeah. I want to check if it can speak natural Japanese with speech synthesis.
Speaker 3: I’m looking forward to it. I can’t imagine what the voice will sound like.
Speaker 4: I’m a little worried. What if the intonation sounds weird?
Speaker 1: Well, we won’t know until we try. Let’s give it a shot.
スクリプト:
Speaker 1: こんにちは、みんな。今日は新しいAIのデモをためしてみるんだよね?
Speaker 2: そうそう。音声合成で自然な日本語が話せるか確認したいんだ。
Speaker 3: 楽しみだなぁ。どんな声になるのか想像できないよ。
Speaker 4: 私はちょっと不安。変なイントネーションにならないかな?
Speaker 1: まあまあ、ためしてみないとわからないよ。とりあえずやってみよう。
スクリプト:
Speaker 1: こんにちは、みんな。今日は新しいAIのデモをためしてみるんだよね?
Speaker 2: そうそう。音声合成で自然な日本語が話せるか確認したいんだ。
Speaker 3: 楽しみだなぁ。どんな声になるのか想像できないよ。
Speaker 4: 私はちょっと不安。変なイントネーションにならないかな?
Speaker 1: まあまあ、ためしてみないとわからないよ。とりあえずやってみよう。
「interview2jppodcast」は以下の機能を持った便利なあぷりです。このアプリを使えば、聞き取れない言語の対談動画を日本語で聴けるようになります。
Discrete Diffusion Timestep (DDT) Tokensに関するこの論文は、マルチモーダル大規模言語モデル (MLLMs)における視覚理解と生成を統合する革新的なアプローチを提案しています。既存のMLLMが使用する空間視覚トークンは、言語に固有の再帰的構造が欠けているため、LLMが完全に習得するのが困難であるという問題点を指摘しています。この課題に対処するため、著者は拡散タイムステップを活用して、離散的で再帰的な視覚トークンを学習する新しい手法を導入しています。これらのDDTトークンは、ノイズの多い画像における漸進的な属性損失を再帰的に補償することで、LLMの自己回帰推論能力と拡散モデルの正確な画像生成能力を効果的に組み合わせ、シームレスなマルチモーダル理解と生成を可能にします。実験では、このアプローチが、他のMLLMと比較して、マルチモーダル理解と生成の両方で優れた性能を達成していることを示しています。
この文書では、3D Gaussian Splatting (3DGS) という、新しい視点合成フレームワークの基本的な定式化を改善する研究が紹介されています。著者らは、3DGSのガウス分布の代わりに、より表現力豊かなStudentのt分布を使用する新しいモデル、Student Splatting and Scooping (SSS) を提案しています。SSSは、正の密度(スプラッティング)だけでなく**負の密度(スクーピング)**も利用することで、モデルの表現力とパラメータ効率を向上させています。また、Stochastic Gradient Hamiltonian Monte Carlo (SGHMC) に基づく新しいサンプリング手法を導入し、学習時のパラメータの結合問題を解決しています。実験により、SSSが既存の手法と比較して、画像品質とパラメータ効率の両方で優れた性能を示すことが実証されています。
提示された文書は、最先端の視覚言語モデル(VLM)であるMolmoの紹介とその開発について詳述しています。現在のVLMの多くが独自のモデルであり、合成データに大きく依存しているという問題に対処するため、Molmoはオープンソースの重みとデータ、特に外部VLMを使用せずに収集されたPixMoデータセットを提供しています。このPixMoデータセットは、詳細な画像キャプション、自由形式の質問応答データ、および革新的な2Dポインティングデータで構成されています。Molmoは、その新規データセットと綿密な訓練パイプラインにより、学術的なベンチマークと人間による評価の両方で、同カテゴリーのオープンモデルを凌駕し、一部の独自のモデルをも上回る性能を示しています。この研究は、VLMの構築に関する基礎的な知識をオープンコミュニティにもたらすことを目的としています。
この研究は、ロボットの視覚的ナビゲーションを改善するためのナビゲーションワールドモデル(NWM)と呼ばれる新しいアプローチを提案しています。NWMは、過去の視覚的観測とナビゲーション動作に基づいて将来の視覚的観測を予測する制御可能なビデオ生成モデルです。このモデルは、ロボットと人間のエージェントの両方からの多様な自己中心的なビデオで訓練され、複雑な環境力学を捉えるために条件付き拡散トランスフォーマー(CDiT)を使用しています。NWMは、軌道をシミュレートし、目標達成度を評価することで、ナビゲーション計画を可能にし、見知らぬ環境での想像上の軌道を生成する柔軟性も持っています。この方法は、既存のナビゲーションポリシーを強化し、単独で計画を立てる両方において最先端のパフォーマンスを達成します。
本研究は、カジュアルな単眼動画から正確かつ高速にカメラパラメータと深度マップを推定するシステム「MegaSaM」を提案しています。従来のStructure from Motion(SfM)やSimultaneous Localization and Mapping(SLAM)手法は、静的なシーンと大きな視差を前提としていましたが、本システムは動的なシーンやカメラの視差が小さい状況でもロバストな推定を可能にします。そのために、ディープビジュアルSLAMフレームワークを改良し、オブジェクトの動きの確率マップや単眼深度からの事前情報を統合することで、カメラのトラッキング精度と深度推定の品質を向上させています。様々なデータセットでの実験により、MegaSaMが既存の手法と比較して大幅に優れた性能を示し、リアルタイムに近い実行速度を達成していることが実証されています。
この学術論文では、フラッシュライダーシステムから得られる、伝播する光の多視点・時間分解測定を扱うニューラル逆レンダリング手法が紹介されています。提案されたシステムは、物理ベースのレンダリングモデルと時間分解されたラディアンスキャッシュを組み合わせており、これらはニューラルネットワークによってパラメータ化されています。このアプローチにより、強い間接光下での高精度な3Dシーン再構築や、伝播する光の新規視点からのレンダリング、さらには時間分解リライティングといった新たな機能が可能になります。論文は、シミュレーションと実測データの両方で、既存の手法と比較して優れたジオメトリ再構築能力を示しており、特に間接光の影響が大きい領域での性能向上が強調されています。
この論文は、VGGT (Visual Geometry Grounded Transformer)という新しい深層学習モデルを紹介しています。このモデルは、複数の入力画像から3Dシーンの属性(カメラの姿勢、深度マップ、点群マップ、および点トラッキング)を高速に推定します。従来の3D再構成手法が複雑な最適化プロセスに依存していたのに対し、VGGTはTransformerアーキテクチャを活用し、特にリアルタイム処理と多様なデータセットに対する高い汎用性において優れた性能を示します。この研究は、単一のネットワークが複数の3Dタスクを同時に処理するマルチタスク学習の利点も実証しています。