Home
Categories
EXPLORE
True Crime
Comedy
Society & Culture
Business
Sports
History
News
About Us
Contact Us
Copyright
© 2024 PodJoint
00:00 / 00:00
Sign in

or

Don't have an account?
Sign up
Forgot password
https://is1-ssl.mzstatic.com/image/thumb/Podcasts211/v4/b3/58/2f/b3582f9b-b26d-9b9a-3c07-715af07ab41b/mza_9789556093446860372.jpg/600x600bb.jpg
名古屋ではたらく社長のIT実験室
ikuo suzuki
45 episodes
6 days ago
名古屋市に本社を置くシステムサーバーの社長が生成AIを使っていて思いついたことを試す実験場です。今のところ、たまたま私が興味を持ったテーマについて、GoogleのNotebookLMの音声概要機能を使って出力した音声データをアップロードしています。
Show more...
Science
RSS
All content for 名古屋ではたらく社長のIT実験室 is the property of ikuo suzuki and is served directly from their servers with no modification, redirects, or rehosting. The podcast is not affiliated with or endorsed by Podjoint in any way.
名古屋市に本社を置くシステムサーバーの社長が生成AIを使っていて思いついたことを試す実験場です。今のところ、たまたま私が興味を持ったテーマについて、GoogleのNotebookLMの音声概要機能を使って出力した音声データをアップロードしています。
Show more...
Science
Episodes (20/45)
名古屋ではたらく社長のIT実験室
アンドレイ・カーパシーが提言「テキストを画像で処理せよ」:DeepSeek-OCRとAIの未来を変える”光学的圧縮”の衝撃

アンドレイ・カーパシーが提言「テキストを画像で処理せよ」:DeepSeek-OCRとAIの未来を変える”光学的圧縮”の衝撃

Show more...
2 weeks ago
18 minutes 37 seconds

名古屋ではたらく社長のIT実験室
LLMの「文脈長の壁」を視覚圧縮で破る:DeepSeek-OCRが示すAI記憶と効率の新境地

LLMの「文脈長の壁」を視覚圧縮で破る:DeepSeek-OCRが示すAI記憶と効率の新境地

Show more...
2 weeks ago
22 minutes 45 seconds

名古屋ではたらく社長のIT実験室
AK_part3

AK_part3

Show more...
3 weeks ago
50 minutes 45 seconds

名古屋ではたらく社長のIT実験室
AK_202510_part2

AK_202510_part2

Show more...
3 weeks ago
45 minutes 22 seconds

名古屋ではたらく社長のIT実験室
AK_202510_Part1

AK_202510_Part1

Show more...
3 weeks ago
52 minutes 6 seconds

名古屋ではたらく社長のIT実験室
Ep.46 VibeVoice-7Bで自分の声を喋らせてみた

自分の声をサンプリングして、VibeVoice-7Bに喋らせてみた結果。

Show more...
1 month ago
7 seconds

名古屋ではたらく社長のIT実験室
Ep.45 AIはなぜ「知ったかぶり」をするのか?言語モデルのハルシネーションの根源と社会技術的解決策

大規模言語モデル (LLM) における「幻覚 (hallucination)」と呼ばれる現象について考察しています。この現象は、モデルが自信を持って誤った情報を生成することを指し、OpenAIの最新研究論文がその原因と評価方法の改善を提案しています。資料は、現在のトレーニングと評価の仕組みが、不確実性を認めるよりも推測を報酬として与えているため、幻覚が継続していると主張しています。

Show more...
2 months ago
19 minutes 17 seconds

名古屋ではたらく社長のIT実験室
Ep.44 VibeVoice-7Bを試してみた結果(25ステップ版)

スクリプト:

Speaker 1: こんにちは、みんな。今日は新しいAIのデモをためしてみるんだよね?

Speaker 2: そうそう。音声合成で自然な日本語が話せるか確認したいんだ。

Speaker 3: 楽しみだなぁ。どんな声になるのか想像できないよ。

Speaker 4: 私はちょっと不安。変なイントネーションにならないかな?

Speaker 1: まあまあ、ためしてみないとわからないよ。とりあえずやってみよう。

Show more...
2 months ago
29 seconds

名古屋ではたらく社長のIT実験室
Ep.43 VibeVoice-7Bを試してみた結果(10ステップ版)

スクリプト:

Speaker 1: こんにちは、みんな。今日は新しいAIのデモをためしてみるんだよね?

Speaker 2: そうそう。音声合成で自然な日本語が話せるか確認したいんだ。

Speaker 3: 楽しみだなぁ。どんな声になるのか想像できないよ。

Speaker 4: 私はちょっと不安。変なイントネーションにならないかな?

Speaker 1: まあまあ、ためしてみないとわからないよ。とりあえずやってみよう。

Show more...
2 months ago
24 seconds

名古屋ではたらく社長のIT実験室
Ep.42 VibeVoice-1.5Bを試してみた結果 English(25ステップ版)

Script:

Speaker 1: Hi everyone. We’re going to try a new AI demo today, right?

Speaker 2: Yeah. I want to check if it can speak natural Japanese with speech synthesis.

Speaker 3: I’m looking forward to it. I can’t imagine what the voice will sound like.

Speaker 4: I’m a little worried. What if the intonation sounds weird?

Speaker 1: Well, we won’t know until we try. Let’s give it a shot.

Show more...
2 months ago
18 seconds

名古屋ではたらく社長のIT実験室
Ep.41 VibeVoice-1.5Bを試してみた結果(25ステップ版)

スクリプト:

Speaker 1: こんにちは、みんな。今日は新しいAIのデモをためしてみるんだよね?

Speaker 2: そうそう。音声合成で自然な日本語が話せるか確認したいんだ。

Speaker 3: 楽しみだなぁ。どんな声になるのか想像できないよ。

Speaker 4: 私はちょっと不安。変なイントネーションにならないかな?

Speaker 1: まあまあ、ためしてみないとわからないよ。とりあえずやってみよう。

Show more...
2 months ago
25 seconds

名古屋ではたらく社長のIT実験室
Ep.40 VibeVoice-1.5Bを試してみた結果(10ステップ版)

スクリプト:

Speaker 1: こんにちは、みんな。今日は新しいAIのデモをためしてみるんだよね?

Speaker 2: そうそう。音声合成で自然な日本語が話せるか確認したいんだ。

Speaker 3: 楽しみだなぁ。どんな声になるのか想像できないよ。

Speaker 4: 私はちょっと不安。変なイントネーションにならないかな?

Speaker 1: まあまあ、ためしてみないとわからないよ。とりあえずやってみよう。

Show more...
2 months ago
24 seconds

名古屋ではたらく社長のIT実験室
Ep.38 「interview2jppodcast」対談動画のトランスクリプトから日本語ポッドキャストを生成するアプリ

「interview2jppodcast」は以下の機能を持った便利なあぷりです。このアプリを使えば、聞き取れない言語の対談動画を日本語で聴けるようになります。

  • 外国語のトランスクリプトを話者分離した日本語訳にする
  • GeminiのAPIを用いてTTSする
  • 長尺の場合、トランスクリプトをチャンク分けして並列でTTSをおこなうため短時間で音声にできる
  • ユーザーが指定したBGMを合成する


https://github.com/ikuo5710/interview2jppodcast

Show more...
2 months ago
2 minutes 36 seconds

名古屋ではたらく社長のIT実験室
Ep.33 CVPR 2025 Best Student Paper Honorable Mentions : Generative Multimodal Pretraining with Discrete Diffusion Timestep Tokens

Discrete Diffusion Timestep (DDT) Tokensに関するこの論文は、マルチモーダル大規模言語モデル (MLLMs)における視覚理解と生成を統合する革新的なアプローチを提案しています。既存のMLLMが使用する空間視覚トークンは、言語に固有の再帰的構造が欠けているため、LLMが完全に習得するのが困難であるという問題点を指摘しています。この課題に対処するため、著者は拡散タイムステップを活用して、離散的で再帰的な視覚トークンを学習する新しい手法を導入しています。これらのDDTトークンは、ノイズの多い画像における漸進的な属性損失を再帰的に補償することで、LLMの自己回帰推論能力と拡散モデルの正確な画像生成能力を効果的に組み合わせ、シームレスなマルチモーダル理解と生成を可能にします。実験では、このアプローチが、他のMLLMと比較して、マルチモーダル理解と生成の両方で優れた性能を達成していることを示しています。

Show more...
4 months ago
9 minutes 21 seconds

名古屋ではたらく社長のIT実験室
Ep.32 CVPR 2025 Best Student Paper Honorable Mentions : 3D Student Splatting and Scooping

この文書では、3D Gaussian Splatting (3DGS) という、新しい視点合成フレームワークの基本的な定式化を改善する研究が紹介されています。著者らは、3DGSのガウス分布の代わりに、より表現力豊かなStudentのt分布を使用する新しいモデル、Student Splatting and Scooping (SSS) を提案しています。SSSは、正の密度(スプラッティング)だけでなく**負の密度(スクーピング)**も利用することで、モデルの表現力とパラメータ効率を向上させています。また、Stochastic Gradient Hamiltonian Monte Carlo (SGHMC) に基づく新しいサンプリング手法を導入し、学習時のパラメータの結合問題を解決しています。実験により、SSSが既存の手法と比較して、画像品質とパラメータ効率の両方で優れた性能を示すことが実証されています。

Show more...
4 months ago
8 minutes 11 seconds

名古屋ではたらく社長のIT実験室
Ep.31 CVPR 2025 Best Paper Honorable Mentions : Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Vision-Language Models

提示された文書は、最先端の視覚言語モデル(VLM)であるMolmoの紹介とその開発について詳述しています。現在のVLMの多くが独自のモデルであり、合成データに大きく依存しているという問題に対処するため、Molmoはオープンソースの重みとデータ、特に外部VLMを使用せずに収集されたPixMoデータセットを提供しています。このPixMoデータセットは、詳細な画像キャプション、自由形式の質問応答データ、および革新的な2Dポインティングデータで構成されています。Molmoは、その新規データセットと綿密な訓練パイプラインにより、学術的なベンチマークと人間による評価の両方で、同カテゴリーのオープンモデルを凌駕し、一部の独自のモデルをも上回る性能を示しています。この研究は、VLMの構築に関する基礎的な知識をオープンコミュニティにもたらすことを目的としています。

Show more...
4 months ago
6 minutes 15 seconds

名古屋ではたらく社長のIT実験室
Ep.30 CVPR 2025 Best Paper Honorable Mentions : Navigation World Models

この研究は、ロボットの視覚的ナビゲーションを改善するためのナビゲーションワールドモデル(NWM)と呼ばれる新しいアプローチを提案しています。NWMは、過去の視覚的観測とナビゲーション動作に基づいて将来の視覚的観測を予測する制御可能なビデオ生成モデルです。このモデルは、ロボットと人間のエージェントの両方からの多様な自己中心的なビデオで訓練され、複雑な環境力学を捉えるために条件付き拡散トランスフォーマー(CDiT)を使用しています。NWMは、軌道をシミュレートし、目標達成度を評価することで、ナビゲーション計画を可能にし、見知らぬ環境での想像上の軌道を生成する柔軟性も持っています。この方法は、既存のナビゲーションポリシーを強化し、単独で計画を立てる両方において最先端のパフォーマンスを達成します。

Show more...
4 months ago
10 minutes 16 seconds

名古屋ではたらく社長のIT実験室
Ep.29 CVPR 2025 Best Paper Honorable Mentions : MegaSaM: Accurate, Fast and Robust Structure and Motion from Casual Dynamic Videos

本研究は、カジュアルな単眼動画から正確かつ高速にカメラパラメータと深度マップを推定するシステム「MegaSaM」を提案しています。従来のStructure from Motion(SfM)やSimultaneous Localization and Mapping(SLAM)手法は、静的なシーンと大きな視差を前提としていましたが、本システムは動的なシーンやカメラの視差が小さい状況でもロバストな推定を可能にします。そのために、ディープビジュアルSLAMフレームワークを改良し、オブジェクトの動きの確率マップや単眼深度からの事前情報を統合することで、カメラのトラッキング精度と深度推定の品質を向上させています。様々なデータセットでの実験により、MegaSaMが既存の手法と比較して大幅に優れた性能を示し、リアルタイムに近い実行速度を達成していることが実証されています。

Show more...
4 months ago
7 minutes 40 seconds

名古屋ではたらく社長のIT実験室
Ep.28 CVPR 2025 Best Student Paper: Neural Inverse Rendering from Propagating Light

この学術論文では、フラッシュライダーシステムから得られる、伝播する光の多視点・時間分解測定を扱うニューラル逆レンダリング手法が紹介されています。提案されたシステムは、物理ベースのレンダリングモデルと時間分解されたラディアンスキャッシュを組み合わせており、これらはニューラルネットワークによってパラメータ化されています。このアプローチにより、強い間接光下での高精度な3Dシーン再構築や、伝播する光の新規視点からのレンダリング、さらには時間分解リライティングといった新たな機能が可能になります。論文は、シミュレーションと実測データの両方で、既存の手法と比較して優れたジオメトリ再構築能力を示しており、特に間接光の影響が大きい領域での性能向上が強調されています。

Show more...
4 months ago
8 minutes 4 seconds

名古屋ではたらく社長のIT実験室
Ep.27 CVPR 2025 Best Paper: VGGT: Visual Geometry Grounded Transformer

この論文は、VGGT (Visual Geometry Grounded Transformer)という新しい深層学習モデルを紹介しています。このモデルは、複数の入力画像から3Dシーンの属性(カメラの姿勢、深度マップ、点群マップ、および点トラッキング)を高速に推定します。従来の3D再構成手法が複雑な最適化プロセスに依存していたのに対し、VGGTはTransformerアーキテクチャを活用し、特にリアルタイム処理と多様なデータセットに対する高い汎用性において優れた性能を示します。この研究は、単一のネットワークが複数の3Dタスクを同時に処理するマルチタスク学習の利点も実証しています。

Show more...
4 months ago
7 minutes 32 seconds

名古屋ではたらく社長のIT実験室
名古屋市に本社を置くシステムサーバーの社長が生成AIを使っていて思いついたことを試す実験場です。今のところ、たまたま私が興味を持ったテーマについて、GoogleのNotebookLMの音声概要機能を使って出力した音声データをアップロードしています。