Ep.685 Azure ND GB300 v6が“100万トークン／秒”を突破──Blackwell世代で推論の実用限界が動いた（2025年11月6日配信）

https://is1-ssl.mzstatic.com/image/thumb/Podcasts221/v4/9b/a9/6a/9ba96ae5-4434-4796-8c5d-7f064564a118/mza_12339136183253072396.jpg/600x600bb.jpg

名古屋ではたらく社長のITニュースポッドキャスト

ikuo suzuki

686 episodes

5 days ago

システムサーバーの社長である鈴木生雄が気になるITニュースをピックアップして数分のコンテンツとしてお届けする番組です。主に取り上げるニュースはAI、半導体、ビッグテック企業です。

Tech News

News

RSS

All content for 名古屋ではたらく社長のITニュースポッドキャスト is the property of ikuo suzuki and is served directly from their servers with no modification, redirects, or rehosting. The podcast is not affiliated with or endorsed by Podjoint in any way.

Tech News

News

https://d3t3ozftmdmh3i.cloudfront.net/staging/podcast_uploaded_nologo/43297728/43297728-1742996530197-68f20c10eb77e.jpg

Ep.685 Azure ND GB300 v6が“100万トークン／秒”を突破──Blackwell世代で推論の実用限界が動いた（2025年11月6日配信）

名古屋ではたらく社長のITニュースポッドキャスト

4 minutes 39 seconds

5 days ago

Ep.685 Azure ND GB300 v6が“100万トークン／秒”を突破──Blackwell世代で推論の実用限界が動いた（2025年11月6日配信）

11月3日、Microsoftは「Azure ND GB300 v6」で“100万トークン/秒”の壁を越えたと公表しました。Llama 2 70Bのオフライン推論（MLPerf Inference v5.1、未検証提出）で、1ラック＝NVL72構成あたり合計1,100,948トークン/秒を計測。直前世代のND GB200 v6による865,000トークン/秒を27％更新し、1GPUあたりでは約15,200トークン/秒という水準です。実行はTensorRT-LLMのFP4で、ベンチ一式の手順とログも合わせて公開されました。なお“100万トークンの壁”は文脈長ではなく“毎秒の生成トークン数”のことです。

この“速さ”を支えるのがラック一体のNVL72です。72基のBlackwell Ultra GPUとGrace CPUを液冷で密結合し、推論や“推論時スケーリング（test-time scaling）”に最適化。AzureはこのNVL72を18台のND GB300 v6 VMで占有する前提で構成し、HBM帯域・NVLink・NCCLの効率を高めることで、H100世代のND v5比でGEMM性能2.5倍、GPU単体スループット5倍を示したと説明しています。

技術条件も具体的です。1VMあたりGB300×4の合計72GPU、GPUメモリは1基あたり約279GB、HBM帯域は7.37TB/s（効率92％）を計測。CPU-GPU間はNVLink C2Cで従来比4倍の転送速度を得たとしています。測定は18並列ジョブの集計で、第三者のSignal65が“110万トークン/秒”を観測したと添えられました。

業界文脈で見ると、“ラック＝1つの巨大アクセラレータ”というNVL72設計が、生成AIの主戦場を“学習中心”から“大規模推論・エージェント実行”へ広げる合図になりつつあります。NVL72は72GPUとGrace CPUを一体運用する前提で、企業はモデルを細かく分割せずに高速HBM領域に収めやすく、長鎖ツール呼び出しやテスト時アンサンブルのような“重い推論”でも待ち時間を抑えやすくなります。

注意点も正直に付記されました。今回の数値はMLPerfの“未検証（unverified）”提出であり、公式検証を経た記録ではありません。それでもAzureがワークロード・レシピ・ログまで公開し、再現手順を示した意義は大きい。トップティアGPUの“実務スループット”が桁を一段上げ、エンタープライズの生成AIを“秒で返す”体験に近づけつつあることが、今回のメッセージです。