NVIDIA Blackwellとは

NVIDIA Blackwellは、NVIDIAが2024年3月に発表し、2025年から出荷を開始した次世代GPUアーキテクチャです。前世代のHopperアーキテクチャ(H100/H200)の後継として、AI訓練と推論の両方で大幅な性能向上を実現しています。

名前の由来は、数学者デヴィッド・ブラックウェルから。NVIDIAのGPUアーキテクチャは歴代の科学者・数学者にちなんで命名されており、Tesla→Fermi→Kepler→Maxwell→Pascal→Volta→Turing→Ampere→Hopper→Blackwellと続いています。

主要モデルと仕様

B200

BlackwellアーキテクチャのフラッグシップチップがB200です。TSMCの4nmプロセスで製造された2つのダイを1つのパッケージに統合したチップレット設計で、2080億トランジスタを搭載。HBM3eメモリを192GB搭載し、メモリ帯域幅は8TB/sに達します。

AI訓練性能は、FP8で20ペタFLOPS(前世代H100の約2.5倍)、FP4では40ペタFLOPS。推論に関しては、H100比で最大30倍の性能向上(エネルギー効率込み)を謳っています。

GB200 NVL72

データセンター向けの超大規模構成がGB200 NVL72。72個のBlackwell GPUと36個のGrace CPUをNVLink接続で結合した巨大システムで、1つのラックに収まります。メモリは合計13.5TB、GPU間帯域幅は130TB/s。

兆パラメータ級のLLMの訓練と推論を、従来のHopper構成と比べてはるかに少ない電力で実行できるのが売りです。

技術的なブレークスルー

第2世代Transformerエンジン

BlackwellにはFP4(4ビット浮動小数点)の演算をハードウェアレベルでサポートする第2世代Transformerエンジンが搭載されています。精度を維持しながらメモリ使用量と計算量を半減できるため、LLMの推論コスト削減に直結します。

NVLink 5.0

GPU間通信の帯域幅も大幅に向上。NVLink 5.0は、1リンクあたり1.8TB/sの帯域幅を提供し、GB200 NVL72構成では全GPUが高速に通信できるメッシュネットワークを形成します。大規模モデルの並列訓練では、GPU間通信がボトルネックになりやすいので、この改善は大きいですね。

RAS(信頼性・可用性・保守性)エンジン

データセンターでの長期運用を見据えて、ハードウェアレベルでのエラー検知・修正機能も強化されています。AI訓練のジョブが数週間〜数ヶ月にわたって走ることを考えると、信頼性の向上は地味ながらも非常に重要な進化です。

AI業界へのインパクト

Blackwellの登場は、AI業界全体に波及効果をもたらしています。

まず、推論コストの低下。FP4サポートにより、同じモデルをより少ないGPUで動かせるようになったことで、API提供のコストが下がり始めています。これは開発者にとって朗報でしょう。

一方で、AI需要によるハードウェア品薄は続いています。Blackwellの需要は供給を大きく上回っており、2026年前半時点でも入手困難な状況。Armをはじめとする競合アーキテクチャの台頭も、この供給制約を背景にしています。

Hopperとの比較

H100(Hopper)からの主な進化をまとめると:

・AI訓練性能:約2.5倍
・AI推論性能:最大30倍(エネルギー効率込み)
・メモリ:80GB → 192GB(HBM3e)
・新機能:FP4対応、NVLink 5.0、RASエンジン強化
・プロセス:4nm(チップレット構成)

特に推論性能の向上幅が大きいのが特徴的。NVIDIAがAI推論市場を重視していることが読み取れます。

次のステップ:Rubin

NVIDIAは早くも次世代アーキテクチャRubinを2026年後半に投入する予定を発表しています。NVIDIA公式ニュースによると、HBM4メモリの採用やさらなる帯域幅の向上が計画されているとのこと。AIハードウェアの進化サイクルの速さには驚くばかりです。

まとめ

NVIDIA Blackwellは、AI時代のインフラを支える次世代GPUとして、訓練と推論の両面で大きな性能向上を実現しました。チップレット設計やFP4サポートといった技術革新は、AIの民主化を推し進める原動力になるはず。NVIDIA Developerのドキュメントも充実しているので、詳細な仕様が気になる方はチェックしてみてください。