中国AI企業DeepSeekが示したコスト効率革命とH800最適化の舞台裏
米国のチップ輸出規制で最先端GPUへのアクセスが限られる中、中国のAI企業DeepSeekは、限られた資源の中でコスト効率と性能を両立させるアプローチで世界の注目を集めています。本記事では、その技術的な工夫をできるだけ平易な言葉で解説します。
米国のチップ規制とH800という制約
2025年2月10〜11日にパリで開催されたAI Action Summit 2025を前に、中国のAI企業DeepSeekは世界のAI市場に衝撃を与えたとされています。その背景には、米国による半導体輸出規制があります。
米国の輸出規制により、中国の企業はNVIDIAのH100のような、メモリ帯域やGPU間通信速度に優れた最新世代のAI向けGPUを利用できませんでした。この制約に対応するため、NVIDIAは性能を抑えたH800を投入しました。
DeepSeekのV3モデルの技術レポートによると、同社はこのH800を使って学習を行っています。H800はH100に比べてGPU間をつなぐNVLinkの帯域が大幅に抑えられており、複数GPUにまたがる大規模な計算ではボトルネックになりやすい構造です。いわば、作業者同士が対面で話せていた職場が、トランシーバー越しにしか連絡できなくなったような状態です。
通常であれば、このようなハードウェア上の制約は計算効率の低下につながります。しかしDeepSeekは、まさにこの制約を前提として、無駄を極限まで削り取る設計とソフトウェア最適化で突破口を開きました。
制約下で効率を極限まで高める三つの工夫
1. MoE: 必要な専門家だけを動かす
従来型の大規模言語モデルの多くは、どんな入力に対してもモデル全体を動かします。これは、どんな相談にも社内の全員を会議室に集めるようなもので、多くの計算資源が無駄になります。
DeepSeekが採用するMoE(Mixture of Experts、専門家の混合)では、モデルを複数の専門家に分け、そのタスクに必要な一部の専門家だけを動かします。関連する専門家だけを呼び出して議論させるイメージです。
その結果、モデル全体のパラメータ規模は大きくても、一回の推論や学習で実際に動く部分はごく一部にとどまり、計算コストを大きく抑えながら性能を維持できます。
2. DeepSeekMLA: 文脈の要点だけを覚える
DeepSeekが打ち出したもう一つの工夫が、DeepSeekMLA(Multi-head Latent Attention)です。これは、全ての情報をそのまま記憶するのではなく、本当に重要な文脈情報だけを圧縮して扱う仕組みだと説明されています。
たとえるなら、一冊の本の全ての文章を暗記するのではなく、この本は何を言いたいのかというエッセンスだけを覚えるイメージです。重要なポイントを抽出して潜在的な表現として扱うことで、メモリ使用量を抑えながら、必要な文脈理解は維持します。
このように、モデルが扱う情報量を減らしつつ、意味理解にとって重要な部分だけを優先することで、H800の限られたメモリ帯域の中でも高い効率を引き出しています。
3. 精度最適化: FP8で十分なきめ細かさを確保
DeepSeekは数値表現の精度にも踏み込んでいます。一般的なAIモデルでは、FP32やBF16といった比較的高精度な形式でパラメータを保存・計算することが多く、これがメモリ使用量と計算量を押し上げる要因になります。
これに対しDeepSeekは、パラメータをFP8というより小さい精度で扱うことで、必要なメモリを大幅に削減しつつ、精度低下を最小限に抑えようとしています。高解像度の写真を、情報をそぎ落としつつも内容が十分伝わるスケッチに描き直すようなものです。
この精度最適化により、同じGPUメモリ容量でもより大きなモデルを動かすことができ、通信や保存に必要な帯域も抑えられます。
CUDAを飛び越えPTXへ: GPUを手作業で制御
ハードウェア制約を乗り越えるために、DeepSeekはソフトウェアの設計も大胆に見直しました。象徴的なのが、NVIDIAが提供するCUDAという高レベルの管理レイヤーを部分的に迂回し、より低レベルなPTX(Parallel Thread Execution)でGPUを直接制御したという点です。
CUDAは、本来ユーザーの代わりにGPU上のスレッドやメモリ配置を効率よく管理してくれる工場長のような存在です。一般の開発者は細かな割り当てを意識せずに並列処理を利用できます。
しかしH800のようにGPU間通信の帯域が限られる環境では、CUDAの標準的なスケジューリングだけでは、DeepSeekが目指す極限までの最適化には足りなかったとされています。
そこでDeepSeekのエンジニアは、PTXというより低レベルな命令セットを用いて、個々のGPUコアに対して直接指示を出すアプローチを取ります。工場長に任せるのではなく、現場監督が一人ひとりの作業者に細かく指示を出すイメージです。
開発難度は上がるものの、どのGPUにどの計算をどのタイミングで割り当てるかを細かく制御できるため、限られたNVLink帯域を前提としたタスク設計が可能になります。その結果、H800というスケールダウン版のGPUでも、想定以上の効率を引き出せることを示しました。
DeepSeekが示した産業へのインパクト
DeepSeekの事例は、一社の技術的成功を超えて、AI産業全体の構図に影響を与えつつあります。
- 制約のあるGPUでも、ソフトウェアとアーキテクチャの工夫次第で高い効率が出せることが示された
- 米国の輸出規制によるGPU性能制限のインパクトは、当初の想定より小さくなる可能性があると受け止められつつある
- 中国でのAI開発の持続可能性や競争力について、市場が見直しを始めた
- NVIDIAのハイエンドGPUにどこまで依存するべきかという問いが突き付けられ、AMDやIntel、国内半導体メーカーなど他の選択肢への関心も高まっている
こうした一連の動きは、NVIDIAの株価下落要因の一つになった可能性も指摘されています。DeepSeekの成功は単なる技術トリックではなく、AI業界がより大きく、より高価なハードウェアに依存し続ける必然性を問い直すシグナルでもあります。
日本の読者への示唆: 全部そろわなくても勝てる戦い方
DeepSeekのケースが投げかけるメッセージはシンプルです。最高性能のチップがなくても、問題設定と設計次第で、十分な性能とコスト効率を両立できるということです。
これは、スタートアップや研究機関など、計算資源が潤沢ではないプレーヤーにとっても重要な示唆を与えます。限られたGPUをどう設計とソフトウェアで生かし切るか。DeepSeekはその極端な例として、世界に新しいベンチマークを提示したとも言えます。
AIが社会やビジネスの前提を塗り替えつつある2025年、中国のAI企業が見せた制約を力に変える発想は、日本を含む各国の技術戦略や投資戦略にも静かに影響を与えていきそうです。
Reference(s):
Catalyst DeepSeek: The innovation behind its cost efficiency
cgtn.com








