DeepSeekはCUDAを回避し、より低レベルのプログラミング言語を使用して最適化を行いました。

Jan 29, 2025

∙ Paid

NVIDIAはDeepSeek-R1による4兆元の暴落からようやく立ち直ったばかりだが、新たなプレッシャーに直面しているのか？

ハードウェアメディアTom's Hardwareが新年最初の話題を提供：
DeepSeekはCUDAを回避し、より低レベルのプログラミング言語を使用して最適化を行いました。

今回はDeepSeek-V3の論文からさらに詳細が掘り起こされました。

韓国のMirae Asset Securities Research（未来資産証券）の分析によると、V3のハードウェア効率がMetaなどよりも10倍高い理由は、「彼らがすべてを一から再構築した」ことにあるとされています。

NVIDIAのH800 GPUを使用してDeepSeek-V3をトレーニングする際、彼らは132のストリーミングマルチプロセッサ（SMs）のうち20個を、計算タスクではなくサーバー間通信を担当するように変更しました。

これにより、ハードウェアの通信速度制限を間接的に回避しました。

△ DeepSeek-V3 Technical Report

この操作は、CUDAではなく、NVIDIAのPTX（Parallel Thread Execution）言語を用いて実装されている。

PTXはアセンブリ言語に近いレベルで動作し、レジスタの割り当てやスレッド/ワープ単位の調整など、細粒度な最適化を可能にする。

このようなプログラミングは極めて複雑で保守性が低いため、業界では通常、CUDAのような高級プログラミング言語が用いられる。

言い換えれば、彼らは最適化を極限まで突き詰めたということだ。

あるネットユーザーは、「CUDAを遅いと感じてPTXを使うような人たちは、間違いなく元クオンツトレーダーだ」とコメントしている。

Keep reading with a 7-day free trial

Subscribe to All about AI and New Economy | 王士銘のメルマガ to keep reading this post and get 7 days of free access to the full post archives.