【朗報】DeepSeek-V3、激安LLM学習の秘訣を論文で大公開!H800でもここまでやれるんか…!?
1: 名無しさん@おーぷん 2025-05-15(木) 10:00:00.00 ID:AbcDefG1 DeepSeek-V3の新しい論文キタ━━━━(゚∀゚)━━━━!! 「低コスト大規模モデル学習の秘訣」とかマジかよ…ハードウェアとAIアーキテクチャの協調設計だってさ! ソース:DeepSeek-V3 New Paper is coming! Unveiling the Secrets of Low-Cost Large Model Training through Hardware-Aware Co-design これ読めばワイらでもワンチャンあるんか!?🤔
2: やる夫 ◆Yaruo.A01 2025-05-15(木) 10:01:30.50 ID:YarUokKe うおおおお!ついに時代がやる夫に追いついたお!(゚∀゚) 激安でLLM訓練できるなら、やる夫も最強モデル作るお!夢が広がりんぐだお!
3: やらない夫 ◆YaranaiB02 2025-05-15(木) 10:02:15.22 ID:YarAnaIK >>2 どうせNVIDIA様のH800を2048基とか使ってんだろ?個人じゃ無理ゲー定期。 低コストっつっても、相対的な話だろ常考。
4: 名無しさん@おーぷん 2025-05-15(木) 10:03:45.88 ID:Xyz123Ab H800ってH100のダウングレード版じゃんwww NVLink帯域しょぼいやつwww それで「低コスト」「高効率」とか言われてもなーw 煽り乙www
5: できる夫 ◆DekiruC03 2025-05-15(木) 10:05:00.11 ID:DekIRuYo 説明しよう!>>3-4 君たちは論文をちゃんと読んだかね? DeepSeek-V3は、まさにそのH800の制約を逆手に取った「ハードウェアアウェアな協調設計」がキモなんだ。 主な工夫は以下の通りだ。
- Multi-head Latent Attention (MLA): KVキャッシュを大幅に圧縮してメモリ効率向上!LLaMA-3.1 405Bの516KB/トークンに対し、DeepSeek-V3は70KB/トークンだ!
- DeepSeekMoE: 高度なMoEアーキテクチャで、訓練コストと推論スループットを両立!
- FP8混合精度訓練: 大規模MoEモデルでは世界初!計算コストを大幅削減しつつ品質維持! これらはハードウェアの限界をソフトウェア(モデル設計)で補う賢いアプローチだよ。(`・ω・´)シャキーン
∧_∧
( ´∀`)<説明しよう!
,( つ
ヾ(⌒ノ
` J
6: ひろゆき@考える人 ◆HiroyukiD04 2025-05-15(木) 10:07:20.30 ID:HiRoYUki >>5 FP8訓練って、それモデルの精度落ちるんじゃないすか?NVIDIAのTransformer Engine頼りって話もありますけど。 あと、そのMLAってのも、結局は近似で情報欠落してるんですよね?本当に大丈夫なんすか? 「品質維持」って、具体的にどのタスクでどういう評価したんすかね?データあります?🤔
7: 名無しさん@おーぷん 2025-05-15(木) 10:08:55.12 ID:Ghi456Jk >>6 論文には「extensive experimentation, significantly reduces computational costs while maintaining model quality」って書いてあるぞ。 インフラチームとアルゴリズムチームの緊密な協力の賜物らしい。まあ、詳細はこれからもっと出てくるんじゃね?
8: 永遠の初心者さん ◆ShoshinE05 2025-05-15(木) 10:10:10.10 ID:ShoSHiNn あの…MLAとかMoEとかFP8とか…専門用語が多くて全然わからないです…(´;ω;`) KVキャッシュって何ですか?HBMって美味しいんですか…?(^q^)
9: できる夫 ◆DekiruC03 2025-05-15(木) 10:12:30.40 ID:DekIRuYo >>8 永遠の初心者さん、いらっしゃい!
- KVキャッシュ:トランスフォーマーモデルがアテンション計算をするときに一時的に保存するキー(K)とバリュー(V)のことだよ。これがデカいとメモリを圧迫するんだ。MLAはこれを小さくする技術。
- MoE (Mixture-of-Experts):複数の小さな専門家モデル(エキスパート)を用意して、入力に応じて適切なエキスパートを選んで処理させる仕組み。全部のモデルを動かすより効率的。
- FP8: 8ビット浮動小数点数のこと。従来の16ビット(BF16)や32ビット(FP32)より少ないビット数で数値を表現するので、メモリ使用量や計算量を減らせる。
- HBM (High Bandwidth Memory):GPUに搭載されてる超高速なメモリのこと。美味しいけど、高いし容量も限られてるんだ。
10: やる夫 ◆Yaruo.A01 2025-05-15(木) 10:14:00.55 ID:YarUokKe >>9 なるほどだお!できる夫ありがとうだお!(≧▽≦) つまり、少ないお小遣い(HBM)で、賢くやりくり(MLA、MoE、FP8)するってことかお!? これならH800のNVLink帯域がH100の半分以下(400GB/s vs 900GB/s)でもなんとかなるのかお?
11: やらない夫 ◆YaranaiB02 2025-05-15(木) 10:15:30.77 ID:YarAnaIK >>10 そのNVLink帯域半減以下ってのが一番の問題だろ。GPU間の通信がボトルネックになるのは目に見えてる。 論文でも「significant reduction in intra-node scaling bandwidth poses challenges」って書いてあるじゃん。 IB (Infiniband) NICを8枚も積んで補強してるみたいだけど、それでも追いつくのかねぇ。
12: クマー ◆KumaF06 2025-05-15(木) 10:17:00.01 ID:KuMAクマaa
/ ̄ ̄ ̄\
/ / \ヽ
| (●)(●) | クマーーーー!!!
| (__人__) | 帯域ガー!帯域ガー!
| ` ⌒´ | NVLinkとIB、仲良くできないクマー!
ヽ } SMが通信処理で忙しいクマ!
ヽ }
\ U }
\ ノ
| |
/ニニニヽ
("\_/")
∪∪
ノード内NVLink (実効160GB/s) とノード間IB (NICあたり実効40GB/s) の速度差、デカすぎクマ! これじゃあ、データのやり取りが大変クマー!
13: 名無しさん@おーぷん 2025-05-15(木) 10:18:40.99 ID:Jkl789Mn >>12 そこで「ノードアウェアルーティング」ですよ、旦那。 MoEのエキスパートをノード内にまとめて、できるだけ高速なNVLinkを使おうって魂胆らしい。 トークンが最大4ノードにしかルーティングされないようにアルゴリズムで制御して、IBのボトルネックを軽減するんだと。かしこい。
14: ホリエモン@実業家 ◆HorieG07 2025-05-15(木) 10:20:05.32 ID:HoRIeMoN >>13 結局、2048基のH800クラスタ組んでる時点で、金と規模がないと話にならん。 こういう最適化は大事だけど、根本的にNVIDIAのプラットフォームに乗っかってる以上、彼らの手のひらの上で踊らされてるだけ。 まあ、少しでも効率上がるなら投資家受けはいいだろうけどな。時間の無駄を省くのは良いことだ。
15: 名無しさん@おーぷん 2025-05-15(木) 10:21:50.18 ID:Opq012Rs >>14 でも、こういう技術の積み重ねが、いつかは個人でも手の届く大規模モデル開発に繋がるかもしれんやん? 夢見すぎかもしれんけど、オープンな技術レポート出してくれるのはありがたいで。
16: ひろゆき@考える人 ◆HiroyukiD04 2025-05-15(木) 10:23:10.65 ID:HiRoYUki >>15 それってあなたの感想ですよね?「いつか」っていつですか? 結局、金持ってる企業がさらに効率よく儲けるための技術でしょ? あと、論文で「LogFMT-nBit」っていう新しいデータ型も実験してるって書いてあるけど、これ具体的に何なんすか?情報少なすぎません?
17: できる夫 ◆DekiruC03 2025-05-15(木) 10:25:00.78 ID:DekIRuYo >>16 LogFMT-nBit (Logarithmic Floating-Point Formats) は、その名の通り対数表現を使った浮動小数点形式のようだね。 まだ実験段階で詳細は少ないけど、さらなるメモリ効率化や計算効率化を狙ったものだろう。 従来の浮動小数点数とは異なるアプローチで、AIハードウェアの新しい可能性を探っているんだと思うよ。
18: やる夫 ◆Yaruo.A01 2025-05-15(木) 10:26:40.12 ID:YarUokKe 新しいデータフォーマット!SFみたいでワクワクするお!(゚∀゚*) FP8もいいけど、LogFMTが実用化されたら、もっとすごいことになるのかお!? やる夫もなんか新しいフォーマット作ってみたいお!「YaruoFMT-1Bit」とか!(`・ω・´)
19: 名無しさん@おーぷん 2025-05-15(木) 10:28:15.93 ID:Stu345Tv 推論速度もめちゃくちゃ重要だよな。論文でもデュアルマイクロバッチオーバーラッピングとか、prefill/decode分離アーキテクチャとか色々やってるみたいだし。 特に強化学習のワークフローとか、長い文章生成するときのユーザー体感レイテンシとか、ここが遅いと話にならん。
20: カーチャン ◆KachanH08 2025-05-15(木) 10:30:00.00 ID:KaaChaN0 あんたたち、また難しい話してるわねぇ。 AIもいいけど、ちゃんとご飯食べなさいよ!今日は唐揚げよ!
○
く|)へ ∧∧
〉 (,,゚Д゚) <ごはんよー
)
(____ フ ミ
// /
(/(/
//
(/
早くしないと冷めちゃうわよー!
21: やらない夫 ◆YaranaiB02 2025-05-15(木) 10:31:20.45 ID:YarAnaIK >>20 うす。唐揚げは正義。 まあ、DeepSeekの取り組みは面白いとは思うよ。ハードの進化を待つだけじゃなくて、ソフトウェア側で工夫するのは大事。 ただ、結局は「超金持ち企業の道楽」感が拭えないのも事実なんだよな。ワイらには無縁の話や。
22: 名無しさん@おーぷん 2025-05-15(木) 10:33:00.66 ID:Vwx678Yz >>21 でも中国企業の技術力、マジで侮れんよな。 NVIDIAのH800っていう、例の輸出規制かけられたGPU使ってここまでやるんだから、基礎研究力も実行力も相当高い。 こういう競争があるから技術が進歩するんやで。
23: やる夫 ◆Yaruo.A01 2025-05-15(木) 10:34:40.21 ID:YarUokKe >>20 カーチャンありがとうだお!唐揚げ!唐揚げ!(^q^) >>22 せやな!やる夫も負けてられないお! とりあえず論文ちゃんと読んで、できることから勉強するお!(`・ω・´)キリッ
24: ひろゆき@考える人 ◆HiroyukiD04 2025-05-15(木) 10:36:10.88 ID:HiRoYUki >>1 で、この14ページの「technical paper」って、査読通ってる学術論文なんすか? それともただの企業が出してる技術レポート? 後者だと、いくらでも自分たちに都合のいいこと書けますよね。再現性とかどうなんすかね?
25: 名無しさん@おーぷん 2025-05-15(木) 10:38:00.33 ID:Ab1Cd2Ef >>24 まあ、査読付きじゃなくても、これだけ詳細な技術情報出してくれるのはありがたいけどな。 特にハードウェア構成とか、並列化戦略とか、普通は企業秘密で隠す部分も多いだろうし。 他のLLM開発企業も見習って、もっと情報公開してほしいわ。オープンな競争こそがイノベーションを生むんやで!(・∀・)イイ!!
まとめ
DeepSeek-V3の新しい技術論文から見えてきたポイントはこんな感じや!
- ハードとソフトの合わせ技: DeepSeek-V3は、ハードウェアの制約を理解した上でモデルアーキテクチャを設計する「協調設計」で、低コストかつ高効率な大規模学習を目指してるで。
- メモリと計算コスト削減の鬼: Multi-head Latent Attention (MLA) でKVキャッシュを激減させたり、DeepSeekMoEアーキテクチャで賢く計算したり、とにかく効率化への執念がすごいんや。
- FP8訓練のパイオニア: 大規模MoEモデルで世界初となるFP8混合精度訓練を成功させて、計算コストを大幅にダウン。品質も維持してるらしいから驚きや。
- H800でも諦めない工夫: 輸出規制版GPUであるNVIDIA H800の性能限界(特にNVLink帯域)の中で、ノードアウェアルーティングみたいな賢い並列化戦略を駆使してるのは注目やな。
- 未来のハードへの期待も: 論文では、
コメント (0)
まだコメントはありません。