【超絶革新】Llama 3さん、たった1%の計算コストでMoEモデルに爆誕!NVIDIAさんマジパねぇっすwww
1: 名無しのAIウォッチャー 2025-05-14(水) 10:00:00.00 ID:LlamaMoEMoe おいお前ら、とんでもねぇニュースが飛び込んできたぞ! あのLlama 3がだ、たったの1%の計算コストで高性能なMoEモデルになっちまうらしい! ソース:Llama 3 Meets MoE: Efficient Upcycling NVIDIAとテキサス大学オースティン校の研究チーム、マジで神かよ… 🙏
2: 名無しのAIウォッチャー 2025-05-14(水) 10:01:30.50 ID:NvidiaFanBoy ファッ!? Llama 3がMoE化とか胸熱すぎんだろ! 🔥 しかもコスト1%未満って、ワイのオンボロPCでもワンチャンあるんか? (震え声)
3: 名無しのAIウォッチャー 2025-05-14(水) 10:02:15.75 ID:MoETteNani MoEって何?(´・ω・`) もえもえきゅん的なやつ?
4: やる夫 ◆Yaruo.AhoAho 2025-05-14(水) 10:03:00.12 ID:YaruoDeGowasu >>3 MoEっていうのは「Mixture-of-Experts」の略だお! たくさんの専門家(エキスパート)の中から、問題に合わせて最適な専門家を選んで賢く処理するモデルのことだお!(`・ω・´) でも、専門家を育てるのも選ぶのも大変だったんだお…
____ / \ / ノ ヽ、 \ / o゚⌒ ⌒゚o \ Llama 3がMoEで賢くなるのは嬉しいお! | (人) | これで宿題もやってもらえるお?(^q^) \ ` ⌒´ / /´ `\ / / l l / / l l
5: ひろゆき@考える人 ◆Hiroyuki.Kwsk 2025-05-14(水) 10:05:45.33 ID:HiroyukiDesu >>1 「計算コスト1%未満」って言ってますけど、それって元のLlama 3の事前学習コストが天文学的な数字だから、1%でも結構なリソース必要なんじゃないすか?🤔 あと、その「Upcycling」っていう手法、具体的に何やってるんすかね? 既存のモデルの一部を複製してエキスパート作って、ルーターはランダム初期化って書いてますけど、そんなんで上手くいくもんなんですか? なんかそういうデータあるんですか?
6: 名無しのAIウォッチャー 2025-05-14(水) 10:08:22.10 ID:TechGuruSan >>5 ひろゆきさん、相変わらずっすねw Upcyclingは既存の学習済みモデルの重みを再利用して、効率的に新しいモデル構造(この場合はMoE)を作る手法やで。 FFN層をN個コピーしてエキスパートにして、他の層(埋め込み層とか)はそのままコピーするらしい。 ルーターの初期化がランダムなのは、そこから学習させて最適化するんやろ。 MoEの課題だった過学習とかルーティングの不安定さを、この手法で克服できたってのがミソやな。
7: 名無しのAIウォッチャー 2025-05-14(水) 10:10:50.88 ID:MemoryTarinai 分散学習でメモリ超える問題も解決したって書いてあるじゃん! 「NeMoでの効率的なオンラインUpcycling」って、具体的にどういうマジック使ったんだ…? 各デバイスで独立してUpcycleして、デバイス間の重みコピーとか追加計算なしとか、すげぇな。
8: やる夫 ◆Yaruo.AhoAho 2025-05-14(水) 10:12:33.45 ID:YaruoDeGowasu >>7 オンラインUpcycling!なんだか強そうだお!(≧▽≦) これでメモリがカツカツのワイのPCでも、超巨大AIが動かせるようになるのかお!?
9: 名無しのAIウォッチャー 2025-05-14(水) 10:15:01.11 ID:BenchmarkMaster MMLUベンチマークでゼロショット精度2%向上、MFU 46.8%ってのも地味にエグい。 特にMFU (Model FLOPs Utilization) が高いのは、ちゃんと計算資源を効率よく使えてる証拠やで。 NVIDIAの研究者が関わってるだけあって、その辺の最適化は流石やな。
10: 名無しのAIウォッチャー 2025-05-14(水) 10:18:18.18 ID:CostDownIsGod コスト99%削減はマジで革命的すぎる。 これで中小企業や個人の研究者でも、巨大モデルの恩恵を受けやすくなるんちゃうか? AIの民主化がまた一歩進んだって感じやな!(´ω`)
11: ひろゆき@考える人 ◆Hiroyuki.Kwsk 2025-05-14(水) 10:20:30.30 ID:HiroyukiDesu >>9 MMLUのスコアが2%上がったからって、一般ユーザーの生活が何か変わるんすかね? 結局、その性能向上やコスト削減が、どういう新しいサービスや体験に繋がるのかが重要だと思うんすけど。 「MFUが46.8%ですドヤァ」って言われても、それが具体的に何を示してるのか、一般人にはピンとこないんじゃないすか?
12: 名無しのAIウォッチャー 2025-05-14(水) 10:22:55.55 ID:BlackKigyoMoE Top-2 MoEってことは、8人のエキスパートのうち、選ばれた2人だけが働くのか…。 残りの6人は待機…? なんかエキスパート界も大変そうやな (´;ω;`)
13: 名無しのAIウォッチャー 2025-05-14(水) 10:25:12.34 ID:MotoDaiji >>1 でもこれ、結局ベースになるLlama 3-8Bの性能に依存する部分もデカいんじゃね? 元のモデルが微妙だったら、いくら効率的にMoE化しても限界ありそう。 まあLlama 3自体が高性能だから心配ないかもしれんが。
14: 名無しのAIウォッチャー 2025-05-14(水) 10:28:40.77 ID:NvidiaGPUUreru NVIDIAが絡んでるってことは、これに対応した新しいGPUとかライブラリとかも出てくるんかな? またGeForceの値段が上がるのか…?勘弁してくれ…
15: やる夫 ◆Yaruo.AhoAho 2025-05-14(水) 10:30:05.05 ID:YaruoDeGowasu >>11 ひろゆきさんは厳しいお…(´・ω・`) でも、コストが下がれば色んな人がAIを試しやすくなるし、新しい使い方が生まれるかもしれないお! ワイは未来にワクワクしてるんだお! (o^∇^o)ノ
まとめ
というわけで、今回の「Llama 3 Meets MoE」のニュース、まとめるとこんな感じや!
- 超低コスト化: Llama 3-8Bをベースに、従来のMoEモデル事前学習コストの1%未満で8エキスパートTop-2 MoEモデルを開発!
- Upcycling技術: 既存の学習済みモデル(Dense checkpoint)を効率的に再利用(Upcycle)してMoE化する革新的手法。FFN層を複製してエキスパートを初期化。
- 性能向上: MMLUベンチマークでゼロショット精度が2%向上。訓練中のMFU(モデルFLOPs利用率)も46.8%を達成し、計算効率も高い。
- 課題克服: MoEモデル特有の過学習やルーティングの不安定性、分散学習時のメモリ問題を「オンラインUpcycling」などの工夫で解決。
- AI開発の未来: 高性能なMoEアーキテクチャを低コストかつスケーラブルに開発できる道筋を示し、AIモデル開発の効率化と普及に大きく貢献しそう。
NVIDIAとテキサス大学オースティン校、マジでGJ! これからのAIの進化がますます楽しみになってきたで!
source: https://arxiv.org/abs/2405.15085
コメント (0)
まだコメントはありません。