AIトレンドまとめ

AIトレンド情報を2ちゃんまとめサイト風にお届け(´・ω・`)

【速報】中華AI「Kwai」、LLM訓練効率を10倍にするSRPO爆誕!DeepSeek超えの性能を1/10の労力でwww

公開日: 2025-05-14|タグ: AI, LLM, 強化学習, SRPO

1: 名無しさん@おーぷん 2025/05/14(水) 10:00:00.00 ID:KwaiGODSRPO おいお前ら、また中華AIがとんでもないもん開発したぞ! Kwai AIとかいうところが「SRPO」って新しいLLMの訓練方法考えたらしいんだけど、これがマジで革命的。 なんでも、訓練のステップ数を90%も減らせるのに、性能はDeepSeek-R1とかいうつよつよモデル並みなんだとよ! 数学もコードもイケるらしい。これもう全部SRPOでいいじゃん… ソース:Can GRPO be 10x Efficient? Kwai AI’s SRPO Suggests Yes with SRPO

2: 名無しさん@おーぷん 2025/05/14(水) 10:01:30.50 ID:SugoiJaNKa ファッ!? 訓練コスト1/10で同性能とかマジ? またいつもの中華お得意の誇大広告じゃねーの?( ´ー`)y-~~

3: やる夫 ◆Yaruo.AbCd 2025/05/14(水) 10:02:15.78 ID:yaruoDEGESO 訓練ステップ90%減ってことは、電気代もめちゃくちゃ安くなるお? 地球に優しいAIってことかお? やるじゃんKwai! これで電気代気にせずAIぶん回せるお!(≧∀≦)

         ____
        /      \
      /  \   ,_\
      /    (●)  (●) \
      |       (__人__)    | ________
      /         ∩ノ ⊃ / | |           |
      (  \ / _ノ |  |   | |  やるお!    |
      .\ “  /__|  |   | |           |
        \ /___ /    |_|_______|

4: 名無しさん@おーぷん 2025/05/14(水) 10:03:45.12 ID:GRPOtteNani そもそもGRPOってのがイマイチだったってことか?(´・ω・`) なんか色々問題あったみたいに書いてるな。

5: ひろゆき@考える人 2025/05/14(水) 10:05:00.22 ID:HiroyukiSensei GRPOがダメっていうより、大規模RLHF全般に言える課題ですよね、サンプル効率とか。 SRPOは「履歴リサンプリング」で無駄なデータ食わせるのやめたって話でしょ? それって賢いですよね。だって、同じ問題ばっかり解けてもモデル賢くならないじゃないですか。 まあ、本当に1/10で済むなら、それはすごいと思いますよ。嘘じゃなければ。

6: 名無しさん@おーぷん 2025/05/14(水) 10:06:50.99 ID:MathCodeTsuyoi 数学とコードの両方でDeepSeek-R1-Zeroレベルってのがエグい。 普通どっちかに偏るもんだが… Qwen2.5-32Bベースってのもあるんかな。

7: 霧雨魔理沙だぜ! ◆MarisaDAZEP 2025/05/14(水) 10:08:33.10 ID:MagicSTARLight 履歴リサンプリングねぇ… 過去の成功例とか失敗例をうまいこと次の学習に活かすって感じか? まるで師匠の魔導書から効率よく魔法を学ぶみたいなもんだな!賢いぜ! これでうちの魔法も10倍速で上達する…わけないか。(^q^)

8: 名無しさん@おーぷん 2025/05/14(水) 10:10:11.88 ID:BaseModelDake >>6 それな。結局ベースモデルのQwen2.5-32Bが優秀だからってオチじゃね? いくら調教方法が良くても、元の子が悪けりゃ意味ないし。

9: やらない夫 ◆Yaranai.XYZ 2025/05/14(水) 10:12:05.43 ID:yaranaiYO どうせベンチマーク番長だろ……特定のタスクだけ異常に強くて、他はスカスカなんだ…… 記事にも「数学とコードドメイン」って限定してるしな…… 期待するだけ無駄だ……また騙される……はぁ……

               ___
              / .u \
            / (ー) (ー)\
           / u.  (__人__) \
           |      |WWWI|  |
           \     `ー'  /
          ノ         \
        /´             ヽ
       |    l           \
       ヽ    -一''''''"~~``'ー--、   -一'''''''ー-、.
        ヽ ____(⌒)(⌒)⌒) )  (⌒_(⌒)⌒)⌒))
             '' ー'''' ー"~~" ー'''    "ー"~~~''"      "

10: 名無しさん@おーぷん 2025/05/14(水) 10:13:55.21 ID:GanbareSRPO >>9 またお前かwww でも論文も出てるしモデルも公開してるんだろ? そこは評価してやれよ。AIME24とかLiveCodeBenchで結果出てるのは事実やん。

11: やる夫 ◆Yaruo.AbCd 2025/05/14(水) 10:15:40.30 ID:yaruoDEGESO 記事によると、AIが自分で「うーん、これで合ってるかな?」「あ、ここ間違えたからやり直そう」みたいに考えるようになる「自己検証」能力が身につくらしいお! まるで人間みたいだお!賢いお!(`・ω・´) しかも数学の問題解くのにプログラム書いて検算するとか、天才かお!?

12: 名無しさん@おーぷん 2025/05/14(水) 10:17:22.05 ID:OpenSourceGJ >>1 オープンソースでSRPO-Qwen-32Bモデルも公開してるのは偉いな。 中華系って囲い込むイメージあったけど、最近はそうでもないんか?

13: ひろゆき@考える人 2025/05/14(水) 10:19:00.77 ID:HiroyukiSensei >>11 それってAIが「考えてる」んじゃなくて、そういう振る舞いをすると報酬が高くなるように学習させた結果ですよね。 人間が勝手に「自己検証してる!」って感動してるだけで、AI君は「こうすればご褒美もらえるんでしょ?」ってやってるだけですよ、多分。 まあ、結果として問題解決能力が上がるなら、それはそれでいいんですけどね。

14: 霧雨魔理沙だぜ! ◆MarisaDAZEP 2025/05/14(水) 10:21:13.54 ID:MagicSTARLight >>13 ひねくれてるぜ、ひろゆきは。でも、その「ご褒美設計」が上手いってことだろ? まるで難しい魔法陣を正確に描いて、強力な魔法を発動させるようなもんだ。 結果が全てだぜ!使える魔法なら何でも歓迎だ!

15: 名無しさん@おーぷん 2025/05/14(水) 10:23:45.93 ID:LLMwarKakero これでまたLLM開発競争が加速するんか…胸が熱くなるな。 OpenAIもDeepMindもGoogleも戦々恐々としてるんじゃね?w

16: 名無しさん@おーぷん 2025/05/14(水) 10:25:01.11 ID:NihongoMadaKa で、これ日本語にはいつ対応すんの?(´・ω・`) 結局英語と中国語だけのオモチャなんでしょ?知ってる知ってる。

17: やる夫 ◆Yaruo.AbCd 2025/05/14(水) 10:26:30.85 ID:yaruoDEGESO >>16 はやく日本語にも対応してほしいお! そしたら夏休みの宿題とか全部やってもらうんだお!(゚∀゚)アヒャ

18: 名無しさん@おーぷん 2025/05/14(水) 10:28:10.67 ID:ShukudaiJibunDe >>17 お前はまず自分でやれ定期www AIに頼る前に自分の頭使えだお(AA略)

19: 名無しさん@おーぷん 2025/05/14(水) 10:30:05.29 ID:CostDownUreshii 訓練コスト1/10はマジでデカい。 個人開発者とかスタートアップでもワンチャンあるかもって希望が持てる。 今までは金持ち企業のおもちゃだったしな、大規模LLMは。

20: 名無しさん@おーぷん 2025/05/14(水) 10:32:18.92 ID:KwaiShortDouga KwaiってあのTikTokみたいなショート動画アプリの会社だろ? AI研究もこんなガチでやってたんだな、知らんかったわ。 動画で儲けた金でAI開発か、賢いな。


まとめ

というわけで、Kwai AIのSRPOが巻き起こすLLM業界への衝撃について見てきたけど、ポイントはこんな感じか?

  1. 訓練効率爆上がり: 従来の強化学習(GRPO)に比べて、訓練ステップを90%削減。つまり1/10の労力で済む!
  2. 高性能維持: 訓練コストは下がっても、数学(AIME24)とコード(LiveCodeBench)の分野ではDeepSeek-R1-Zeroっていうトップクラスのモデルと同等以上の性能を叩き出す。
  3. 2段階訓練と履歴リサンプリングが鍵: まず数学で鍛えてからコードを学習させる2段階方式と、賢いデータ再利用の「履歴リサンプリング」っていうテクがミソらしい。これにより、無駄な学習を減らして効率アップ。
  4. AIの自己進化?: 訓練が進むと、AIが自分で間違いに気づいて修正したり、別の方法を試したりする「自己検証」や「リフレクション」といった振る舞いを見せるようになる。まるで人間みたいじゃん!
  5. オープンソースで公開: 開発手法の論文だけじゃなく、SRPO-Qwen-32Bモデルも公開。これは研究者や開発者にとって朗報。

今後のLLM開発に大きな影響を与えそうな技術なのは間違いないな!(`・ω・´)

source: https://syncedreview.com/2025/04/23/can-grpo-be-10x-efficient-kwai-ais-srpo-suggests-yes-with-srpo/

コメント (0)

まだコメントはありません。

コメントを投稿する