AIトレンドまとめ

AIトレンド情報を2ちゃんまとめサイト風にお届け(´・ω・`)

【速報】Anthropicの刺客Sonnet 3.5、GPT-4oを一部ベンチでブチ抜く!AI戦国時代、ついに動くwww

公開日: 2025-05-15|タグ: AI, Anthropic, Claude, GPT4o

1: 名無しのAIウォッチャーさん 2025-05-15(木) 10:00:00.00 ID:AbcDefGhI きたあああああああああああああああああああ!!!! Anthropicがまたやったぞ!!! Claude 3.5 Sonnet 爆誕! なんかGPT-4oより賢いらしいじゃん! しかもOpusより安くて速いとかマジかよ!

ソース:Anthropic Sonnet 3.5 Sets New Benchmark Standards

もうOpenAIの天下も終わりか?wktkが止まらんwww (≧▽≦)

2: 名無しのAIウォッチャーさん 2025-05-15(木) 10:01:30.50 ID:JklMnoPqR ファッ!? マジかよ! Claude 3 Opusでも相当ヤバかったのに、それの上位互換がSonnetで出るとか胸熱だな! これでGPT-4o一強時代も終わりやね(´ω`)

3: やる夫 ◆YaruoDESUo 2025-05-15(木) 10:02:15.12 ID:YaruoDESUo うおおおおおおおお! やる夫、Sonnet 3.5でなんかすごいことしたいお! GPT-4oなんて目じゃないお! AIで世界征服だお!(゚∀゚)

        ____        /      \      / ─    ─ \     /  (●)  (●)  \     |     ,,ノ(、_, )ヽ、,,    |     \   `-=ニ=- ´  /      /   するために  ヽ      l    生まれて   l

4: やらない夫 ◆YaranaiZO 2025-05-15(木) 10:03:45.99 ID:YaranaiZO >>1 どうせまたベンチマーク番長だろ。 ARC-ChallengeとHellaswagの結果を隠してるのが怪しいんだよな。 やらない夫はそういうの、見逃さないぞ。

     / ̄ ̄\     /  ヽ_  .\     (●)(● )   |     (__人__)    |     l`⌒´    |  ふん。     {         /      >     く     (  ヽ、  )      \  \/

5: 名無しのAIウォッチャーさん 2025-05-15(木) 10:05:00.23 ID:StuVwxYz0 >>4 それなwww 都合の悪い数字は隠すの、AI界隈の平常運転だよなw でも、0-shot MMLUはGPT-4oに負けてるけど僅差って書いてあるな。 あとMATHもGPT-4oに負けとるやんけ! 71.1% vs 76.6% は結構差があるぞ。

6: できる夫 ◆DekiruMAN 2025-05-15(木) 10:08:30.11 ID:DekiruMAN

        ____       /      \       / ─    ─ \  「説明しよう! Claude 3.5 Sonnetは、確かに一部のベンチマーク、     /   (●)  (●) \   具体的には0-shot MMLUとMATHでGPT-4oに僅差または明確に劣後している。     |      (__人__)  |   しかし、HumanEval(コーディング)では7ポイント、    /     ∩ノ ⊃  /    GPQA Diamond(大学院レベル推論)では6ポイント上回っている。    (  \ / _ノ |  |     Visionベンチマークも5つ中4つでGPT-4oより良いスコアだ。    .\ “  /__|  |     重要なのは、これがミッドティアモデルであるSonnetで達成された点だね。」      \ /___ /

7: 名無しのAIウォッチャーさん 2025-05-15(木) 10:10:10.78 ID:PqrStUvWx >>6 できる夫ニキ、解説サンクス! つまり、全部が全部勝ってるわけじゃないけど、得意な分野ではぶっちぎりってことか。 Sonnetでこれなら、今後出るClaude 3.5 Opusはマジでバケモンになるんじゃね?

8: ひろゆき@論破ch ◆Hiroyuki論破 2025-05-15(木) 10:12:55.43 ID:HiroyukiRonpa

   ___  /    \ /       ヽ |        |  「あのー、ベンチマークのスコアが良いからって、 \_____/     それが本当にユーザーにとって“使える”AIだってことにはならないっすよね?   |  /\       GPT-4oがMATHで勝ってるってことは、論理的な思考とか計算はまだOpenAIの方が得意ってことじゃないすか?   | |  |       あと、その隠されたベンチマークって、何で隠してるんすかね?都合が悪いから?w」   | |  |    ̄  ̄ ̄

9: 名無しのAIウォッチャーさん 2025-05-15(木) 10:15:22.10 ID:YzaBcdEfg >>8 ひろゆきキターーーwww 相変わらずの切れ味w でも実際、日本語の処理能力とか、APIの使い勝手とか、そういうのも重要だよな。 いくらベンチ良くても、ワイらが使いにくかったら意味ないンゴねぇ。

10: 永遠の初心者 ◆BeginnerAI 2025-05-15(木) 10:18:03.33 ID:EienNoShosin あの…すみません…(´・ω・`) Claude 3 Opus とか Sonnet とか Haiku とかあったと思うんですけど、今回の3.5 Sonnetっていうのは、3のSonnetより賢くて、3のOpusよりも賢いってことなんですか…? でもOpusより安くて速いって…頭がこんがらがってきました… 誰か教えてください!><

11: 名無しのAIウォッチャーさん 2025-05-15(木) 10:20:40.65 ID:HijKlmNop >>10 ざっくり言うと、モデルのデカさ(性能とコスト)が Opus > Sonnet > Haiku の順なんや。 で、今回の3.5 Sonnetは、前の世代の最上位モデルだった3 Opusよりも賢いのに、モデルのサイズ(とコスト)は真ん中のSonnetクラスのまま、ってのがミソやで。 だから「より小型のモデルで高品質を実現した」ってのがスゴイって話。 今年後半には3.5 Haikuと3.5 Opusも出るらしいから、そっちも期待やな!

12: 名無しのAIウォッチャーさん 2025-05-15(木) 10:23:15.88 ID:QrsTuvWxy GoogleのGemini 1.5 ProとかFlashも最近すごかったけど、Anthropicも負けてないな! コンテキストウィンドウはまだGoogleに負けてるけど(20万 vs 100万~200万)、この開発競争は見てて面白いわw OpenAI、Anthropic、Googleの三つ巴か? AI戦国時代や!

         ∧_∧          ( ´Д` ) ギコギコ         /    \        / /|  /\ ヽ        | | | (゚) (゚) |        | | |   ^  |        | | ヽ / ̄\ノ        |  `~|  <●> |        |   |    |        \_人__/

13: クマー ◆KUMAAAAA 2025-05-15(木) 10:25:50.01 ID:KUMAAAAA

/ ̄ ̄ ̄\ / ´・▲・`ヽ |  (:::::::::) | |   ´⌒` |  クマー! 新しいAI! 丶     ノ \    <   GPT-4oより強いクマか!? >    \ /      ヽ |       | \_____/ 凵凵
クマも使ってみたいクマー! (´(ェ)`)

14: 名無しのAIウォッチャーさん 2025-05-15(木) 10:28:00.77 ID:ZabCdeFgh 記事によると、「Memory」機能も開発中らしいな。 ユーザーの好みとか過去のやり取りを記憶してくれるやつ。これは地味に便利そう。 あと企業向けアプリとの連携とかも強化するみたいだし、OpenAIの牙城を崩しにかかってる感あるな。

15: 名無しのAIウォッチャーさん 2025-05-15(木) 10:30:12.34 ID:XyzAbcDef まあ、OpenAIが市場シェアとかデジタルアシスタントの普及ではまだ圧倒的だろうけど、Anthropicが「主要な代替手段」としての地位を固めつつあるのは間違いないな。 このSonnet 3.5とその姉妹モデルで、LLMのトップ層に居続けるのは確実やろ。 問題はワイら一般ピープルがどれだけ恩恵を受けられるかや…無料枠広げてくれ!(^q^)


まとめ

というわけで、Anthropicの新型AI「Claude 3.5 Sonnet」に関する2ちゃんねらーたちの反応を見てきたで。 ポイントをまとめるとこんな感じや!

  1. Claude 3.5 Sonnet爆誕!: AnthropicがClaude 3シリーズの最新版としてSonnet 3.5を発表。Claude 3 Opus(前世代の最上位モデル)や競合のGPT-4oを多くのベンチマークで上回る性能を叩き出したで。
  2. コスパ最強モデルか?: Sonnetは元々ミッドレンジモデルやけど、今回の3.5 Sonnetは最上位クラスの知能を、より低コスト・高速で実現。コスパ厨にはたまらん仕様やな!
  3. ベンチマークの光と影: コーディング能力(HumanEval)や大学院レベルの推論(GPQA Diamond)ではGPT-4oを圧倒!でも、数学(MATH)や一部知識系(0-shot MMLU)ではGPT-4oに軍配が上がる場面も。あと、一部ベンチマーク結果が非公開なのはちょっと気になる点やな。
  4. AI開発競争は続く: OpenAI、Google、そしてAnthropicとしのぎを削るAI戦国時代はまだまだ続きそうや。今年後半にはClaude 3.5 HaikuとOpusも控えてるし、目が離せんで!
  5. 新機能にも期待: ユーザーの利用履歴を記憶する「Memory」機能など、よりパーソナライズされた体験を提供する機能も開発中とのこと。今後の進化が楽しみや!

source: https://synthedia.substack.com/p/anthropic-sonnet-35-sets-new-benchmark

コメント (0)

まだコメントはありません。

コメントを投稿する