【悲報】AI様、プログラミングテストで衝撃の7.5%!「AI医師」とか夢だったんか…?【現実は非情】
1: 名無しのIT戦士 2025-07-24(木) 10:00:00.00 ID:AbcDefGhI なあお前ら、AIってマジで何でもできると思ってたんだけどさ…
これ見てくれよ…
ソース:A new AI coding challenge just published its first results — and they aren’t pretty
新しく始まったAIコーディングチャレンジ「K Prize」の初回結果発表されたらしいんだけど、優勝者がなんと**7.5%**の正答率で $50,000ゲットしたらしい…
7.5%て。ファッ!?AI様、プログラミングだとこんなもんかよ…(´・ω・`)
2: 名無しさん@おーぷん 2025-07-24(木) 10:02:15.33 ID:JklMnoPqR >>1 は?7.5%?桁間違ってね? ワイの目がおかしいんか?(´・ω・`)
3: ひろゆき@考える人 2025-07-24(木) 10:03:40.11 ID:HIROYUKIch それってあなたの感想ですよね? ベンチマークの難易度が高かっただけ、とか、モデルの規模が小さかったとか、そういう可能性は考えないんですか? 僕はそう思いますけどね。
4: 名無しのIT戦士 2025-07-24(木) 10:05:01.89 ID:AbcDefGhI >>3 いやいや、元記事に書いてあるんやで。 「既存のSWE-Benchだと75%とか34%とか出てるけど、K Prizeはそれとは別モンで、汚染フリー(=学習データに入ってない未公開問題)のガチテストだから難しい」って。
まさに「現実を突きつけられた」って感じやな…。AI医師とかAI弁護士とか聞いてたのに…
5: 名無しのご意見番 2025-07-24(木) 10:06:30.90 ID:QweRtyUiO マジかよ。7.5%って高校生でももっと取れるだろ…(震え声) 今まで言われてたAIのプログラミング能力って、実は水増しだったってことか?
6: できる夫 2025-07-24(木) 10:08:00.00 ID:DEKIRU_kun 説明しよう。 K Prizeは、GitHubでテスト開始日以降に公開されたイシューを問題として使うことで、学習データへの「汚染」を防いでいるんだ。 つまり、既存のベンチマークのように、モデルが事前に答えを学習している可能性のある問題とは一線を画していると言えるね。 これにより、真に「未知の問題」に対するAIの対応能力が測られるわけだ。
____
| ⌒ ⌒ |
|・ ・| 「K Prize」は
| ⊂⊃ | 真の実力が測れるベンチマークなんだ!
|`ー'__ノ
`ー―´
7: 永遠の初心者さん 2025-07-24(木) 10:09:12.78 ID:FOREVER_NOOB >>6 汚染フリーって何から始めればいいの?(哲学) 結局、AIって人間が作ったデータを超えられないってこと…?
8: やらない夫 2025-07-24(木) 10:10:45.00 ID:YARANAI_o >>7 その通りだ。 AIなんて結局は学習データの焼き直しに過ぎない。未知の問題に対応できないなんて、ま、そうなるわな。 やる夫みたいな馬鹿が「AIすごいお!」とか言ってるから、こういう結果で現実に引き戻されるんだ。
9: やる夫 2025-07-24(木) 10:12:00.00 ID:YARU_o >>8 やらない夫、そんなこと言うなお! だって、元記事には「90%超えたオープンソースモデルには100万ドル払うお!」って書いてあるお! やる夫、今からプログラミング勉強して、オープンソースモデル作って100万ドルゲットするお!(`・ω・´)
10: やらない夫 2025-07-24(木) 10:13:30.15 ID:YARANAI_o >>9 バカかお前は。7.5%しか取れないテストで90%超えるとか、夢見すぎだろ。 やらない夫はそんな無謀なことはしないぞ。
11: ホリエモン 2025-07-24(木) 10:14:50.00 ID:HORIEMON_ss >>9 時間の無駄。 お前みたいな素人が今から始めても間に合うわけねーだろ。 結局、やるかやらないかだけ。でも、お前は無駄な努力してるだけ。 そんなことより、もっと金になること考えろ。
12: 名無しのAIウォッチャーさん 2025-07-24(木) 10:16:10.50 ID:GHJkLmNoP でもさ、逆に考えたら7.5%でもトップってのがすごいんじゃね? どんだけ他のモデルはダメだったんだよwww
13: 名無しのギコ猫 2025-07-24(木) 10:17:45.99 ID:GIKONEKO_ID ((((;´・ω・`))) うーん、これは厳しいにゃあ。 期待値とのギャップがすごすぎて、どう反応していいかわからないにゃ。
14: ムスカ大佐 2025-07-24(木) 10:19:00.00 ID:MUSUKA_ID 見ろ!AIがゴミのようだ! 7.5%だと?あえて言おう、カスであると! プログラミングとはこのようなものか、フハハハハ!
____
| ⌒ ⌒ |
|・ ・| FATAL ERROR!!
| ⊂⊃ | 貴様のコードは無価値だ!
|`ー'__ノ
`ー―´
15: クマー 2025-07-24(木) 10:20:10.00 ID:KUMA_BUBU ∧_∧ (´∀` ) ( ) | | | | (_ ) ( _) ガガガガ…(デバッグ中) クマー! (バグだらけ)
16: 名無しの開発者 2025-07-24(木) 10:21:30.45 ID:StuVwXyZ0 これは逆に健全な流れでは? 過度なAI万能論に一石を投じる結果だし、真の課題が見えてくる。 「ベンチマークが簡単すぎる問題」って言われてたし、これくらいの厳しさが必要だったのかもな。
17: カーチャン 2025-07-24(木) 10:22:50.00 ID:KAACHAN_ID あんたたち、こんな時間まで何してるの! ゲームばっかりしてないで、ちゃんとAIの勉強でもしなさい! 7.5%じゃお嫁さん(お婿さん)来ないわよ!
18: 名無しのAIウォッチャーさん 2025-07-24(木) 10:24:10.00 ID:AbcDefGhI >>16 せやな。ワイもそう思うわ。 でも「AIが人間様から仕事を奪う!」とか言ってたヤツら、手のひらドリルするやろなwww
まとめ
今回のAIコーディングチャレンジ「K Prize」の結果を受けて、ネット上では様々な議論が巻き起こりました。主なポイントは以下の通りです。
- 衝撃の低スコア: 優勝者でも7.5%という結果は、AIのプログラミング能力に対する過度な期待を冷ます「現実チェック」となりました。
- 「汚染フリー」ベンチマークの重要性: K Prizeは過去の学習データに含まれない「未知の」問題を使用することで、AIの真の実力を測る試みであり、既存ベンチマークの「汚染」問題に一石を投じました。
- AIの限界と進化への期待: 現時点でのAIの限界が示された一方で、主催者が90%以上達成のオープンソースモデルに100万ドルの賞金を出すと表明しており、今後の技術革新への期待も高まっています。
- 過大評価への警鐘: AIがあらゆる問題を解決する、という楽観的な見方に対し、実際の現場ではまだまだ課題が多いことが浮き彫りになりました。
AIの進化は目覚ましいものがありますが、その実力を正確に評価するための取り組みも、これからはより重要になりそうです。
コメント (0)
まだコメントはありません。