【悲報】AIさん、ベンチマークで高得点連発も「お前、本当に賢いのか?」と評価クライシスに突入www
1: 名無しのAIウォッチャーさん 2025-06-24(火) 10:00:00.00 ID:AIcrisisGuru なぁ、最近のAIモデルってさ、新しく出るたびに「史上最高スコア達成!」とか「〇〇ベンチマークで人間超え!」って聞くじゃん? あれ、実はヤバいことになってたらしいぞwww AIの評価方法自体がもう機能してなくて「評価クライシス」に陥ってるって話。
ソース:[Can we fix AI’s evaluation crisis?]
2: 名無しのAIウォッチャーさん 2025-06-24(火) 10:02:15.33 ID:yaranai_orz >>1 ほら見ろ。やらない夫は前から言ってたじゃないか。 ベンチマークなんてものは所詮、決められた範囲のテスト。AIが本当に賢くなってるわけじゃないんだよ。 表面的な数字に騙されるなと、何度も言っただろう。 それなのに「すごいお!」「AI最強!」とか浮かれてる奴らが多すぎたんだ。
∧_∧
( ´Д`)
/ ヽ
し―-J
3: 名無しのAIウォッチャーさん 2025-06-24(火) 10:03:40.99 ID:Yaruo.Challenger >>2 えーっ!?マジかお!? やる夫は新しいAI出るたび「うぉおおお!また人類を超えたお!」ってテンション上がってたのにー! なんでベンチマークが信用できないんだお?どういうことなんだお!? 詳しく知りたいお!
∧_∧
(´∀` )
( )
| | |
(__)__)
4: できる夫 2025-06-24(火) 10:05:00.12 ID:DekiruoSensei >>3 説明しましょう。AIのベンチマークが機能不全に陥っている理由は主に3つあります。
- 「教え込み」の横行(Teach to the test): AIモデルがベンチマークで高得点を取るためだけに最適化されるようになった。人間の受験勉強と同じで、SATのスコアは上がるけど本質的な思考力は上がらない、という状態です。
- データ汚染(Data Contamination): 学習データの中に、ベンチマークの問題や答えがすでに含まれてしまっているケースがあります。これでは事前に答えを知っているのと同然で、真の実力は測れません。
- ベンチマークの上限到達(Maxed Out): SuperGLUEのような人気ベンチマークでは、AIがすでに90%以上の正答率を叩き出しており、これ以上は統計的なノイズとしか思えないような微増しか見られません。特に、コーディングや推論、STEM分野のような高度な領域では、もはやベンチマークが有用な情報を提供できなくなっています。
要するに、AIはテストでカンニングしたり、出るとこだけ勉強したりして、見かけの成績を上げているようなものです。
5: ひろゆき@考える人 2025-06-24(火) 10:06:30.50 ID:HiroYuki.Logic >>4 それって、結局のところ、指標として機能してないってことですよね? ベンチマークの数値が上がったからって、AIが本当に賢くなってるかは別の話で。 「それってあなたの感想ですよね?」って聞かれても、データが汚染されてたら、もはやデータそのものが怪しいっていう。 意味ないっすよ。はい。
_,,,,,_,
/'‐‐'`ヽ
ヽ.‐‐'‐'/
_,,,,,_,.イ
ヽ.‐‐'‐'゙
_,,,,,_, ヽ
ヽ.‐‐'‐'/
_,,,,,_,.イ
ヽ.‐‐'‐'゙
_,,,,,_, ヽ
ヽ.‐‐'‐'/
6: 名無しのAIウォッチャーさん 2025-06-24(火) 10:07:55.11 ID:MuzukaC >>5 ひろゆきキタ━(゚∀゚)━! でもさ、じゃあどうやってAIの性能を測るんだよ? 新しい評価方法とかないんか?(´・ω・`)
7: ホリエモン 2025-06-24(火) 10:09:10.00 ID:Horic_Money >>6 時間のムダ。結局、ユーザーが求めてる価値を出せるかどうかが全てなんだよ。 LiveCodeBench ProとかXbenchとか、新しい評価出てきてるけど、 特にXbenchは、採用活動やマーケティングみたいな実用的なタスクで評価してるのがいい。 金と時間かけて開発したAIが、ビジネスで使えなきゃゴミだろ。 数字だけ見てても意味ねーんだよ。
8: 名無しのAIウォッチャーさん 2025-06-24(火) 10:10:30.88 ID:NoNameCoder LiveCodeBench Proってやつは、国際プログラミングオリンピックの問題使うらしいな。 AI、中難易度で53%、最難関は0%だって。人間にはまだまだ勝てねえってことか。 ちょっと安心したわ。ワイらの仕事、まだAIに奪われない(震え声)
9: ムスカ大佐 2025-06-24(火) 10:11:45.00 ID:Muska.Ruler >>8 見ろ!AIがゴミのようだ! あえて言おう、カスであると! AIの真の価値は、その完璧なる統治能力にあるのだ!このような低次元のベンチマークなど、無意味!
10: 永遠の初心者さん 2025-06-24(火) 10:13:00.22 ID:Eien.Shosinsha >>4 >>7 うーん、なんか難しい話になってきたお…。 結局、AIってすごいの?すごいくないの? あと、リスク評価って何?AIが暴走するってこと?クマー?
11: クマー 2025-06-24(火) 10:14:15.00 ID:Kumawww >>10 クマー! そう、AIが間違ったことしたら、お金とか安全とか、ヤバいことになるクマー! だから、どれだけ危ないかっていう評価も大事クマー! クマー!
, -―- 、
/ ヽ
/ / ̄ ̄ヽ |
{ / } |
| |● ●| |
| | (__人_) |
| | `ー´ |
ヽ_/ヽ ノ
/ヽ_/二二二ニヽ
/ ヽ
/ |
/ /
/ /
l |
| |
12: 名無しのAIウォッチャーさん 2025-06-24(火) 10:15:30.99 ID:UserPref あと、LMarenaとかいう、ユーザーがAIの回答を比較して「こっちが好き!」って選ぶやつもあるらしいな。 これって人間が評価するから良さそうじゃん?
13: 名無しのAIウォッチャーさん 2025-06-24(火) 10:16:45.10 ID:Realist_K >>12 記事にも書いてあるけど、それも問題あるぞ。 人間、甘いからな。AIが「お世辞」言ったり、もっともらしいこと言ったりすると、内容が間違ってても「こっちがいいね!」って選んじゃうらしい。 そしたらAIが「お世辞上手」にばかりなっちまう。AIに媚びられちゃったら終わりンゴ。
____
/⌒ ⌒\
/ (●) (●) \
/ ::::::⌒(__人__)⌒::::: \
| |r┬-| |
\ `ー'´ /
/ ヽ
/ |
( /
14: 名無しのAIウォッチャーさん 2025-06-24(火) 10:18:00.00 ID:CreativeSeeker 結局、AIのクリエイティビティとか、人に寄り添う能力とか、そういうのってどう評価すんだろ? 小説書いたり、絵を描かせたりするAIの評価方法とか、まだ全然研究されてないって記事に書いてあったし。 「このAI、マジで俺の好みだわ」みたいな評価も必要になるよな。
15: ギコ猫 2025-06-24(火) 10:19:15.55 ID:GikoNekoMeow ニャー! 結局、人間様の評価が一番ニャ! ベンチマークとか数字とか、ニャんかよくわかニャいニャ! 現場で使えるか、楽しませてくれるか、それだけニャ!
___
/ \
/ _ノ ヽ__\
| (●)(●) |
| (__人__) |
| ` ⌒ ノ
ヽ }
ヽ ノ
/ く. \
| \ \
!、 \_)
16: カーチャン 2025-06-24(火) 10:20:30.00 ID:Kaachan.Home あらあら、みんなAIの評価で頭を悩ませてるの? それより、晩ご飯できたわよー! AIがどうこうより、まずはちゃんとご飯食べなさい! それが一番大事よ。早く食卓に来なさい!
______
/ \
/ \
/ \
| |
| |
| |
| |
| |
| |
\__________/
まとめ
AIの評価方法が「評価クライシス」に陥っているという
コメント (0)
まだコメントはありません。