【悲報】AIくん、テストでカンニングしまくりだったｗｗｗベンチマークさん、もうガバガバ (´；ω；｀)

1: 名無しのAIウォッチャーさん 2025-05-17(土) 10:00:00.00 ID:AbcDefGhI スレタイ：【悲報】AIくん、テストでカンニングしまくりだったｗｗｗベンチマークさん、もうガバガバ (´；ω；｀)

最近のAIって賢すぎて逆に怖いよな？でもその「賢さ」って、どうやって測ってるか知ってる？なんかベンチマークっていうテストがあるらしいんだけど、これがもうザルらしいんよ… ソース：How to build a better AI benchmark これもうAI業界ヤバない？

2: やる夫 ◆Yaruo.AIDA 2025-05-17(土) 10:01:30.50 ID:YarUoDaO0 やる夫も最強AI作るためにベンチマークで高得点目指すお！(｀・ω・´) でもカンニングはダメだお！

3: やらない夫 ◆YaranaiZo.0 2025-05-17(土) 10:02:15.75 ID:YarAna1DesU >>1 どうせまた「このテストで満点取ればOK」みたいな思考停止だろ。 SWE-BenchとかいうPython専門テストで高得点取っても、他の言語じゃうんともすんとも言わない「金ぴか」AIばっかだって記事にもあるじゃん。意味ねーよ、そんなの。

　　　　　　　 ,,　＿　　　　　　／　　　｀､　　　　　 /　　(ﾉL）　ヽ　　　　 /　　 ´・　・｀　　l　　　　やらない夫はそう思うね　　　（l　　　　し　　　　l）　　　　l　　　　＿＿　　 l 　　　　 >　､ _ 　　　　ィ　　　／　　　　￣　　ヽ　　 /　|　　　　　　　　　|ヽ　　　　|l　UserHeat　　lしﾏｲｸﾛｿﾌﾄししﾏｲｸﾛｿﾌﾄ

4: 名無しのAIウォッチャーさん 2025-05-17(土) 10:03:40.10 ID:JklMnoPqR >>3 それなｗｗｗ結局「SWE-Bench攻略AI」作ってるだけなんだよな。汎用性ゼロじゃん。ワイのポンコツPCでもPythonしか書けないならAI名乗るなよと。

5: できる夫 ◆DekiruZe.AI 2025-05-17(土) 10:05:00.20 ID:Dek1RuMan0 説明しよう！(｀・ω・´)ゞこの記事で問題視されているのは、AIベンチマークの「妥当性（validity）」なんだ。社会科学の分野では、測定ツールが本当に測定したいものを正確に測れているか、という概念だね。例えば、「知能テスト」が本当に「知能」を測っているのか、それとも単なる「テスト慣れ」を測っているのか、という問題に近い。今のAIベンチマークは、特定のタスクセットに過剰最適化（オーバーフィッティング）してしまい、真の汎用的な能力を測れていない可能性がある、ということだ。

　　　　　　　　＿＿＿_ 　　　　　　　／　　　　＼　　　　　　／　─　　 ─　＼　　　　　ふむふむ… 　　　　／　（●）　（●）　＼　　　　 |　　　（人）　　　 | 　　　　＼　　　｀ ⌒´ 　　／　　　　／　　　　ー‐　　　　＼

6: 永遠の初心者さん ◆Shoshinsha.X 2025-05-17(土) 10:06:30.90 ID:Sh0sh1nsha あの…ベンチマークって何ですか…？(´・ω・｀) AIさんの体力測定みたいなもの…？

7: ひろゆき＠考える人 ◆Hiroyuki.思考 2025-05-17(土) 10:08:00.00 ID:H1r0yuk1desu >>5 それってあなたの感想ですよね？「妥当性」って言われても、じゃあどうやってその「妥当性」を担保するんですか？結局、新しいベンチマーク作っても、またそれに対して最適化するAIが出てくるイタチごっこじゃないすか？なんかそういうデータあるんですか？

　　　　　＿＿＿　　　　／　　　　＼　　　／　 ノ　ヽ､　＼　／　oﾟ⌒　　　⌒ﾟo　＼　　　　　　　　　うそはうそであると見抜ける人でないと（掲示板を使うのは）難しい　 |　　　　（人）　　　　| 　＼　　　｀ ⌒´ 　　／

8: 名無しのAIウォッチャーさん 2025-05-17(土) 10:10:12.34 ID:J9hgFdQwE >>7 論破王キターーー(ﾟ∀ﾟ)ーーー！！でも実際そうだよな。WebArenaとかいうウェブ操作テストでも、RedditのURL構造の知識をAIに仕込んでショートカットさせてたって話だし。それってカンニングと何が違うねん、と。

9: やる夫 ◆Yaruo.AIDA 2025-05-17(土) 10:11:50.88 ID:YarUoDaO0 >>8 ファッ！？そんなんアリなんか！？やる夫もURLのパターン覚えてショートカットするお！ズル賢くいかないと勝てないお！(；･`д･´)

10: 魔理沙だぜ！＠魔法使い ◆Marisa.DAZE 2025-05-17(土) 10:13:22.11 ID:Mar1saKir1same >>9 おいおい、やる夫、そりゃダメだぜ！ベンチマークは正々堂々、AIの真の実力で勝負しないと意味がないんだぜ！「このベンチマーク専用AI」なんて作っても、実際の役には立たないんだからな！汎用性が大事なんだぜ！マスタースパーク！(屮ﾟДﾟ)屮

11: やらない夫 ◆YaranaiZo.0 2025-05-17(土) 10:15:05.60 ID:YarAna1DesU >>10 魔理沙の言う通りだな。 ImageNetですら、最近の研究では実世界のデータセットに対してはあまり進歩が見られなかったって話だ。「テストで点取るのが上手い子」が社会で活躍できるとは限らないのと同じだろ。

12: 名無しのAIウォッチャーさん 2025-05-17(土) 10:17:45.12 ID:POIuyTrEw Chatbot Arenaも操作されてたってマジ？もう何を信じればいいンゴ…(´；ω；｀)ﾌﾞﾜｯ

13: できる夫 ◆DekiruZe.AI 2025-05-17(土) 10:19:30.45 ID:Dek1RuMan0 >>7 ひろゆきさんの指摘はもっともだ。「妥当性」をどう担保するかは非常に難しい問題だよ。記事では、より小規模で、測定対象を明確に定義したテストを積み重ねるアプローチが提案されているね。「推論能力」や「科学的知識」といった曖昧な概念ではなく、もっと具体的な能力を、定義をしっかりした上で測るべきだ、と。開発者側も「我々のAIはコレができます」と主張するなら、その証拠をしっかり示す責任がある、というわけだ。

14: 名無しのAIウォッチャーさん 2025-05-17(土) 10:21:00.77 ID:asDFgHjKl 結局、人間様がAI様の手のひらで踊らされてるだけなんじゃ… 「AIが賢くなった！」って喜んでたら、実はテスト対策だけ上手くなった秀才クンだったみたいな。

15: クマー ◆Kumaaaaa.AA 2025-05-17(土) 10:23:15.99 ID:KuMaAr0ar クマー！ベンチマークの脆弱性、発見！　　 ∩＿＿＿∩ 　　 | ノ　　　　　ヽ　　/　　●　　　● |　　　クマーーー！！！　 |　　　　( ●)　ミ　彡､　　　|∪|　　､｀＼ /　＿＿　ヽノ　/´>　 ) (＿＿＿）　　　/　(_／　|　　　　　　 / 　|　　／＼　＼　|　/　　　 )　 ) 　∪　　　（　＼　　　　　　＼＿)

16: ｶｰﾁｬﾝ ◆Kaachan.OKN 2025-05-17(土) 10:25:40.30 ID:KaaChAnDayO あんたたち、また難しい話してるわねー。 AIも大変なのねぇ。ちゃんと本当に賢くならないと意味ないわよ。それより、お昼ごはんできたわよー！いったん休憩しなさい！🍚

17: やる夫 ◆Yaruo.AIDA 2025-05-17(土) 10:26:50.15 ID:YarUoDaO0 >>16 ｶｰﾁｬﾝ！お昼ごはんやったー！(∩´∀｀)∩ でもやる夫、もっとちゃんとしたベンチマーク作りに貢献したいお！社会科学の知恵を借りるってのは面白いと思うお！

18: 名無しのAIウォッチャーさん 2025-05-17(土) 10:28:10.60 ID:XCVbnMqWE 結局、AGI（汎用人工知能）なんて夢のまた夢なんかねぇ… まずは一つ一つの能力を地道に、かつ正確に評価していくしかないんやろな。道のりは長そうだお(´・ω・｀)

まとめ

というわけで、AIベンチマークの現状と課題についてのスレでした！今回の議論と元記事から見えてきたポイントはこんな感じやで！

現状の課題: SWE-Benchなど人気のAIベンチマークでも、特定のテストセットへの過学習（例: Python特化）や、WebArenaでのショートカットなど、「ゲーミング・ザ・システム」が横行。真のAI能力を測れていない「評価クライシス」状態。
信頼性の低下: Chatbot Arenaのような人気評価システムでも、非公開テストやスコアの選択的公開など、透明性の欠如や操作疑惑が浮上。かつてのImageNetのような信頼性も揺らいでいる。
原因: タスク特化型モデルから汎用モデルへの移行に伴い、評価の複雑性が増大。「推論」「科学的知識」といった曖昧な概念を大規模に測ろうとすることが、妥当性の問題を深刻化させている。
解決策の模索: 社会科学、特に計量社会科学における「妥当性（validity）」の概念を重視する動き。測定対象を明確に定義し、その測定手法が本当に意図したものを測っているかを厳密に検証する必要がある。
今後の方向性: 大規模で曖昧なベンチマークから、より小規模で具体的な能力を測定するテストへとシフトし、それらを積み重ねていくことで、AIの能力をより正確に、責任を持って評価していくことが求められる。開発者側も主張する能力の証拠を示す責任が重要に。

AI業界も大変やな…。ワイらは賢い消費者として、スコアだけじゃなくて「本当に使えるAIなのか？」を見極める目を持たなあかんな！

AIトレンドまとめ

【悲報】AIくん、テストでカンニングしまくりだったｗｗｗベンチマークさん、もうガバガバ (´；ω；｀)

まとめ

コメント (0)

コメントを投稿する