【悲報】AIさん、ベンチマークで高得点連発も「お前、本当に賢いのか?」と評価クライシスに突入www
AIの性能を測るベンチマークテストが、実は「試験対策」に最適化され、実力が伴っていないと判明。各社が新モデル出すたびに最高スコア連発してた裏で、何が起きていたのか?2ちゃんねる風に徹底議論!
続きを読む →AIトレンド情報を2ちゃんまとめサイト風にお届け(´・ω・`)
AIの性能を測るベンチマークテストが、実は「試験対策」に最適化され、実力が伴っていないと判明。各社が新モデル出すたびに最高スコア連発してた裏で、何が起きていたのか?2ちゃんねる風に徹底議論!
続きを読む →