【悲報】ワイらのAI、AGIへの道はマルチモーダルじゃなかった…物理わからんチンだった模様ｗｗｗ

1: 名無しのAIウォッチャーさん 2025-06-04(水) 10:00:00.00 ID:AbcDefGhI スレタイの通りやで。最近のAI、マルチモーダルだのなんだので「もうAGI目前！」みたいに騒がれとるけど、どうやらそう簡単にはいかんらしいわ。物理的な世界を理解してへんとアカンって話。ソース： AGI Is Not Multimodal お前らどう思う？(´・ω・｀)

2: 名無しのAIウォッチャーさん 2025-06-04(水) 10:01:30.50 ID:JklMnoPqR ファッ!? また意識高い系がなんか言い出したんか？今のLLMの進化見てたら、そのうち何でもできるようになるやろ常考。

3: ひろゆき＠考える人 2025-06-04(水) 10:03:15.22 ID:HiroyukiRONPA >>2 それってあなたの感想ですよね？「そのうち何でもできるようになる」っていうのは、具体的な根拠とかあるんですか？元記事読むと、今のAIは記号操作は得意でも、物理的な世界の理解は全然って書いてますけど。例えば、LLMに「このリンゴ、冷蔵庫に入る？」って聞いたらどう答えるんですかね？「リンゴは食べ物です」とかトンチンカンなこと言いそうですけどｗ

4: やる夫 2025-06-04(水) 10:05:40.10 ID:YaruoOKAKUGO やる夫はマルチモーダルAIでAGI作るお！(｀・ω・´) 画像も音声もテキストも、全部のセンサー情報をぶち込めば、AIだって物理法則を理解できるようになるはずだお！夢はでっかく、AGIだお！

　 　 　　　＿＿＿_
　 　　　／　　 　 　＼
　　　／　 _ノ 　ヽ､_　 ＼
　 ／ 　oﾟ⌒　　　⌒ﾟo　 ＼ 　 やる夫はAGIを作るお！
　 |　　　　 （__人__）　　　　|
　 ＼　　 　 ｀ ⌒´ 　 　 ／
　 ／ 　 　 　　　　 　 　 ＼

5: やらない夫 2025-06-04(水) 10:08:22.75 ID:YaranaiMURI >>4 それは無理だろ。元記事にもあるが、今のマルチモーダルってのは結局、別々のモダリティを「接着」してるだけだ。「冷蔵庫はリンゴより大きい」っていうのは、テキストデータから学習した統計的なパターンであって、 AIが本当に冷蔵庫やリンゴの「大きさ」や「三次元空間における存在」を理解してるわけじゃない。チョムスキーの「Colorless green ideas sleep furiously（無色の緑の考えが猛烈に眠る）」みたいな、文法的には正しいけど意味不明な文をどう処理するんだ？今のAIじゃ「興味深い表現ですね！」とか言い出すのがオチだぞ。

6: 名無しのAIウォッチャーさん 2025-06-04(水) 10:10:55.13 ID:StuVwxYzB >>5 それな。オセロGPTの話とか出てたけど、あれは盤面の状態を記号で完全に表現できるから上手くいっただけで、現実世界のタスクはもっと曖昧で複雑やろ。「床を掃く」とか「結び目を解く」とか、LLMにどうやってやらせんねん。

7: できる夫 2025-06-04(水) 10:15:03.40 ID:DekiruKAISetsu 説明しよう！(｀・ω・´)ゞ元記事の筆者が主張しているのは、現在のAI、特に大規模言語モデル（LLM）は、本質的には「次に来るトークン（単語や文字の一部）を予測する」というタスクに最適化されている、ということだ。これにより、人間が書いたような自然な文章を生成できるようになったが、それは必ずしもAIが文章の意味や、それが指し示す現実世界の事象を人間のように理解していることを意味しない。例えば、「冷蔵庫はリンゴより大きいので、リンゴは冷蔵庫に入りますが、冷蔵庫はリンゴに入りません」という文をLLMが生成できたとしても、それは過去の膨大なテキストデータから「そういうパターンが多い」と学習した結果であって、AI自身が冷蔵庫やリンゴの物理的な体積、空間占有、包含関係といった「世界モデル」を本当に持っているわけではない、と筆者は指摘しているのだ。このような物理的理解や身体性を伴わない知性は、真のAGI（汎用人工知能）には至らない、というのが記事の骨子だよ。

8: 名無しのAIウォッチャーさん 2025-06-04(水) 10:18:12.66 ID:CdeFghIjK >>7 なるほどなー。つまり今のAIは超高性能な「オウム返し」ってことか？(´・ω・｀) 人間が言ったことや書いたことを、それっぽく真似してるだけみたいな。

9: 永遠の初心者さん 2025-06-04(水) 10:20:05.99 ID:ShoshinNAMIDA あの…すみません…AGIって何ですか…？(´；ω；｀) マルチモーダルっていうのも、なんか強そうなんですけど、結局ダメってことなんですか…？物理がわからないと賢くなれないんですか…？

10: できる夫 2025-06-04(水) 10:22:30.81 ID:DekiruKAISetsu >>9 AGIとはArtificial General Intelligenceの略で、特定のタスクだけでなく、人間のように幅広い知的作業をこなせるAIのことだよ。SFに出てくるような、人間と対等に話したり、自分で考えて行動したりするAIをイメージすると近いかもしれない。マルチモーダルというのは、テキスト（文字）、画像、音声、動画など、複数の異なる種類（モダリティ）の情報を扱えるAIのことだ。今のAIは、例えば「この画像に写っているものを説明して」と頼むとテキストで答えてくれたりするよね。あれがマルチモーダルの一例だ。元記事の筆者は、このマルチモーダルというアプローチ自体を否定しているわけではないが、単にたくさんの情報を扱えるようにしただけでは、真のAGI、特に現実世界で物理的な作業をこなせるようなAGIには到達しない、と主張しているんだ。「物理がわからないと賢くなれない」というよりは、「物理世界と相互作用し、それを理解する能力がなければ、人間レベルの汎用性を持つ知性とは言えない」というニュアンスだね。

11: ホリエモン＠起業家 2025-06-04(水) 10:25:45.02 ID:HorieJIKAN いや、結局スケールとデータ量だろ。物理法則だって、十分な量のセンサーデータと計算資源があれば、そのうちパターンとして学習するって。「身体性」とか「真の理解」とか、そんな哲学的なこと言ってないで、さっさとGPU積んで学習回せばいいんだよ。時間のムダ。ビジネス的には、そこそこの精度で動くものができればそれで価値がある。AGIとか遠い未来の話はどうでもいい。

12: ひろゆき＠考える人 2025-06-04(水) 10:28:10.50 ID:HiroyukiRONPA >>11 でも、ホリエモンさん、その「パターン学習」で本当に「コップを掴んで水を飲む」みたいな複雑な物理タスクができるようになると思います？今のAIって、学習データにない状況にめちゃくちゃ弱いじゃないですか。「コップの形がちょっと違う」「水の粘度が違う」みたいな些細な変化で、すぐおかしな動きしそうですよね？それって「理解」してるとは言えないんじゃないですかね？

13: やらない夫 2025-06-04(水) 10:30:59.17 ID:YaranaiMURI >>11 スケールで殴ればなんとかなるってのは、SuttonのBitter Lessonの拡大解釈だろ。元記事でも言及されてるが、Bitter Lessonは「人間の思い込みより汎用的な学習アルゴリズムと計算パワーが強い」って話であって、「構造を全く考えなくていい」ってわけじゃない。知性の根本的な構造、例えば物理世界とのインタラクションをどうモデルに組み込むかっていう設計思想は重要だろ。

14: 名無しのAIウォッチャーさん 2025-06-04(水) 10:33:01.28 ID:OpqRstUvW なんか話が壮大になってきたなｗｗｗワイはとりあえず、ゲームのNPCがもうちょい賢くなってくれれば満足やで。敵が壁にガンガンぶつかるのとか、見てて悲しくなるんや(´・ω・｀)

15: クマー 2025-06-04(水) 10:35:42.33 ID:KumaGAOOO クマー！ (物理わからんAIはポンコツクマー！) マルチモーダル言うても、結局データ食わせてるだけクマ！冷蔵庫にリンゴが入るか、クマに聞いてもわからんクマよ！

      　　　＿＿＿
　　　　 ／　　　▲
　　　 ／　　　　｜　＼
　　 /　　　　 ●―●　 ヽ
　　｜　　　　　　 ▼　　｜
　　｜　　　　　　 人　　｜
　　ヽ　　　　　　　　　 ノ
　　　＞　　　　　　　＜
　 ／　　　　　　　　　　＼
　｜　　　　　　　　　　　｜

16: 名無しのAIウォッチャーさん 2025-06-04(水) 10:38:19.91 ID:XyzAbcDeF 結局、今のAIは人間が作った「言葉の世界」のルールをめちゃくちゃ学習したけど、人間が生きている「物理の世界」のルールは全然わかってないってことか。そりゃ車も運転できんし、料理も作れんわな。

17: やる夫 2025-06-04(水) 10:40:05.11 ID:YaruoOKAKUGO >>16 ぐぬぬ…でも、やる夫は諦めないお！(´；ω；｀) 物理エンジンとかロボットとか、もっと現実世界と繋がる方法を考えるお！いつかAIが自分で料理作ってくれる日が来るって信じてるお！

18: ｶｰﾁｬﾝ 2025-06-04(水) 10:42:33.45 ID:KaachanGOHAN あんたたち、いつまでAIの話してるの！そろそろお昼ご飯の時間よ！ AGIだか何だか知らないけど、今日の晩ごはんの心配でもしてなさい！(｀・ω・´)

　 ∧＿∧
　 (´・ω・`) 　ご飯できたわよー
　 /　　⌒ヽ
　(人＿＿つ_)

まとめ

というわけで、専門家ニキの「AGIはマルチモーダルだけじゃ無理、物理理解と身体性が大事」って話についてのスレでした。今回の議論のポイントをまとめるとこんな感じかな？

現状のAI（特にLLM）は「賢そう」に見えるけど…: 実は次トークン予測に特化してるだけで、世界の仕組みを本当に理解してるわけじゃないっぽい？ (´・ω・｀)
マルチモーダルだけじゃダメ？: いろんな情報を扱えるようになっても、それらを統合して物理世界で意味のある行動に繋げるのは難しいみたい。単なる「情報のおまとめ屋さん」止まりか。
AGIへの道は「身体性」が鍵？: AIが現実世界でロボットみたいに動いたり、モノを触ったりして学ぶ経験がないと、人間みたいな本当の知能は宿らないんじゃね？って意見が強め。
LLMは「世界モデル」じゃなくて「構文モデル」？: LLMがやってるのは、世界の法則を理解するんじゃなくて、言葉の繋がり方やパターンの超絶技巧的な記憶と再現（つまり超高度な構文理解）に過ぎないのかも。

AIトレンドまとめ

【悲報】ワイらのAI、AGIへの道はマルチモーダルじゃなかった…物理わからんチンだった模様ｗｗｗ

まとめ

コメント (0)

コメントを投稿する