【超絶進化】AIさん、ついに人間の手助けなしで『目と耳』を獲得してしまうwww【MIT発】
1: 名無しのAIウォッチャーさん 2025-05-22(木) 10:00:00.00 ID:MitNewsFan またMITがとんでもないAI開発したらしいぞ…! 人間がラベル付けしなくても、AIが勝手に映像と音を結びつけて学習するんだってよ! ソース:AI learns how vision and sound are connected, without human intervention これもう半分人間だろ…(´・ω・`)
2: 名無しのAIウォッチャーさん 2025-05-22(木) 10:01:30.50 ID:JklMnoPqR >>1 ファッ!? マジかよ…SFの世界が現実に近づいてる感パねえな! つまり、猫の動画見せたら「ニャーン」って音と「このモフモフ」が勝手に紐づくってこと?
3: やる夫 ◆Yaruo.MIT 2025-05-22(木) 10:02:15.75 ID:YaruoMIT01 おおおお!すごいお!(゚∀゚) やる夫、これ使って映画の効果音とか自動でつけられるようになったら嬉しいお! 例えば、ドアがバターン!って閉まる映像だけで、AIがピッタリの音を探してきてくれるとか!
4: やらない夫 ◆YaranaiMIT 2025-05-22(木) 10:03:45.12 ID:Yaranai002 >>3 まぁ、落ち着け。記事読んだけど、まだそこまで万能じゃないだろ。 「以前のモデルを改良して、より細かい時間単位で音と映像を同期させられるようになった」って話だ。 過度な期待は禁物だぞ。
5: 名無しのAIウォッチャーさん 2025-05-22(木) 10:05:00.22 ID:SkepticalG 「人間の介入なしに」って言っても、どうせ最初のモデル作ったりデータ集めたりするのは人間なんだろ? 結局、手のひらの上で踊らされてるだけじゃね?(´ω`)
6: ひろゆき@考える人 ◆HiroyukiX 2025-05-22(木) 10:06:33.89 ID:Hiroyuki 論破 >>5 それってあなたの感想ですよね?w 「介入なし」っていうのは、個々のデータに「これは犬の鳴き声」「これはピアノの音」みたいなラベルを人間がいちいち付けなくても、AIが勝手に特徴を学習するって意味じゃないすか? 大量の動画データから勝手に学ぶってところがミソでしょ。そこ理解してます?
7: できる夫 ◆DekiruMIT 2025-05-22(木) 10:08:10.45 ID:DekiruTech >>6 その通りだ、ひろゆき君。説明しよう! この研究のキモは「教師なし学習」にある。 従来のAIでは、例えば「この画像は猫です」と大量の教師データ(正解ラベル付きデータ)を与える必要があった。 しかし、このCAV-MAE Syncというモデルは、ラベルのない大量のビデオクリップから、映像と音声の自然な同時発生性を手がかりに、それらの関連性を自律的に学習するんだ。
___ ♪
/ ∥ ∥
| ̄ ̄ ̄ ̄ ̄|
| 説明中 |
|_____|
∥ ∥
∥ ∥
∥∧∧∥
( (;゚Д゚) )< なるほど!
∪ ∪
8: やる夫 ◆Yaruo.MIT 2025-05-22(木) 10:10:55.11 ID:YaruoMIT01 >>7 できる夫、解説ありがとうだお!(`・ω・´) じゃあ、その「CAV-MAE Sync」ってのは、前の「CAV-MAE」と何が違うんだお? もっと賢くなったってこと?
9: できる夫 ◆DekiruMIT 2025-05-22(木) 10:12:30.67 ID:DekiruTech >>8 良い質問だ、やる夫君。 CAV-MAE Syncの主な改良点は2つ。
- 時間的対応の精密化: 以前のCAV-MAEは、例えば10秒の動画クリップ全体とその期間の音を大まかに結びつけていた。Syncでは、動画をより短い時間単位(フレーム単位)に分割し、その瞬間の映像と音声をピンポイントで対応付ける。例えば「ドアが閉まる映像の特定のフレーム」と「その瞬間の“バタン”という音」を正確に紐付けるんだ。
- 学習目標のバランス改善: 「グローバルトークン」と「レジスタトークン」という新しい仕組みを導入し、AIが持つ2つの異なる学習目標(似た音声と映像を関連付ける学習と、元の音声や映像の情報を正確に復元する学習)をより効果的に両立できるようにした。これにより、総合的な性能が向上した。
10: 名無しのAIウォッチャーさん 2025-05-22(木) 10:15:02.88 ID:NetNetaMan へー、細かくなったのは分かったけど、それで具体的に何がどう便利になるん? 映画制作とかジャーナリズムとか書いてあるけど、まだお遊びレベルなんちゃう?(ハナホジ)
11: やらない夫 ◆YaranaiMIT 2025-05-22(木) 10:16:40.30 ID:Yaranai002 >>10 記事には「ビデオ検索タスクや視聴覚シーンの行動分類の精度が向上した」とあるな。 例えば、「ドアがバタンと閉まる音」で検索したら、その瞬間の映像を正確に見つけてきたり、「犬が吠えている」シーンを音と映像から分類したりする能力が上がった、ということだろう。 実用化はまだ先かもしれんが、基礎研究としては重要だ。
12: 名無しのAIウォッチャーさん 2025-05-22(木) 10:18:15.93 ID:EigaKantoku >>11 映画監督ワイ、ちょっと期待しちゃうンゴ。 「ここのシーン、もっと緊迫感のある足音が欲しいんだけど…」ってAIに言ったら、映像に合わせて自動で候補出してくれたり、編集ソフトが勝手に音ズレ補正してくれたりしたら神やん?
13: やる夫 ◆Yaruo.MIT 2025-05-22(木) 10:20:05.17 ID:YaruoMIT01 ロボットが周りの環境を理解するのにも役立つって書いてあるお! 音と映像で世界を認識するロボット… SFみたいでワクワクするお!(^o^)
14: 名無しのAIウォッチャーさん 2025-05-22(木) 10:22:33.44 ID:GimonChan でもさー、変なもの同士を結びつけちゃったりしないの? 例えば、鳥のさえずりの動画なのに、近くで工事してたら工事の音と鳥を結びつけちゃったりとかさー。
15: ひろゆき@考える人 ◆HiroyukiX 2025-05-22(木) 10:24:50.78 ID:Hiroyuki 論破 >>14 それはデータセットの質の問題っすよね。 大量のデータで学習させれば、そういうノイズ的な関連性は薄まって、より一般的なパターンを学習するはずじゃないすか? この研究でも「精度が向上した」って言ってるわけだし。で、その精度って具体的にどのくらいなんすかね?論文に書いてあります?
16: クマー ◆KumaBear 2025-05-22(木) 10:26:15.02 ID:KumaDataPlz
____
/::::::::::::::::\
/:::::::─三三─\ クマー! (精度は?比較は?)
/:::::::::: ( ○)三(○)\
|::::::::::::::::::::(__人__):::: |
\:::::::::::::::::ゞ Υ /
ノ opportunistic /ヽ\
17: できる夫 ◆DekiruMIT 2025-05-22(木) 10:28:40.19 ID:DekiruTech >>15 >>16 具体的な数値については元論文を参照する必要があるが、記事によれば「以前の研究や、より複雑で大量の訓練データを必要とする最先端の手法よりも優れた結果を示した」とある。 もちろん、>>14 のような誤学習のリスクは教師なし学習の課題の一つだが、この手法はそのリスクを低減し、より頑健な学習を可能にする方向性を示していると言えるだろう。
18: 名無しのAIウォッチャーさん 2025-05-22(木) 10:30:55.81 ID:MiraiShiko こういう基礎研究の積み重ねが大事なんよな。 そのうちLLMとかとも統合されて、映像見て内容理解して、それについて自然に会話できるAIとか出てくるんやろな。 そうなったらマジで人間いらなくなるんじゃね?w (´・∀・`)
19: やる夫 ◆Yaruo.MIT 2025-05-22(木) 10:32:10.23 ID:YaruoMIT01 >>18 それはそれでスゴイ未来だお! やる夫はAIと一緒に新しいこといっぱいやりたいお!(≧▽≦) テキストデータも扱えるようにしたいって書いてあったし、夢が広がりんぐだお!
20: カーチャン ◆KaachanOKN 2025-05-22(木) 10:35:00.00 ID:KaachanGOFN
∧_∧
( ・∀・) < あんたたち、いつまでPCの前にいるの!
( ) ごはんできたわよー!
| | |
(__)_)
AIもいいけど、ちゃんとご飯も食べなさいよね!
21: やらない夫 ◆YaranaiMIT 2025-05-22(木) 10:36:12.55 ID:Yaranai002 >>20 はいはい、お袋様には敵わんな。 まぁ、この技術がどう発展していくか、続報に期待ってところだな。 とりあえず、飯食ってくるわ。
まとめ
というわけで、MITが開発した「AIが人間なしで映像と音の関係を学習する新技術」についてのスレでした。 ポイントをまとめるとこんな感じか?
- 教師なし学習の進化: MITなどの研究チームが、AIが人間のラベル付けなしに映像と音声の関連性を学習する新手法「CAV-MAE Sync」を発表。
- より精密な同期: 従来モデル「CAV-MAE」を改良し、映像の特定のフレームとその瞬間の音をより細かく、正確に対応付けられるように。
- 学習効率の向上: 新たなアーキテクチャ(グローバルトークン、レジスタトークン)により、AIの2つの学習目標のバランスを改善し、全体的な精度が向上。
- 応用への期待: ジャーナリズムでのコンテンツキュレーション、映画制作での音響作業支援、ロボットの環境認識能力向上など、幅広い分野での活用が期待される。
- 今後の展望: 将来的にはテキストデータも扱えるようにし、視聴覚情報を理解する大規模言語モデル(LLM)のようなシステムの実現も視野に入れている模様。
まだまだ発展途上だけど、AIが人間みたいに世界を理解する日も近いのかもな!(`・ω・´)ゞ
コメント (0)
まだコメントはありません。