AIトレンドまとめ

AIトレンド情報を2ちゃんまとめサイト風にお届け(´・ω・`)

【神AI降臨】DeepMind様、またもや人類を超越!『JetFormer』爆誕で画像もテキストも'生'でイケるらしいぞwww

公開日: 2025-05-13|タグ: AI, DeepMind, JetFormer, マルチモーダル

1: 名無しさん@おーぷん 2025-05-13(火) 12:34:56.78 ID:JetFormEr01 またDeepMindがとんでもないもん発表しやがったな…((((;゚Д゚))))ガクガクブルブル その名も**「JetFormer」**! なんでも、テキストも画像も「生データ」から直接学習して、シームレスに理解・生成できるらしいぞ! 事前学習コンポーネントも不要とか…もう意味わからんレベル。 ソース:DeepMind’s JetFormer: Unified Multimodal Models Without Modelling Constraints これ、マジなら既存のAIモデル、全部過去のものになるんじゃね?

2: 名無しさん@そうでもない 2025-05-13(火) 12:35:22.33 ID:HypeKill001 はいはい、いつもの「画期的!」「ブレイクスルー!」ね(´_ゝ`) どうせ Transformer 使ってるなら計算コストお化けで、個人のPCじゃ夢のまた夢なんでしょ? 「生データ直接」ってのも、聞こえはいいけどノイズ処理とかどうすんのよ。

3: やる夫 ◆YaruoDM01 2025-05-13(火) 12:36:01.01 ID:YaruoDM01 >>1 キタ━━━━━━(゚∀゚)━━━━━━!!!! JetFormer!名前からしてジェット噴射で進化しそうだお! 生データから直接ってことは、やる夫が撮ったヘタクソな写真からもスゴイ絵を生成したり、やる夫の支離滅裂な文章からちゃんとしたレポート作ってくれたりするのかお!? だとしたら、やる夫の人生変わるお!(人´∀`).☆.。.:*・゚

         ___
        /     \
      /─   ─ \
     / (●)  (●) \
     |    (__人__)    |
     \    ` ⌒´   /
     /         \

4: 名無しさん@おーぷん 2025-05-13(火) 12:37:11.45 ID:TechManiacX >>1 「事前学習コンポーネントに依存しない」「 modality-specific encoders and decoders が不要」ってのがマジなら、アーキテクチャの統一って点では確かにデカいな。 今まで画像はCNN系、テキストはTransformer系、それを無理やりくっつけてたのが一本化されるってことか。 まさに「Unified Multimodal Models Without Modelling Constraints」だな。

5: ひろゆき@辛口コメンテーター 2025-05-13(火) 12:38:15.99 ID:Hiroyuki2ch >>1 それってあなたの感想ですよね?w まあ、DeepMindが出す論文はいつも派手ですけど、実際に使えるようになるまでには時間がかかるのが常ですし。 「raw dataを直接モデル化」って、ゴミデータ入れたらゴミが出てくるだけなんじゃないですかね? あと、結局これ使うのにもスパコンレベルのリソースが必要で、僕ら一般市民には縁のない話、ってオチじゃないといいんですけど。うす。

6: できる夫 ◆DekiruAI 2025-05-13(火) 12:39:45.12 ID:DekiruAI01 >>4-5 JetFormerの意義は「自己回帰型のデコーダーのみTransformer(decoder-only Transformer)」で生データを扱う点にあります。 論文では「ImageNet class-conditional image generation」や「web-scale multimodal generation」といったタスクで、既存の柔軟性に欠けるモデルと同等の性能を示したとあります。 「normalizing flows」の活用や「high-level feature prioritization」といった工夫も興味深い。 エンドツーエンドで学習できる柔軟性は、今後のAI開発において大きなアドバンテージになるでしょう。

7: 名無しさん@おーぷん 2025-05-13(火) 12:40:55.88 ID:FutureDream >>6 つまり、絵師とか翻訳家とか、マジで仕事なくなるんじゃね?:(;゙゚'ω゚'): 「こんな感じで~」って適当なテキスト投げたらプロ級のイラスト出てきたり、 どんなマイナー言語でも完璧に翻訳してくれたりする未来も近いのか…?

8: 名無しさん@おーぷん 2025-05-13(火) 12:41:33.11 ID:OldTimerAI >>7 CLIPとかGPT-4Vとか、既存のマルチモーダルモデルはどうなるんやろな。 こいつらが全部JetFormerに置き換わるんか? それとも得意分野で棲み分けするんかな。 競争が激しくなるのは良いことやけど、ついていけんわ…(´・ω・`)

9: やる夫 ◆YaruoDM01 2025-05-13(火) 12:42:20.20 ID:YaruoDM01 >>8 大丈夫だお!JetFormerが全部まとめてやってくれるようになるんだお! やる夫はJetFormer先生に全てをお任せするお! 勉強も仕事も、JetFormer先生がいれば百人力だお!

     \ さあ、何でも聞いてくれ! /          ___        ☆         /     \     /       /─   ─ \   ∠      / (●)  (●) \      |    ()    | _/      \    ` ⌒´   /      /         \

10: 名無しさん@おーぷん 2025-05-13(火) 12:43:05.55 ID:SkepticMan >>6 「web-scale multimodal generation」って言うけど、その「web-scale」のデータって結局著作権とかどうなってんの? 学習データに汚いもの混ぜたら、JetFormerくんも汚いこと覚えちゃうんでしょ? 倫理的な側面とか、ちゃんとクリアになってるんかねぇ。

11: 名無しさん@おーぷん 2025-05-13(火) 12:44:12.34 ID:AIWatcher22 >>10 それな。モデルが賢くなるのはいいけど、制御できなくなったらSF映画みたいになるぞ。 「end-to-end training capability」ってのは、ブラックボックス化が進むってことでもあるしな。 便利さとリスクは常に隣り合わせやで。

12: ひろゆき@辛口コメンテーター 2025-05-13(火) 12:45:01.01 ID:Hiroyuki2ch >>9 やる夫さん、それはちょっと楽観的すぎませんかね?w 結局、AIを使いこなす側のリテラシーが問われるんですよ。 JetFormerがいくらすごくても、指示出す人間がアホだったらアホな結果しか出ませんよ。 まあ、論文のAbstractだけ読んで「スゴい!」って騒いでる人、多そうですけどね。 ちゃんと中身読んでから議論しましょうよ、と。

13: できる夫 ◆DekiruAI 2025-05-13(火) 12:46:30.67 ID:DekiruAI01 >>12 おっしゃる通り、ツールの性能向上と同時に、それを利用する人間の理解と倫理観が重要になります。 JetFormerのような統一モデルは、これまでの「サイロ化されたアーキテクチャ」からの脱却を目指すものです。 VisionモデルはCNN、TextモデルはTransformer、といった個別の進化ではなく、より汎用的な知能へのステップと捉えるべきでしょう。 「normalizing flows」のような技術で高レベルな特徴を優先的に捉えるアーキテクチャは、確かに効率的かつ強力な学習を可能にするかもしれません。

14: 名無しさん@おーぷん 2025-05-13(火) 12:47:55.99 ID:TechEnthu 「autoregressive, decoder-only Transformer」ってことは、基本的にはGPTみたいな感じの生成モデルが画像も扱えるようになったって理解でいいのかな? 入力と出力の区別なく、シーケンシャルにデータを生成していく感じ? もしそうなら、画像とテキストが混在したドキュメントとか、動画とか、そういうのも扱えるようになる布石だったりして。夢が広がるな!(^q^)

15: 名無しさん@おーぷん 2025-05-13(火) 12:49:00.12 ID:FinalHopeJET これは…いよいよシンギュラリティが近づいてきたってことか!? JetFormerが自己進化して、人間には理解できないレベルの知性を持つようになったりして… 楽しみ半分、怖さ半分だな!でもワクワクが止まらん!www


まとめ

というわけで、DeepMindの新型AI「JetFormer」について、様々な意見が飛び交ったようですな。 ポイントをまとめるとこんな感じか?

  • JetFormerヤバい: DeepMindが開発した、生データから直接学習できる自己回帰型デコーダーのみTransformer。
  • 事前学習コンポーネント不要: 従来のモデルみたいに、画像用エンコーダーとかテキスト用エンコーダーとか個別に用意しなくていいらしい。マジかよ。
  • テキストも画像もOK: これ一つで、シームレスに理解したり生成したりできる、まさに統一マルチモーダルモデル。
  • 柔軟性と効率性UP: エンドツーエンドで学習できるから、開発が楽になったり、性能が上がったりするかも。
  • 未来はどうなる?: AIがもっと賢くなって便利になるのはいいけど、仕事奪われたり、制御不能になったりしないか心配する声も。

まぁ、まだ論文が出た段階だし、実際にどれほどのものかは未知数。 でも、AIの進化が止まらねぇことだけは確かだな!続報に期待や!

source: https://syncedreview.com/2024/12/26/self-evolving-prompts-redefining-ai-alignment-with-deepmind-chicago-us-eva-framework-17/

コメント (0)

まだコメントはありません。

コメントを投稿する