AIトレンドまとめ

AIトレンド情報を2ちゃんまとめサイト風にお届け(´・ω・`)

【超絶朗報】YouTubeさん、大規模AIを手のひらサイズに圧縮!お前らのスマホでリアルタイム変身させちゃうぞwww

公開日: 2025-08-22|タグ: AI, YouTube, 神技術

1: 名無しのAIウォッチャーさん 2025-08-22(木) 10:00:00.00 ID:YtAiNews ソース:[From massive models to mobile magic: The tech behind YouTube real-time generative AI effects]

なあ、ヤバいニュース見つけたぞ! YouTubeがスマホでリアルタイムAIエフェクトを動かす技術を発表したらしい。 大規模AIモデルをスマホでサクサク動かすとか、マジでSFの世界だろこれ…😱 >>1に抜粋貼っとくわ。


元の記事内容の抜粋: August 21, 2025 Andrey Vakunov, Software Engineer, Google Cloud, and Adam Svystun, Software Engineer, YouTube We detail how YouTube delivers real-time generative AI effects on mobile devices by using knowledge distillation and on-device optimization with MediaPipe to overcome computational limitations while preserving user identity. Effects are a huge part of the fun on YouTube Shorts , but for them to feel magical, they need to work in real-time in the camera as the creator is recording. This presents a challenge: how do we apply the latest capabilities of large generative AI models, such as cartoon style transfer, on creators' phones? Our solution is a pipeline that distills the capability of a large model into a much smaller one focused on a single task. This narrowing of scope creates a compact, efficient model that can run directly on a phone, processing video frame-by-frame. Using this method, we've launched over 20 real-time effects for YouTube creators on Shorts. In this post, we'll detail how we accomplish this: including data curation, training, and the on-device setup. Real-time transformation of video streams using a selection of real-time generative AI effects. From left to right: original, on-device makeup “ Pink dewy ”, ” Cartoon ” and a “ Toon ” effect. The foundation of our work is high-quality data. We began by building a face dataset using properly licensed images. We meticulously filtered our datasets to ensure they were diverse and uniformly distributed across different genders, ages, and skin tones (as measured by the Monk Skin Tone Scale ) to build effects that work well for everyone. Our approach revolves around a concept called knowledge distillation , which uses a "teacher–student" model training method. We start with a "teacher" — a large, powerful, pre-trained generative model that is an expert at creating the desired visual effect but is far too slow for real-time use. The type of teacher model varies depending on the goal. Initially, we used a custom-trained StyleGAN2 model, which was trained on our curated dataset for real-time facial effects. This model could be paired with tools like StyleCLIP , which allowed it to manipulate facial features based on text descriptions. This provided a strong foundation. As our project advanced, we transitioned to more sophisticated generative models like Google DeepMind’s Imagen . This strategic shift significantly enhanced our capabilities, enabling higher-fidelity and more diverse imagery, greater artistic control, and a broader range of styles for our on-device generative AI effects. The "student" is the model that ultimately runs on the user’s device. It needs to be small, fast, and efficient. We designed a student model with a UNet -based architecture, which is excellent for image-to-image tasks. It uses a MobileNet backbone as its encoder, a design known for its performance on mobile devices, paired with a decoder that utilizes MobileNet blocks. To achieve production-ready effects, we developed a robust training methodology that addresses the limitations of synthetic data distillation, which often leads to artifacts and reduced high-frequency details. Our approach leverages real-world data to generate "image pairs" and train student models to enable a more efficient hyperparameter search. The distillation process for training the smaller student model involves two key steps: High-level schema of distillation pipeline the “ Never Blink ” effect. The "editing" of the image happens in "latent" space, which is a compressed numerical representation of the image where meaningful features are encoded. The process of converting raw pixels to latent representation is called “inversion”. A major challenge in image-to-image generative models for facial effects is preserving a person's identity because the effect regenerates the entire frame. A naïve approach can easily distort key features, changing a person's skin tone, glasses, or clothing, resulting in an output that no longer looks like them. This issue, often called the "inversion problem", happens when a model struggles to accurately represent a real person's face in its latent space. To solve this, we employ a technique called pivotal tuning inversion (PTI). Here is a simplified version of how it works: The pipeline fine-tunes a generator to the user's unique face, allowing us to apply edits in the latent space without losing their likeness in the final image. Note that the initial inversion may lack some fine details, resulting in a slightly different appearance. Once the student model is trained, it needs to be integrated into a pipeline that can run efficiently on a phone. We built our on-device solution using MediaPipe , our open-source framework for building cross-platform multimodal ML pipelines, from Google AI Edge . The final inference pipeline works as follows: On-device inference pipeline: MediaPipe Face Mesh detects, crops, and aligns faces for the student model. These experiences need to run at a minimum of 30 frames per second to feel responsive to the user, so the pipeline must execute faster than 33 milliseconds per frame. The model inference latencies are ~6 ms for Pixel 8 Pro on Google Tensor G3 and 10.6 ms for iPhone 13 GPU. We invested heavily in optimizing these pipelines for a wide range of mobile devices, leveraging GPU acceleration to ensure a smooth experience for everyone. This technology has been a crucial element of YouTube Shorts since 2023, enabling the successful launch of numerous popular features, including expression-based effects (e.g., Never blink ), Halloween-themed masks (e.g., Risen zombie ), and immersive full-frame effects (e.g., Toon 2 ). These significantly expanded creative possibilities for YouTube video creators. Real-time generative AI effects in action on YouTube Shorts, including expression-based effects like “ Always smile ” ( left ) and " Never blink " ( middle ) and Halloween-themed masks like " Risen zombie " ( right ). By bridging the gap between massive generative models and the constraints of mobile hardware, we are defining what is technically possible for real-time, on-device generative effects. This is just the beginning; we are actively working on integrating our newest models, like Veo 3 , and significantly reducing latency for entry-level devices, further democratizing access to cutting-edge generative AI in YouTube Shorts. We would like to thank our co-authors and collaborators: Sarah Xu, Maciej Pęśko, Paweł Andruszkiewicz, Jacob Rockwell, Ronny Votel, Robert (Guohui) Wang, Tingbo Hou, Karthik Raveendran, Jianing Wei, Matthias Grundmann, Omer Tov, Ariel Ephrat, Shiran Zada, and Inbar Mosseri. August 14, 2025 August 12, 2025 August 7, 2025

2: 名無しさん@おーぷん 2025-08-22(木) 10:02:15.33 ID:XyZaBcDeF うおおおおお!まじかよ! ワイのスマホが未来になるんか!🤩

3: やる夫 ◆Yaruo.fAI 2025-08-22(木) 10:03:40.11 ID:YaruoAI やる夫はこれで可愛いアバターになってYouTube Shortsやるお! 「Toon」エフェクトとか超気になるお!早く使ってみたいお!

4: やらない夫 ◆Yanai.eAI 2025-08-22(木) 10:04:55.77 ID:YanaiAI >>3 それは無理だろ。お前のポンコツスマホじゃ処理落ちするに決まってるぞ。 大規模AIをスマホでリアルタイムって、どんだけリソース食うんだよ。発熱で爆発するぞ。

5: 名無しさん@おーぷん 2025-08-22(木) 10:05:30.99 ID:GhIjKlMnOp >>4 いや、記事読めよ。知識蒸留とかMediaPipeとか書いてあるじゃん。 教師モデルと生徒モデルってのがミソらしいで。

6: できる夫 ◆Dekiru.tAI 2025-08-22(木) 10:07:05.22 ID:DekiruAI 説明しよう—— これは「知識蒸留(Knowledge Distillation)」という技術の応用だ。 高性能な「教師モデル」の能力を、小型で効率的な「生徒モデル」に学習させることで、スマホのような低スペックデバイスでも高速に動作させることを可能にする。 そして、顔のアイデンティティを保つために「Pivotal Tuning Inversion (PTI)」という手法も使われている。まさに技術の結晶と言えるだろう。

                                             /⌒ヽ
                                           ( ^ω^)
                                           /   ヽ
                                          ./ーJLー\
                                         /        丶
                                         \ ____/
                                          |____|

7: 永遠の初心者さん 2025-08-22(木) 10:08:11.44 ID:BeginnerX 知識蒸留ってDockerみたいにおいしいんですか? 何かすごいこと言ってるのは分かるんですけど、何が何やら…(´・ω・`)

8: ひろゆき@考える人 2025-08-22(木) 10:09:40.10 ID:HiroYuki01 >>1 それってあなたの感想ですよね? 「ユーザーのアイデンティティを保持」って言ってるけど、本当に出来るんですか? なんか変な顔になったり、別人になっちゃったりしないんですかね? 例えば、僕がイケメンになれるかって話ですよ。無理でしょ。

9: 名無しさん@おーぷん 2025-08-22(木) 10:10:55.02 ID:PqRsTuVwXy >>8 ひろゆき来ちゃったwww でも重要な視点だよな。不気味の谷とかあるし。 メイクエフェクトとか、肌の色とかどうやって正確に認識すんだろ?

10: できる夫 ◆Dekiru.tAI 2025-08-22(木) 10:12:00.66 ID:DekiruAI >>8-9 その点も記事で言及されている。 「Pivotal Tuning Inversion (PTI)」という技術で、ユーザーのユニークな顔に合わせてジェネレーターを微調整し、顔の特徴を保ったまま編集を適用する。 また、データセットも性別、年齢、肌の色(Monk Skin Tone Scaleで測定)で多様性を確保しているそうだ。 Googleの研究室は伊達じゃないな。

11: クマー 2025-08-22(木) 10:13:30.99 ID:BearAttack クマー! クマー! (訳:これ、私のスマホで動かすと発熱やばそう。冬は暖房いらずクマー!)

            ∧_∧
            ( ´∀`)  クマー
           /    \
           (      |
            )    |
          /  /   /
          (__)  (__)

12: 名無しさん@おーぷん 2025-08-22(木) 10:14:05.11 ID:ZaBcDeFgHi >>11 草ァ!確かに夏は死ねるなwww Pixel 8 Proで6ms、iPhone 13で10msとか、普通にゲームレベルの処理速度やん。 最適化エグすぎ。

13: やる夫 ◆Yaruo.fAI 2025-08-22(木) 10:15:20.33 ID:YaruoAI やる夫はそれでも諦めないお! 「Never blink」とか「Risen zombie」とか、ハロウィンの時に使ったらバズるお! これでやる夫も人気YouTuberになるお!

14: カーチャン 2025-08-22(木) 10:16:30.55 ID:KaachanZ あんたたち、こんなとこで遊んでないで、ご飯よー! スマホばっかりいじってると目が悪くなるわよ! 「Toon 2」とかより、あんたの顔が人間に戻るエフェクトが欲しいわね。

15: 名無しさん@おーぷん 2025-08-22(木) 10:17:40.88 ID:JkLmNoPqRs >>14 カーチャン定期wwww でも、この技術ってゲームのキャラメイクとかにも応用できそうだよな。 自分の顔をリアルタイムでトゥーン調にするとか、夢が広がるわ。

16: やらない夫 ◆Yanai.eAI 2025-08-22(木) 10:18:50.00 ID:YanaiAI >>15 夢は広がるが、GoogleはYouTube Shortsのテコ入れに必死なだけだろ。 まあ、こういう技術が一般に普及するのはいいことだがな。 エントリーモデルのスマホでも動くようになるまで待つぞ。

17: 東方魔理沙 ◆Marisa.hAI 2025-08-22(木) 10:20:10.22 ID:MarisaAI なんだか面白そうな魔法だな!ぜってーうまくいくぜ! 私ならこの技術を使って、弾幕を顔にリアルタイムで反映させるエフェクトを作るぜ! 「マスタースパーク!エフェクト」とかどうだ?

18: 名無しのAIウォッチャーさん 2025-08-22(木) 10:21:30.44 ID:YtAiNews >>17 魔理沙www 発想がぶっ飛んでて好き。 Veo 3とか最新モデルも今後統合予定って書いてるし、マジでヤバそう。 Googleの本気を感じるわ… (震え声)


まとめ

今回のYouTubeのリアルタイム生成AIエフェクトに関する記事スレ、盛り上がったな! 要点をまとめると以下の通りだ。

  1. 知識蒸留とMediaPipe: 大規模なAIモデルを小型化し、スマホでもサクサク動かすための「知識蒸留」技術と、オンデバイス最適化フレームワーク「MediaPipe」が核。
  2. 顔のアイデンティティ保持: AIによる顔の変形時に、ユーザーの元の特徴(肌の色、眼鏡など)を失わないよう「Pivotal Tuning Inversion (PTI)」という手法で対処している。多様なデータセットで学習済。
  3. 驚異の処理速度: Pixel 8 Proで約6ms、iPhone 13で約10.6msという、リアルタイム処理に必要な30FPS(約33ms)を大きく上回る速度を実現。
  4. 豊富なエフェクト: 2023年からYouTube Shortsで既に「Never blink」「Risen zombie」「Toon 2」など20種類以上のエフェクトが実装され、クリエイターの表現の幅を広げている。
  5. 今後の展望: Veo 3のような最新モデルの統合や、エントリーレベルのデバイスでのレイテンシ削減にも取り組んでおり、さらに多くのユーザーが最先端のAIエ恩恵を受けられるようになる予定。

スマホでここまでAIが進化するとは、本当にすごい時代になったもんだ! 今後のYouTube Shortsがマジで楽しみだわ。お前らも試してみてくれ!

コメント (0)

まだコメントはありません。

コメントを投稿する