【朗報】Googleさん、集団会話の「誰が喋ってるか」「どっちから声出てるか」スマホで全部丸見え技術を開発!これは革命www
1: 名無しのAIウォッチャーさん 2025-07-03(水) 10:00:00.00 ID:AbcDefGhI Google Researchがとんでもない技術開発したらしいぞ… グループ会話で、誰が喋ってるか、どっちから声出てるか までスマホの文字起こしで分かるようになるんだと。 難聴の人とか会議とかでマジ神技術じゃね?
ソース:[Google Researchの神技術、会話丸見え化へ]
2: 名無しさん@おーぷん 2025-07-03(水) 10:01:30.50 ID:JklMnoPqR は?(威圧) マジかよ、すごすぎワロタwwwwww
3: 名無しさん@おーぷん 2025-07-03(水) 10:02:15.22 ID:PqRsTuVwX これはマジで革命だろ… 会議とか大人数での会話、誰が何言ってるか分からなくなること多々あるから助かるわ(´・ω・`)
4: やる夫 ◆Yaruo.fV6A 2025-07-03(水) 10:03:01.00 ID:YaruoAA やる夫はこれ、授業で使いたいお!先生がどこから話してるか、他の生徒の質問とかもすぐわかるようになるお! 未来すぎだお!(≧▽≦)
5: やらない夫 ◆Yaranai.oP0Q 2025-07-03(水) 10:04:20.88 ID:YaranaiBB >>1 でもこれ、盗聴とか悪用されそうじゃないか? やらない夫はそういうのが心配だぞ。プライバシー的にどうなんだ?(´・ω・`)
6: 名無しさん@おーぷん 2025-07-03(水) 10:05:05.11 ID:MnOpQrStU >>5 お前は使わなきゃいいだけだろ定期。 耳が不自由な人とかには福音でしかないわ。
7: できる夫 ◆Dekiru.bE3K 2025-07-03(水) 10:06:30.77 ID:DekiruCC 説明しよう。この技術は「SpeechCompass」と呼ばれ、複数のマイクを使って音源定位(Time-Difference of Arrival: TDOA)を行うことで、話者の位置と発言内容をリアルタイムで分離・表示するんだ。 従来の機械学習ベースだと声紋登録やカメラが必要だったが、これはマイクだけで完結するため、低コストかつプライバシーに配慮されているのが特徴だ。
___
_ノ^`'ヽ__
/ ノ⌒ヽ ヽ
(` ´ ´ `´ `)
/´ ヽ )
( できる夫です
ヽ ノ
しし'
8: 永遠の初心者さん ◆Beginner.gR9Y 2025-07-03(水) 10:07:45.33 ID:BeginnerDD >>7 TDOAっておいしいんですか?(´・ω・`) あと、4マイクってスマホケースみたいなの付けるんですか? なんか難しそうで何から始めればいいか分からないです…
9: ひろゆき ◆Hiroyuki.tZ8L 2025-07-03(水) 10:08:50.00 ID:HiroyukiEE >>1 それってあなたの感想ですよね? 結局、スマホに4つもマイク付けたケースとかダサくて誰も使わないんじゃないですかね? あと、プライバシーの問題は「マイクだけで完結」すれば解決するんですかね? ちなみにソースは?(威圧)
10: クマー ◆Kuma.sX2J 2025-07-03(水) 10:09:40.00 ID:KumaFF クマー!悪用危険クマー! 隠しマイクでどこから会話してるかバレバレクマー! 監視社会クマー!
∩___∩
| ノ ヽ
/ ● ● | クマ━!!
| ( _●_) ミ
彡、 |∪| ノ
/ __l_l___}
11: 名無しさん@おーぷん 2025-07-03(水) 10:10:22.55 ID:GhIjKlMnO >>10 クマー落ち着けwww でも確かに、悪用しようと思えばいくらでもできそうだよな。 技術は善悪関係ないからなぁ…
12: 名無しさん@おーぷん 2025-07-03(水) 10:11:01.00 ID:QrStUvWxY 耳悪いワイ、これガチで待ってたんやで… 今の文字起こしアプリって、誰が喋ってるか分からんから結局わけわからんくなるンゴ(´;ω;`)
13: 名無しさん@おーぷん 2025-07-03(水) 10:12:15.67 ID:ZaBcDeFqR >>8 できる夫だけど、TDOAは音の到達時間の差を利用する技術で、美味しくはないぞ。 スマホケース型と、既存の2マイクスマホ向けソフトの両方で実装できると記事にはある。Pixelならソフトで180度方向定位できるらしい。
14: 名無しさん@おーぷん 2025-07-03(水) 10:13:00.00 ID:JkLmNoPqS 結局、精度どうなの?会議室とか反響多いところで使えるん? あと、バッテリーめっちゃ食いそうやん?
15: 名無しさん@おーぷん 2025-07-03(水) 10:14:10.00 ID:TuVwXyZaB >>14 記事によると平均誤差11~22°で人間並みらしいぞ。 いろんな素材や騒音下でもいけるらしい。 バッテリーは低消費電力マイクロコントローラ使ってるから大丈夫なんじゃないか?(適当)
16: カーチャン ◆Kachan.wN1H 2025-07-03(水) 10:15:00.00 ID:KachanGG あなたたち、またそんな変な話ばかりして! もうお昼ごはんできたわよー! いつまでスマホとにらめっこしてるの!早く食べなさい!
17: 名無しさん@おーぷん 2025-07-03(水) 10:15:30.00 ID:CdeFgHiJk >>16 カーチャン定期www 飯テロやめろwww
まとめ
Google Researchが開発した新技術「SpeechCompass」について、2ちゃんねる風スレッド形式で議論された内容をまとめました。
- 革新的な機能: 集団会話において「誰が話しているか(話者分離)」と「どこから声が発せられているか(音源定位)」をリアルタイムでスマホの文字起こしに反映する技術です。これにより、既存アプリの課題だった認知負荷を軽減し、より分かりやすい文字起こしを実現します。
- 技術的特徴: マルチマイクを用いたTDOA(Time Difference Of Arrival)という音源定位アルゴリズムが核。従来の機械学習アプローチと比較して、声紋登録やカメラ不要のため、プライバシー保護、低遅延、低計算コストといった利点があります。
- 多様な応用と期待: 聴覚に障がいを持つ方々のアクセシビリティ向上はもちろん、会議、授業、インタビュー、友人との会話など、様々なグループコミュニケーションの場面での活用が期待されています。
- 懸念と課題: 一方で、スレッド内ではプライバシー侵害や悪用の可能性についての懸念も表明されました。技術の進歩に伴い、倫理的な側面や社会的なルール作りも重要になることが示唆されました。
- 実装形態: 4マイク搭載の専用スマホケース型プロトタイプと、既存の2マイク以上を搭載するスマホ(Pixelなど)向けのソフトウェア実装の両方が存在し、柔軟な導入が可能です。
コメント (0)
まだコメントはありません。