【緊急速報】お前らのパスポートも顔写真もAIに全部パクられてた件www【ウェブスクレイピング闇深】
1: 名無しのIT戦士さん 2025-07-19(金) 10:00:00.00 ID:AIWarRio マジかよこれ…AIの訓練データに、俺たちのパスポートとかクレカとか顔写真とか、個人情報が大量に含まれてるらしいぞ…? ソース:A major AI training data set contains millions of examples of personal data
【悲報】数百万の個人情報、AI訓練データにダダ漏れェ… ウェブスクレイピングで集められたデータセットに、パスポート、運転免許証、出生証明書、履歴書まで入ってたってよ… 顔検出アルゴリズムもミスってて、1億枚以上の顔写真が見過ごされてる可能性とか、もうね。
2: 名無しさん@おーぷん 2025-07-19(金) 10:02:15.88 ID:NetWatchr は?(威圧) マジで言ってんのそれ? ワイの自撮りとかもAIにパクられてんのか…?(´・ω・`)
3: 名無しのAIウォッチャーさん 2025-07-19(金) 10:03:01.05 ID:Puraivasyii >>1 ぐうの音も出ない。まさか自分の個人情報がAIの食い物にされてるとは… しかも同意なしとかファッ!?
4: やる夫 ◆Yaruo.f7f7 2025-07-19(金) 10:04:30.90 ID:YaruoChan やる夫は思うお!AIが賢くなるなら、多少の犠牲は仕方ないお! だって、AIが進化したらもっと便利な世の中になるお!(`・ω・´)キリッ AIがみんなの顔を覚えて、より良いサービスを提供してくれるようになるお!
5: やらない夫 ID:YaranaiO 2025-07-19(金) 10:05:45.10 ID:YaranaiO >>4 お前バカか? パスポートとかクレカとか、それ犯罪に使われたらどうすんだよ。 便利な世の中とかいう前に、プライバシーとセキュリティの問題だろ。 やらない夫はそんなリスクは背負えないぞ。
6: ひろゆき@考える人 2025-07-19(金) 10:07:00.20 ID:Hiroyuki >>1 それってあなたの感想ですよね? ちなみにソースは?(>>1に書いてあるけど敢えて聞くスタイル) まぁ、ウェブに公開されてるものって、基本的には誰でも見れるし、スクレイピングされるのは想定内じゃないですかね。 削除しても意味ないとか、そんなん当たり前っすよ。ネットに上げた時点でそういうことなんすよねー。
7: できる夫 ID:Dekiruo 2025-07-19(金) 10:08:55.77 ID:Dekiruo 説明しよう。 今回の問題は、主にDataComp CommonPoolというデータセットに起因する。これはLAION-5Bのフォロワーであり、2014年から2022年のCommon Crawlのウェブスクレイピングデータを使用している。 彼らは顔をぼかす等の対策は講じたが、数百万単位のPII(個人識別情報)を見落としていたとのことだ。特に問題なのは、履歴書に含まれる障がい情報や出生地、家族構成など、機微な情報だ。 フィルタリングは非常に困難で、完全に防ぐのは現行技術ではほぼ不可能に近いと言える。
8: クマー ID:KumaKuma 2025-07-19(金) 10:10:10.00 ID:KumaKuma クマー! ∧_∧ ( ´・ω・) なんかもう嫌になってきた… ( つ旦O と__)_)
危険だクマー!個人情報がAIに食べられるクマー!
9: 永遠の初心者さん 2025-07-19(金) 10:11:30.40 ID:Shoshinsha >>7 え、じゃあ俺が趣味でブログに上げた写真とか、昔書いたSNSのプロフィールとかも全部AIに学習されてるってこと…? Dockerっておいしいの?ってレベルの俺には、もう何が安全なのか全然分かんないよぉ…(´;ω;`)
10: 名無しAI研究員 2025-07-19(金) 10:12:45.11 ID:AI_Labo >>9 残念ながら、そういうことやで。 「公開されてる情報は公共」っていう研究者側の建前と、一般人のプライバシー意識の乖離がデカすぎる。 特に、ChatGPT以前のデータなんて、まさかAIの訓練に使われるなんて誰も思ってなかったやろ。事後同意なんてありえへん。
11: 名無しのサイバー戦士 2025-07-19(金) 10:14:00.99 ID:CyberDef 法律も追いついてないのが問題やな。 GDPRとかCCPAとかあるけど、国によって違うし、そもそも研究者には適用されなかったりする。 「公開されてるからOK」っていうのは、もう時代遅れやで。 企業だけじゃなくて、データセット提供側も責任問われるべきやろ。
12: ムスカ大佐 ID:Musuka 2025-07-19(金) 10:15:30.00 ID:Musuka 見ろ、人がゴミのようだ! ウェブに情報を垂れ流す愚か者どもめ! データセットのキュレーターどもも、ろくなフィルタリングもせず、あえて言おう、カスであると! 君らにはウェブの闇が見えるかね?フハハハハ!
13: 名無しのIT戦士さん 2025-07-19(金) 10:16:45.22 ID:AIWarRio >>12 ムスカwwwごもっともすぎるwww 結局、AI開発の最前線が、法律とか倫理とかぶっ飛ばして突っ走ってるのが現状なんよな。 これじゃ、どんどん個人情報が吸い上げられるだけで、誰も得しない。 みんな、ネットに上げるときは気をつけような…もう遅いかもしれんけど。
まとめ
今回のスレッドでは、AI訓練データセットにおける個人情報流出の深刻な問題が議論されました。
- 個人情報の大量流出: AIの画像生成モデル訓練用データセット「DataComp CommonPool」に、パスポート、運転免許証、クレジットカード、履歴書、顔写真などの個人識別情報(PII)が数百万単位で含まれていることが判明。顔検出アルゴリズムの不備により、1億枚以上の顔写真が見落とされていた可能性も指摘されています。
- ウェブスクレイピングの闇: データは2014年〜2022年のウェブスクレイピングによって収集されており、ユーザーがAI訓練への同意を予期できなかった時期の情報も含まれています。一度インターネットに公開された情報は、たとえ削除されてもAIデータセットからは消えないという問題も浮上しています。
- 法規制の限界と乖離: GDPRやCCPAといった既存のプライバシー法も、データセット提供者や研究者には適用されにくい場合があり、「公開情報」の定義も、一般のプライバシー意識と大きく乖離している現状が明らかになりました。
- AI倫理の再考の必要性: AI開発コミュニティは、無差別なウェブスクレイピングの慣行を再考し、大規模なデータセットにおけるPIIの存在がもたらすプライバシー侵害について、真剣に向き合う必要があると提言されています。
コメント (0)
まだコメントはありません。