As Good As A Coin Toss: Human detection of AI-generated images, videos, audio, and audiovisual stimuli

要約

合成メディアが徐々に現実味を増し、その使用の障壁が低くなり続けるにつれて、このテクノロジーは金融詐欺から同意のないポルノに至るまで、悪意のある目的でますます利用されています。
今日、合成メディアによる誤解に対する主な防御策は、本物と偽物を視覚的および聴覚的に識別する人間の観察者の能力に依存しています。
しかし、人々が日常生活の中で、欺瞞的な合成メディアに対して実際にどの程度脆弱であるかは依然として不明である。
私たちは 1,276 人の参加者を対象に知覚研究を実施し、人々が合成画像、音声のみ、ビデオのみ、視聴覚刺激を本物とどれだけ正確に区別できるかを評価しました。
人々が実際に合成メディアに遭遇する可能性が高い状況を反映するために、テスト条件と刺激は典型的なオンライン プラットフォームをエミュレートしましたが、調査で使用されたすべての合成メディアは、公的にアクセス可能な生成 AI テクノロジーから供給されました。
全体として、参加者は合成コンテンツと本物のコンテンツを有意義に区別するのに苦労していることがわかりました。
また、刺激に本物のコンテンツと比較して合成コンテンツが含まれている場合、顔以外のオブジェクトと比較して人間の顔を特徴とする画像が含まれている場合、マルチモーダル刺激と比較して単一モダリティが含まれている場合、視聴覚刺激の完全合成と比較して本物性が混在している場合、検出パフォーマンスが低下することもわかりました。
最後に、合成メディアに関する事前知識がその検出パフォーマンスに有意な影響を与えないこともわかりました。
これらの結果を総合すると、人々は日常生活の中で合成メディアにだまされる可能性が非常に高く、人間の知覚検出能力はもはや有効な対抗手段としては信頼できないことを示しています。

要約(オリジナル)

As synthetic media becomes progressively more realistic and barriers to using it continue to lower, the technology has been increasingly utilized for malicious purposes, from financial fraud to nonconsensual pornography. Today, the principal defense against being misled by synthetic media relies on the ability of the human observer to visually and auditorily discern between real and fake. However, it remains unclear just how vulnerable people actually are to deceptive synthetic media in the course of their day to day lives. We conducted a perceptual study with 1276 participants to assess how accurate people were at distinguishing synthetic images, audio only, video only, and audiovisual stimuli from authentic. To reflect the circumstances under which people would likely encounter synthetic media in the wild, testing conditions and stimuli emulated a typical online platform, while all synthetic media used in the survey was sourced from publicly accessible generative AI technology. We find that overall, participants struggled to meaningfully discern between synthetic and authentic content. We also find that detection performance worsens when the stimuli contains synthetic content as compared to authentic content, images featuring human faces as compared to non face objects, a single modality as compared to multimodal stimuli, mixed authenticity as compared to being fully synthetic for audiovisual stimuli, and features foreign languages as compared to languages the observer is fluent in. Finally, we also find that prior knowledge of synthetic media does not meaningfully impact their detection performance. Collectively, these results indicate that people are highly susceptible to being tricked by synthetic media in their daily lives and that human perceptual detection capabilities can no longer be relied upon as an effective counterdefense.

arxiv情報

著者 Di Cooke,Abigail Edwards,Sophia Barkoff,Kathryn Kelly
発行日 2024-03-26 15:17:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T01, cs.AI, cs.HC, cs.SD, eess.AS, I.2 パーマリンク