As Good As A Coin Toss: Human detection of AI-generated images, videos, audio, and audiovisual stimuli

要約

合成メディアが次第にリアルになり、それを利用する障壁が下がり続けるにつれ、この技術は、金融詐欺から非合意のポルノまで、悪意のある目的にますます利用されるようになってきた。今日、合成メディアに惑わされないための主要な防御策は、人間の観察者が本物と偽物を視覚的・聴覚的に見分ける能力に依存している。しかし、人々が日常生活の中で、欺瞞的な合成メディアに対して実際にどの程度脆弱であるかは、依然として不明である。我々は、1276人の参加者を対象に知覚研究を行い、人々が合成画像、音声のみ、映像のみ、視聴覚刺激を本物とどの程度正確に区別できるかを評価した。人々が合成メディアに遭遇するであろう状況を反映するため、テスト条件と刺激は典型的なオンラインプラットフォームを模倣し、調査で使用されたすべての合成メディアは一般にアクセス可能な生成AI技術から提供された。 全体的に、参加者は合成コンテンツと本物のコンテンツを有意に見分けるのに苦労していることがわかった。また、刺激に合成コンテンツが含まれる場合(真正コンテンツと比較)、人の顔が描かれた画像が非顔オブジェクトと比較される場合、単一モダリティがマルチモーダル刺激と比較される場合、真正性が混在している場合(完全合成の視聴覚刺激と比較)、外国語が描かれている場合(観察者が流暢な言語と比較)、検出性能が悪化することも分かった。最後に、合成メディアに関する予備知識は、検出性能に有意な影響を与えないこともわかった。これらの結果を総合すると、人々は日常生活において合成メディアに騙される可能性が非常に高く、人間の知覚検出能力はもはや有効な対抗手段として頼ることができないことがわかる。

要約(オリジナル)

As synthetic media becomes progressively more realistic and barriers to using it continue to lower, the technology has been increasingly utilized for malicious purposes, from financial fraud to nonconsensual pornography. Today, the principal defense against being misled by synthetic media relies on the ability of the human observer to visually and auditorily discern between real and fake. However, it remains unclear just how vulnerable people actually are to deceptive synthetic media in the course of their day to day lives. We conducted a perceptual study with 1276 participants to assess how accurate people were at distinguishing synthetic images, audio only, video only, and audiovisual stimuli from authentic. To reflect the circumstances under which people would likely encounter synthetic media in the wild, testing conditions and stimuli emulated a typical online platform, while all synthetic media used in the survey was sourced from publicly accessible generative AI technology. We find that overall, participants struggled to meaningfully discern between synthetic and authentic content. We also find that detection performance worsens when the stimuli contains synthetic content as compared to authentic content, images featuring human faces as compared to non face objects, a single modality as compared to multimodal stimuli, mixed authenticity as compared to being fully synthetic for audiovisual stimuli, and features foreign languages as compared to languages the observer is fluent in. Finally, we also find that prior knowledge of synthetic media does not meaningfully impact their detection performance. Collectively, these results indicate that people are highly susceptible to being tricked by synthetic media in their daily lives and that human perceptual detection capabilities can no longer be relied upon as an effective counterdefense.

arxiv情報

著者 Di Cooke,Abigail Edwards,Sophia Barkoff,Kathryn Kelly
発行日 2024-04-04 14:51:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: 68T01, cs.AI, cs.HC, cs.SD, eess.AS, I.2 パーマリンク