要約
現実的で人間のようなコンテンツを作成できる生成 AI モデルの最近の進歩により、人々のコミュニケーション、創作、仕事の方法が大きく変わりつつあります。
生成 AI モデルを適切に使用すると社会に利益をもたらすことができますが、その誤用はデータの信頼性と認証に重大な脅威をもたらします。
ただし、整列されたマルチモーダル データセットが不足しているため、機械生成コンテンツを検出するための効果的かつ堅牢な方法はまだ開発の初期段階にあります。
このペーパーでは、テキスト、画像、音声の機械生成コンテンツを堅牢かつ効率的に検出するために設計された新しい大規模マルチモーダル データセットである RU-AI を紹介します。
私たちのデータセットは、Flickr8K、COCO、Places205 という 3 つの大規模な公開データセットから、元のデータセットとそれらに対応する機械生成されたペアを組み合わせて構築されています。
さらに、実験結果は、多層パーセプトロンネットワークを備えたマルチモーダル埋め込みモジュールを組み込んだ、私たちが提案する統合モデルが、RU-AIからのデータの起源(つまり、元のデータサンプルまたは機械生成されたデータ)を効果的に決定できることを示しています。
ただし、RU-AI によってもたらされる残りの課題に対処するには、今後の作業が依然として必要です。
ソース コードとデータセットは https://github.com/ZhihaoZhang97/RU-AI で入手できます。
要約(オリジナル)
The recent advancements in generative AI models, which can create realistic and human-like content, are significantly transforming how people communicate, create, and work. While the appropriate use of generative AI models can benefit the society, their misuse poses significant threats to data reliability and authentication. However, due to a lack of aligned multimodal datasets, effective and robust methods for detecting machine-generated content are still in the early stages of development. In this paper, we introduce RU-AI, a new large-scale multimodal dataset designed for the robust and efficient detection of machine-generated content in text, image, and voice. Our dataset is constructed from three large publicly available datasets: Flickr8K, COCO, and Places205, by combining the original datasets and their corresponding machine-generated pairs. Additionally, experimental results show that our proposed unified model, which incorporates a multimodal embedding module with a multilayer perceptron network, can effectively determine the origin of the data (i.e., original data samples or machine-generated ones) from RU-AI. However, future work is still required to address the remaining challenges posed by RU-AI. The source code and dataset are available at https://github.com/ZhihaoZhang97/RU-AI.
arxiv情報
著者 | Liting Huang,Zhihao Zhang,Yiran Zhang,Xiyue Zhou,Shoujin Wang |
発行日 | 2024-06-07 12:58:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google