要約
生成モデルの進歩により、AI 生成コンテンツ (AIGC) がより現実的になり、インターネットに氾濫しています。
最近の研究では、この現象により、Web 検索のテキスト検索におけるソースバイアスの問題が深刻化していることが示唆されています。
具体的には、ニューラル検索モデルは、生成されたテキストを人間が書いたテキストよりも上位にランクする傾向があります。
この論文では、このバイアスの研究をクロスモーダル検索に拡張します。
まず、バイアスの存在を調査するための適切なベンチマークを構築することに成功しました。
このベンチマークに関するその後の広範な実験により、AI が生成した画像がテキスト画像検索モデルに目に見えない関連性バイアスを導入していることが明らかになりました。
具体的には、AI が生成した画像が実際の画像よりもクエリに対して視覚的に関連性の高い特徴を示さないにもかかわらず、テキスト画像検索モデルは、AI が生成した画像を実際の画像よりも高くランク付けする傾向があることを実験で示しています。
この目に見えない関連性バイアスは、さまざまなトレーニング データとアーキテクチャを備えた検索モデル全体に蔓延しています。
さらに、その後の調査により、検索モデルのトレーニング データに AI で生成された画像が含まれると、目に見えない関連性バイアスが悪化することが明らかになりました。
上記の現象は悪循環を引き起こし、目に見えない関連性バイアスがますます深刻になります。
目に見えない関連性の潜在的な原因を解明し、前述の問題に対処するために、目に見えない関連性バイアスを軽減することを目的とした効果的なトレーニング方法を紹介します。
続いて、提案したバイアス除去手法を適用して目に見えない関連性の原因を遡及的に特定し、AI が生成した画像が画像エンコーダーにその表現に追加情報を埋め込むよう誘導していることを明らかにしました。
この情報は、異なるセマンティクスを持つ生成された画像間で一定の一貫性を示し、検索者がより高い関連性スコアを推定できるようになります。
要約(オリジナル)
With the advancement of generation models, AI-generated content (AIGC) is becoming more realistic, flooding the Internet. A recent study suggests that this phenomenon has elevated the issue of source bias in text retrieval for web searches. Specifically, neural retrieval models tend to rank generated texts higher than human-written texts. In this paper, we extend the study of this bias to cross-modal retrieval. Firstly, we successfully construct a suitable benchmark to explore the existence of the bias. Subsequent extensive experiments on this benchmark reveal that AI-generated images introduce an invisible relevance bias to text-image retrieval models. Specifically, our experiments show that text-image retrieval models tend to rank the AI-generated images higher than the real images, even though the AI-generated images do not exhibit more visually relevant features to the query than real images. This invisible relevance bias is prevalent across retrieval models with varying training data and architectures. Furthermore, our subsequent exploration reveals that the inclusion of AI-generated images in the training data of the retrieval models exacerbates the invisible relevance bias. The above phenomenon triggers a vicious cycle, which makes the invisible relevance bias become more and more serious. To elucidate the potential causes of invisible relevance and address the aforementioned issues, we introduce an effective training method aimed at alleviating the invisible relevance bias. Subsequently, we apply our proposed debiasing method to retroactively identify the causes of invisible relevance, revealing that the AI-generated images induce the image encoder to embed additional information into their representation. This information exhibits a certain consistency across generated images with different semantics and can make the retriever estimate a higher relevance score.
arxiv情報
著者 | Shicheng Xu,Danyang Hou,Liang Pang,Jingcheng Deng,Jun Xu,Huawei Shen,Xueqi Cheng |
発行日 | 2023-11-27 13:43:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google