Neural Retrievers are Biased Towards LLM-Generated Content

要約

最近、大規模言語モデル (LLM) の出現により、人間に似た大量のテキストがインターネット上に生成され、情報検索 (IR) アプリケーション、特に Web 検索のパラダイムに革命が起こりました。
その結果、LLM 時代の IR システムは新たな課題に直面しています。インデックス付きドキュメントは人間によって作成されるだけでなく、LLM によって自動的に生成されるようになりました。
これらの LLM によって生成された文書が IR システムにどのような影響を与えるかは、差し迫った、そしてまだ解明されていない問題です。
この研究では、人間が書いたテキストと LLM が生成したテキストの両方が関与するシナリオで IR モデルの定量的評価を実行します。
驚くべきことに、私たちの調査結果は、ニューラル検索モデルが LLM で生成されたドキュメントをより上位にランク付けする傾向があることを示しています。
LLM が生成したコンテンツに対するニューラル レトリーバーのバイアスのこのカテゴリを \textbf{ソース バイアス} と呼びます。
さらに、このバイアスは第 1 段階のニューラル レトリーバーに限定されず、第 2 段階のニューラル リランカーにも及ぶことがわかりました。
次に、テキスト圧縮の観点からの詳細な分析により、LLM で生成されたテキストはノイズが少なく、より焦点を絞ったセマンティクスを示し、ニューラル検索モデルによるセマンティクスの一致が容易になることが示されています。
ソースバイアスを軽減するために、最適化目標に対してプラグアンドプレイのバイアス解除制約も提案し、実験結果はその有効性を示しています。
最後に、観察されたソースバイアスに起因する潜在的な深刻な懸念について議論し、私たちの調査結果がIRコミュニティやその他のコミュニティへの重要な警鐘として機能することを願っています。
LLM 時代における将来の IR の探求を促進するために、構築された 2 つの新しいベンチマークが https://github.com/KID-22/Source-Bias で入手可能です。

要約(オリジナル)

Recently, the emergence of large language models (LLMs) has revolutionized the paradigm of information retrieval (IR) applications, especially in web search, by generating vast amounts of human-like texts on the Internet. As a result, IR systems in the LLM era are facing a new challenge: the indexed documents are now not only written by human beings but also automatically generated by the LLMs. How these LLM-generated documents influence the IR systems is a pressing and still unexplored question. In this work, we conduct a quantitative evaluation of IR models in scenarios where both human-written and LLM-generated texts are involved. Surprisingly, our findings indicate that neural retrieval models tend to rank LLM-generated documents higher. We refer to this category of biases in neural retrievers towards the LLM-generated content as the \textbf{source bias}. Moreover, we discover that this bias is not confined to the first-stage neural retrievers, but extends to the second-stage neural re-rankers. Then, in-depth analyses from the perspective of text compression indicate that LLM-generated texts exhibit more focused semantics with less noise, making it easier for neural retrieval models to semantic match. To mitigate the source bias, we also propose a plug-and-play debiased constraint for the optimization objective, and experimental results show its effectiveness. Finally, we discuss the potential severe concerns stemming from the observed source bias and hope our findings can serve as a critical wake-up call to the IR community and beyond. To facilitate future explorations of IR in the LLM era, the constructed two new benchmarks are available at https://github.com/KID-22/Source-Bias.

arxiv情報

著者 Sunhao Dai,Yuqi Zhou,Liang Pang,Weihao Liu,Xiaolin Hu,Yong Liu,Xiao Zhang,Gang Wang,Jun Xu
発行日 2024-07-31 13:08:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR パーマリンク