要約
最近、大規模言語モデル (LLM) の出現により、特に Web 検索における情報検索 (IR) アプリケーションのパラダイムに革命が起こりました。
LLM は、人間のようなテキストを生成する優れた能力により、インターネット上に膨大なテキストを作成してきました。
その結果、LLM 時代の IR システムは新たな課題に直面しています。インデックス付きドキュメントは人間によって作成されるだけでなく、LLM によって自動的に生成されるようになりました。
これらの LLM によって生成された文書が IR システムにどのような影響を与えるかは、差し迫った、そしてまだ解明されていない問題です。
この研究では、人間が書いたテキストと LLM が生成したテキストの両方が関与するシナリオで、さまざまな IR モデルの定量的評価を実行します。
驚くべきことに、私たちの調査結果は、ニューラル検索モデルが LLM で生成されたドキュメントを上位にランクする傾向があることを示しています。LLM で生成されたテキストに対するニューラル検索モデルのバイアスのこのカテゴリを \textbf{ソース バイアス} と呼びます。
さらに、このバイアスは第 1 段階のニューラル レトリーバーに限定されず、第 2 段階のニューラル リランカーにも及ぶことがわかりました。
次に、テキスト圧縮の観点から詳細な分析を提供し、ニューラル モデルが LLM で生成されたテキストの意味情報をよりよく理解できることを観察します。これは、理論分析によってさらに実証されています。また、次のような問題に起因する潜在的なサーバーの問題についても説明します。
観察された情報源の偏りを分析し、私たちの調査結果がIRコミュニティやその他のコミュニティへの重要な警鐘として機能することを願っています。
LLM 時代における将来の IR の探求を促進するために、構築された 2 つの新しいベンチマークとコードが、後で \url{https://github.com/KID-22/LLM4IR-Bias} で利用可能になります。
要約(オリジナル)
Recently, the emergence of large language models (LLMs) has revolutionized the paradigm of information retrieval (IR) applications, especially in web search. With their remarkable capabilities in generating human-like texts, LLMs have created enormous texts on the Internet. As a result, IR systems in the LLMs era are facing a new challenge: the indexed documents now are not only written by human beings but also automatically generated by the LLMs. How these LLM-generated documents influence the IR systems is a pressing and still unexplored question. In this work, we conduct a quantitative evaluation of different IR models in scenarios where both human-written and LLM-generated texts are involved. Surprisingly, our findings indicate that neural retrieval models tend to rank LLM-generated documents higher.We refer to this category of biases in neural retrieval models towards the LLM-generated text as the \textbf{source bias}. Moreover, we discover that this bias is not confined to the first-stage neural retrievers, but extends to the second-stage neural re-rankers. Then, we provide an in-depth analysis from the perspective of text compression and observe that neural models can better understand the semantic information of LLM-generated text, which is further substantiated by our theoretical analysis.We also discuss the potential server concerns stemming from the observed source bias and hope our findings can serve as a critical wake-up call to the IR community and beyond. To facilitate future explorations of IR in the LLM era, the constructed two new benchmarks and codes will later be available at \url{https://github.com/KID-22/LLM4IR-Bias}.
arxiv情報
著者 | Sunhao Dai,Yuqi Zhou,Liang Pang,Weihao Liu,Xiaolin Hu,Yong Liu,Xiao Zhang,Jun Xu |
発行日 | 2023-10-31 14:42:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google