Cocktail: A Comprehensive Information Retrieval Benchmark with LLM-Generated Documents Integration

要約

大規模言語モデル (LLM) の普及により、インターネット上に AI 生成コンテンツ (AIGC) が流入し、情報検索 (IR) システムのコーパスが人間によってのみ書かれたものから、LLM によって生成されたコンテンツと共存するものに変わりました。
この AIGC の急増が IR システムに及ぼす影響は依然として未解決の問題であり、主な課題は研究者向けの専用ベンチマークが存在しないことです。
このペーパーでは、LLM 時代のこの混合ソースのデータ状況で IR モデルを評価するために調整された包括的なベンチマークである Cocktail を紹介します。
Cocktail は、さまざまなテキスト検索タスクとドメインにわたって人間が書いたコーパスと LLM が生成したコーパスが混在した 16 の多様なデータセットで構成されています。
さらに、LLM に以前に含まれていたデータセット情報による潜在的なバイアスを回避するために、最近のイベントから派生したクエリを含む、NQ-UTD という名前の最新のデータセットも導入しました。
Cocktail のベンチマークされたデータセットに対して最先端の検索モデルを評価するために 1,000 回を超える実験を実施することで、ニューラル検索モデルにおけるランキングのパフォーマンスとソースの偏りの間の明確なトレードオフを明らかにし、設計におけるバランスの取れたアプローチの必要性を強調しています。
将来の IR システム。
すべてのデータとコードは \url{https://github.com/KID-22/Cocktail} で公開されており、Cocktail が LLM 時代の IR 研究の基礎リソースとして機能することを願っています。

要約(オリジナル)

The proliferation of Large Language Models (LLMs) has led to an influx of AI-generated content (AIGC) on the internet, transforming the corpus of Information Retrieval (IR) systems from solely human-written to a coexistence with LLM-generated content. The impact of this surge in AIGC on IR systems remains an open question, with the primary challenge being the lack of a dedicated benchmark for researchers. In this paper, we introduce Cocktail, a comprehensive benchmark tailored for evaluating IR models in this mixed-sourced data landscape of the LLM era. Cocktail consists of 16 diverse datasets with mixed human-written and LLM-generated corpora across various text retrieval tasks and domains. Additionally, to avoid the potential bias from previously included dataset information in LLMs, we also introduce an up-to-date dataset, named NQ-UTD, with queries derived from recent events. Through conducting over 1,000 experiments to assess state-of-the-art retrieval models against the benchmarked datasets in Cocktail, we uncover a clear trade-off between ranking performance and source bias in neural retrieval models, highlighting the necessity for a balanced approach in designing future IR systems. We hope Cocktail can serve as a foundational resource for IR research in the LLM era, with all data and code publicly available at \url{https://github.com/KID-22/Cocktail}.

arxiv情報

著者 Sunhao Dai,Weihao Liu,Yuqi Zhou,Liang Pang,Rongju Ruan,Gang Wang,Zhenhua Dong,Jun Xu,Ji-Rong Wen
発行日 2024-07-02 12:23:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR パーマリンク