Synthetic Test Collections for Retrieval Evaluation

要約

テスト コレクションは、情報検索 (IR) システムの評価において重要な役割を果たします。
テスト コレクションを構築するためにさまざまなユーザー クエリを取得することは困難な場合があり、クエリに対する検索されたドキュメントの適切性を示す関連性の判断を取得することは、コストとリソースを大量に消費することがよくあります。
大規模言語モデル (LLM) を使用した合成データセットの生成は、最近さまざまなアプリケーションで大きな注目を集めています。
IR では、これまでの研究では LLM の機能を利用して合成クエリやドキュメントを生成してトレーニング データを強化し、ランキング モデルのパフォーマンスを向上させていましたが、合成テスト コレクションの構築に LLM を使用することは比較的未開発でした。
以前の研究では、LLM が IR システムの評価に使用するための総合的な関連性の判断を生成する可能性があることを示しています。
この論文では、LLM を使用して、合成判断だけでなく合成クエリも生成することにより、完全に合成されたテスト コレクションを構築できるかどうかを包括的に調査します。
特に、信頼できる合成テスト コレクションを構築できるかどうか、およびそのようなテスト コレクションが LLM ベースのモデルに対して示す可能性のあるバイアスの潜在的なリスクを分析します。
私たちの実験は、LLM を使用すると、検索評価に確実に使用できる合成テスト コレクションを構築できることを示しています。

要約(オリジナル)

Test collections play a vital role in evaluation of information retrieval (IR) systems. Obtaining a diverse set of user queries for test collection construction can be challenging, and acquiring relevance judgments, which indicate the appropriateness of retrieved documents to a query, is often costly and resource-intensive. Generating synthetic datasets using Large Language Models (LLMs) has recently gained significant attention in various applications. In IR, while previous work exploited the capabilities of LLMs to generate synthetic queries or documents to augment training data and improve the performance of ranking models, using LLMs for constructing synthetic test collections is relatively unexplored. Previous studies demonstrate that LLMs have the potential to generate synthetic relevance judgments for use in the evaluation of IR systems. In this paper, we comprehensively investigate whether it is possible to use LLMs to construct fully synthetic test collections by generating not only synthetic judgments but also synthetic queries. In particular, we analyse whether it is possible to construct reliable synthetic test collections and the potential risks of bias such test collections may exhibit towards LLM-based models. Our experiments indicate that using LLMs it is possible to construct synthetic test collections that can reliably be used for retrieval evaluation.

arxiv情報

著者 Hossein A. Rahmani,Nick Craswell,Emine Yilmaz,Bhaskar Mitra,Daniel Campos
発行日 2024-05-13 14:11:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IR パーマリンク