Open-World Evaluation for Retrieving Diverse Perspectives

要約

複雑で論争の多い質問に関するさまざまな視点をカバーする一連のドキュメントの取得を調査します(たとえば、ChatGptは良いよりも害を及ぼすでしょうか?)。
主観的な質問(BERDS)の検索多様性のベンチマークをキュレートします。各例は、質問に関連する質問と多様な視点で構成され、調査の質問と議論のウェブサイトから得られます。
このデータでは、コーパスとペアになったレトリーバーが評価され、多様な視点を含むドキュメントセットを表面化します。
そのドキュメントの関連性のほとんどの検索タスクとのフレーミングは、参照への単純な文字列の一致によって決定することはできません。
代わりに、各取得ドキュメントに視点が含まれているかどうかを決定する言語モデルベースの自動評価者を構築します。
これにより、3つの異なるタイプのコーパス(Wikipedia、Webスナップショット、および検索エンジンから取得したページでその場で構築されたコーパス)のパフォーマンスを評価することができます。
多様なドキュメントを取得することは依然として困難であり、既存のレトリバーからの出力は、例の40%のみですべての視点をカバーしています。
さらに、クエリの拡張と多様性に焦点を当てた再ランキングアプローチの有効性を研究し、レトリーバーのサイコファンシーを分析します。

要約(オリジナル)

We study retrieving a set of documents that covers various perspectives on a complex and contentious question (e.g., will ChatGPT do more harm than good?). We curate a Benchmark for Retrieval Diversity for Subjective questions (BERDS), where each example consists of a question and diverse perspectives associated with the question, sourced from survey questions and debate websites. On this data, retrievers paired with a corpus are evaluated to surface a document set that contains diverse perspectives. Our framing diverges from most retrieval tasks in that document relevancy cannot be decided by simple string matches to references. Instead, we build a language model-based automatic evaluator that decides whether each retrieved document contains a perspective. This allows us to evaluate the performance of three different types of corpus (Wikipedia, web snapshot, and corpus constructed on the fly with retrieved pages from the search engine) paired with retrievers. Retrieving diverse documents remains challenging, with the outputs from existing retrievers covering all perspectives on only 40% of the examples. We further study the effectiveness of query expansion and diversity-focused reranking approaches and analyze retriever sycophancy.

arxiv情報

著者 Hung-Ting Chen,Eunsol Choi
発行日 2025-04-22 14:11:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR パーマリンク