Open-World Evaluation for Retrieving Diverse Perspectives

要約

私たちは、複雑で議論の余地のある質問 (たとえば、ChatGPT は良いことよりも害を及ぼすのでしょうか?) に関するさまざまな視点をカバーする一連の文書を取得することを研究します。
私たちは、主観的質問に対する検索多様性のベンチマーク (BERDS) を厳選しています。各例は、アンケートの質問や討論 Web サイトから得た質問と、その質問に関連する多様な視点で構成されています。
このデータに基づいて、コーパスとペアになった検索機能が評価され、多様な視点を含む文書セットが明らかになります。
私たちの枠組みは、ドキュメントの関連性が参照に対する単純な文字列の一致によって決定できないという点で、ほとんどの検索タスクとは異なります。
代わりに、取得した各ドキュメントにパースペクティブが含まれているかどうかを判断する、言語モデル ベースの自動評価器を構築します。
これにより、検索エンジンと組み合わせた 3 つの異なるタイプのコーパス (Wikipedia、Web スナップショット、検索エンジンから取得したページを使用してオンザフライで構築されたコーパス) のパフォーマンスを評価できます。
多様なドキュメントを取得することは依然として困難であり、既存の取得ツールからの出力では、サンプルの 33.74% のみについてすべての観点がカバーされています。
私たちはさらに、クエリ拡張と多様性に焦点を当てた再ランキング手法の影響を研究し、レトリーバーのお調子者を分析します。
私たちは協力して、複雑なクエリを処理する検索の多様性に関する将来の研究の基礎を築きます。

要約(オリジナル)

We study retrieving a set of documents that covers various perspectives on a complex and contentious question (e.g., will ChatGPT do more harm than good?). We curate a Benchmark for Retrieval Diversity for Subjective questions (BERDS), where each example consists of a question and diverse perspectives associated with the question, sourced from survey questions and debate websites. On this data, retrievers paired with a corpus are evaluated to surface a document set that contains diverse perspectives. Our framing diverges from most retrieval tasks in that document relevancy cannot be decided by simple string matches to references. Instead, we build a language model based automatic evaluator that decides whether each retrieved document contains a perspective. This allows us to evaluate the performance of three different types of corpus (Wikipedia, web snapshot, and corpus constructed on the fly with retrieved pages from the search engine) paired with retrievers. Retrieving diverse documents remains challenging, with the outputs from existing retrievers covering all perspectives on only 33.74% of the examples. We further study the impact of query expansion and diversity-focused reranking approaches and analyze retriever sycophancy. Together, we lay the foundation for future studies in retrieval diversity handling complex queries.

arxiv情報

著者 Hung-Ting Chen,Eunsol Choi
発行日 2024-09-26 17:52:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR パーマリンク