DAPR: A Benchmark on Document-Aware Passage Retrieval

要約

これまでのニューラル検索の研究は短いテキストのランク付けに焦点を当てており、長い文書では挑戦されています。
ユーザーが膨大なコーパスから長い文書の中から関連する文章を見つけたいというケースはよくあります。
ウィキペディアの記事、研究論文など。私たちはこのタスクを \emph{Document-Aware Passage Retrieval} (DAPR) と名付けることを提案します。
State-of-The-Art (SoTA) パッセージ取得ツールのエラーを分析すると、主要なエラー (53.5\%) はドキュメント コンテキストの欠落が原因であることがわかりました。
これにより、異種ドメインからの複数のデータセットを含むこのタスクのベンチマークを構築することができます。
実験では、(1) BM25 を使用したハイブリッド検索と、(2) 文書コンテキストを含むパッセージ表現を通知するコンテキスト化されたパッセージ表現を介して、文書コンテキストを使用して SoTA パッセージ取得機能を拡張します。
ハイブリッド検索は、簡単なクエリと難しいクエリの組み合わせでは最も優れたパフォーマンスを発揮しますが、ドキュメントのコンテキストの理解を必要とする難しいクエリでは完全に失敗することがわかりました。
一方、文脈化されたパッセージ表現 (文書タイトルの先頭に追加するなど) は、これらの難しいクエリに対して良好な改善を達成しますが、全体的にはパフォーマンスもかなり悪くなります。
私たちが作成したベンチマークにより、新しいタスク用の検索システムの開発と比較に関する将来の研究が可能になります。
コードとデータは https://https://github.com/UKPLab/arxiv2023-dapr で入手できます。

要約(オリジナル)

The work of neural retrieval so far focuses on ranking short texts and is challenged with long documents. There are many cases where the users want to find a relevant passage within a long document from a huge corpus, e.g. Wikipedia articles, research papers, etc. We propose and name this task \emph{Document-Aware Passage Retrieval} (DAPR). While analyzing the errors of the State-of-The-Art (SoTA) passage retrievers, we find the major errors (53.5\%) are due to missing document context. This drives us to build a benchmark for this task including multiple datasets from heterogeneous domains. In the experiments, we extend the SoTA passage retrievers with document context via (1) hybrid retrieval with BM25 and (2) contextualized passage representations, which inform the passage representation with document context. We find despite that hybrid retrieval performs the strongest on the mixture of the easy and the hard queries, it completely fails on the hard queries that require document-context understanding. On the other hand, contextualized passage representations (e.g. prepending document titles) achieve good improvement on these hard queries, but overall they also perform rather poorly. Our created benchmark enables future research on developing and comparing retrieval systems for the new task. The code and the data are available at https://https://github.com/UKPLab/arxiv2023-dapr.

arxiv情報

著者 Kexin Wang,Nils Reimers,Iryna Gurevych
発行日 2024-02-12 18:19:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR パーマリンク