Dense X Retrieval: What Retrieval Granularity Should We Use?

要約

高密度検索は、オープンドメインの NLP タスクで関連するコンテキストや世界の知識を取得するための有力な方法となっています。
推論時に検索コーパスに対して学習済みの密検索を使用する場合、見落とされがちな設計上の選択は、コーパスにインデックスが付けられる検索単位です。
文書、一節、または文章。
取得ユニットの選択が、取得タスクと下流タスクの両方のパフォーマンスに大きな影響を与えることがわかりました。
パッセージやセンテンスを使用する一般的なアプローチとは異なり、高密度検索のための新しい検索単位である命題を導入します。
命題はテキスト内の原子表現として定義され、それぞれが個別のファクトイドをカプセル化し、簡潔で自己完結型の自然言語形式で表現されます。
さまざまな検索粒度を経験的に比較します。
私たちの結果は、命題ベースの検索が、密な検索において従来のパッセージまたはセンテンスベースの方法よりも大幅に優れていることを明らかにしました。
さらに、命題による検索により、下流の QA タスクのパフォーマンスも向上します。これは、取得されたテキストに質問関連情報がより凝縮されているため、長い入力トークンの必要性が減り、無関係で無関係な情報の組み込みが最小限に抑えられるためです。

要約(オリジナル)

Dense retrieval has become a prominent method to obtain relevant context or world knowledge in open-domain NLP tasks. When we use a learned dense retriever on a retrieval corpus at inference time, an often-overlooked design choice is the retrieval unit in which the corpus is indexed, e.g. document, passage, or sentence. We discover that the retrieval unit choice significantly impacts the performance of both retrieval and downstream tasks. Distinct from the typical approach of using passages or sentences, we introduce a novel retrieval unit, proposition, for dense retrieval. Propositions are defined as atomic expressions within text, each encapsulating a distinct factoid and presented in a concise, self-contained natural language format. We conduct an empirical comparison of different retrieval granularity. Our results reveal that proposition-based retrieval significantly outperforms traditional passage or sentence-based methods in dense retrieval. Moreover, retrieval by proposition also enhances the performance of downstream QA tasks, since the retrieved texts are more condensed with question-relevant information, reducing the need for lengthy input tokens and minimizing the inclusion of extraneous, irrelevant information.

arxiv情報

著者 Tong Chen,Hongwei Wang,Sihao Chen,Wenhao Yu,Kaixin Ma,Xinran Zhao,Hongming Zhang,Dong Yu
発行日 2023-12-12 03:37:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR パーマリンク