Multi-view Content-aware Indexing for Long Document Retrieval

要約

長い文書の質問応答 (DocQA) は、10,000 ワードを超える長い文書からの質問に答えることを目的としています。
通常、セクション、サブセクション、段落境界などのコンテンツ構造が含まれます。
ただし、既存のシステムでは一般に固定長のチャンク化が採用されている一方で、長いドキュメントのインデックス付け方法はまだ研究されていません。
コンテンツ構造が考慮されていないため、結果として得られるチャンクには重要な情報が除外されたり、無関係なコンテンツが含まれたりする可能性があります。
これを動機として、私たちは、(i) 構造化ドキュメントをコンテンツ チャンクにセグメント化し、(ii) 各コンテンツ チャンクを生のテキスト、キーワード、
および概要ビュー。
MC インデックス作成にはトレーニングも微調整も必要ないことを強調します。
プラグアンドプレイ機能を備えているため、あらゆるレトリバーとシームレスに統合してパフォーマンスを向上させることができます。
さらに、質問と回答のペアだけでなく、文書構造と回答範囲も含む長い DocQA データセットを提案します。
最先端のチャンキング スキームと比較した場合、MC インデックスは、上位 k= 1.5、3、5、および 10 により、それぞれ 42.8%、30.0%、23.9%、および 16.3% と再現率を大幅に増加させました。
これらの改善されたスコアは、広範な実験による、広く使用されている 8 つのレトリバー (2 つが疎、6 つが密) の平均です。

要約(オリジナル)

Long document question answering (DocQA) aims to answer questions from long documents over 10k words. They usually contain content structures such as sections, sub-sections, and paragraph demarcations. However, the indexing methods of long documents remain under-explored, while existing systems generally employ fixed-length chunking. As they do not consider content structures, the resultant chunks can exclude vital information or include irrelevant content. Motivated by this, we propose the Multi-view Content-aware indexing (MC-indexing) for more effective long DocQA via (i) segment structured document into content chunks, and (ii) represent each content chunk in raw-text, keywords, and summary views. We highlight that MC-indexing requires neither training nor fine-tuning. Having plug-and-play capability, it can be seamlessly integrated with any retrievers to boost their performance. Besides, we propose a long DocQA dataset that includes not only question-answer pair, but also document structure and answer scope. When compared to state-of-art chunking schemes, MC-indexing has significantly increased the recall by 42.8%, 30.0%, 23.9%, and 16.3% via top k= 1.5, 3, 5, and 10 respectively. These improved scores are the average of 8 widely used retrievers (2 sparse and 6 dense) via extensive experiments.

arxiv情報

著者 Kuicai Dong,Derrick Goh Xin Deik,Yi Quan Lee,Hao Zhang,Xiangyang Li,Cong Zhang,Yong Liu
発行日 2024-04-23 14:55:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク