Multi-view Content-aware Indexing for Long Document Retrieval


長い文書の質問応答 (DocQA) は、10,000 ワードを超える長い文書からの質問に答えることを目的としています。
これを動機として、私たちは、(i) 構造化ドキュメントをコンテンツ チャンクにセグメント化し、(ii) 各コンテンツ チャンクを生のテキスト、キーワード、
MC インデックス作成にはトレーニングも微調整も必要ないことを強調します。
さらに、質問と回答のペアだけでなく、文書構造と回答範囲も含む長い DocQA データセットを提案します。
最先端のチャンキング スキームと比較した場合、MC インデックスは、上位 k= 1.5、3、5、および 10 により、それぞれ 42.8%、30.0%、23.9%、および 16.3% と再現率を大幅に増加させました。
これらの改善されたスコアは、広範な実験による、広く使用されている 8 つのレトリバー (2 つが疎、6 つが密) の平均です。


Long document question answering (DocQA) aims to answer questions from long documents over 10k words. They usually contain content structures such as sections, sub-sections, and paragraph demarcations. However, the indexing methods of long documents remain under-explored, while existing systems generally employ fixed-length chunking. As they do not consider content structures, the resultant chunks can exclude vital information or include irrelevant content. Motivated by this, we propose the Multi-view Content-aware indexing (MC-indexing) for more effective long DocQA via (i) segment structured document into content chunks, and (ii) represent each content chunk in raw-text, keywords, and summary views. We highlight that MC-indexing requires neither training nor fine-tuning. Having plug-and-play capability, it can be seamlessly integrated with any retrievers to boost their performance. Besides, we propose a long DocQA dataset that includes not only question-answer pair, but also document structure and answer scope. When compared to state-of-art chunking schemes, MC-indexing has significantly increased the recall by 42.8%, 30.0%, 23.9%, and 16.3% via top k= 1.5, 3, 5, and 10 respectively. These improved scores are the average of 8 widely used retrievers (2 sparse and 6 dense) via extensive experiments.


著者 Kuicai Dong,Derrick Goh Xin Deik,Yi Quan Lee,Hao Zhang,Xiangyang Li,Cong Zhang,Yong Liu
発行日 2024-04-23 14:55:32+00:00
arxivサイト arxiv_id(pdf)

