要約
最新の NLP タスクは、最新の関連コンテキスト情報にアクセスするために、高密度の検索手法にますます依存しています。
私たちは、コンテンツの意味論的な独立性がよりよく捉えられるように、サイズが変化する可能性のあるセグメントから検索が利益を得るという前提によって動機づけられています。
私たちは、LLM を利用して文書を動的にセグメント化する方法である LumberChunker を提案します。これは、LLM に、一連のパッセージのグループ内でコンテンツが移動し始めるポイントを識別するよう繰り返し指示します。
私たちの方法を評価するために、Project Gutenberg で入手可能な 100 冊のパブリック ドメインの物語本から派生した 3000 の「干し草の山の中の針」タイプの質問と回答のペアを備えたベンチマークである GutenQA を導入します。
私たちの実験では、LumberChunker が取得パフォーマンス (DCG@20) で最も競合するベースラインを 7.37% 上回っているだけでなく、RAG パイプラインに統合された場合、LumberChunker が他のチャンキング手法や競合するベースラインよりも効果的であることが証明されています。
ジェミニ 1.5M プロ。
コードとデータは https://github.com/joaodsmarques/LumberChunker で入手できます。
要約(オリジナル)
Modern NLP tasks increasingly rely on dense retrieval methods to access up-to-date and relevant contextual information. We are motivated by the premise that retrieval benefits from segments that can vary in size such that a content’s semantic independence is better captured. We propose LumberChunker, a method leveraging an LLM to dynamically segment documents, which iteratively prompts the LLM to identify the point within a group of sequential passages where the content begins to shift. To evaluate our method, we introduce GutenQA, a benchmark with 3000 ‘needle in a haystack’ type of question-answer pairs derived from 100 public domain narrative books available on Project Gutenberg. Our experiments show that LumberChunker not only outperforms the most competitive baseline by 7.37% in retrieval performance (DCG@20) but also that, when integrated into a RAG pipeline, LumberChunker proves to be more effective than other chunking methods and competitive baselines, such as the Gemini 1.5M Pro. Our Code and Data are available at https://github.com/joaodsmarques/LumberChunker
arxiv情報
著者 | André V. Duarte,João Marques,Miguel Graça,Miguel Freire,Lei Li,Arlindo L. Oliveira |
発行日 | 2024-06-25 13:08:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google