Recursive Abstractive Processing for Retrieval in Dynamic Datasets

要約

最近の検索拡張モデルは、再帰的な埋め込み、クラスタリング、および要約を通じて、取得されたテキスト チャンクに階層構造を構築することにより、基本的な手法を強化しています。
その後、元のテキストと生成された要約の両方から最も関連性の高い情報が取得されます。
ただし、このようなアプローチは、時間の経過とともにドキュメントを追加または削除すると、クラスタリングによって形成された階層表現の更新が複雑になるという、動的データセットの制限に直面します。
私たちは、パフォーマンスを損なうことなく、動的データセット内の再帰的-抽象的なツリー構造を効率的に維持するための新しいアルゴリズムを提案します。
さらに、クエリに焦点を当てた再帰的抽象処理を適用してコンテキストの品質を大幅に向上させる、新しい検索後メソッドを導入します。
私たちの方法は、あらゆる検索アルゴリズムと互換性のあるブラックボックスの検索後レイヤーとして機能することで、他のアプローチの制限を克服します。
どちらのアルゴリズムも、実世界のデータセットでの広範な実験を通じて検証されており、動的データの処理と検索パフォーマンスの向上における有効性が実証されています。

要約(オリジナル)

Recent retrieval-augmented models enhance basic methods by building a hierarchical structure over retrieved text chunks through recursive embedding, clustering, and summarization. The most relevant information is then retrieved from both the original text and generated summaries. However, such approaches face limitations with dynamic datasets, where adding or removing documents over time complicates the updating of hierarchical representations formed through clustering. We propose a new algorithm to efficiently maintain the recursive-abstractive tree structure in dynamic datasets, without compromising performance. Additionally, we introduce a novel post-retrieval method that applies query-focused recursive abstractive processing to substantially improve context quality. Our method overcomes the limitations of other approaches by functioning as a black-box post-retrieval layer compatible with any retrieval algorithm. Both algorithms are validated through extensive experiments on real-world datasets, demonstrating their effectiveness in handling dynamic data and improving retrieval performance.

arxiv情報

著者 Charbel Chucri,Rami Azouz,Joachim Ott
発行日 2024-10-02 16:47:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク