RAPTOR: Recursive Abstractive Processing for Tree-Organized Retrieval

要約

検索拡張言語モデルは、世界情勢の変化によりよく適応し、ロングテール知識を組み込むことができます。
しかし、既存の方法のほとんどは、検索コーパスから短い連続したチャンクのみを取得するため、文書コンテキスト全体の全体的な理解を制限します。
テキストのチャンクを再帰的に埋め込み、クラスタリングし、要約し、異なるレベルの要約を含むツリーをボトムアップで構築するという新しいアプローチを導入します。
推論時に、RAPTOR モデルはこのツリーから取得し、さまざまな抽象化レベルで長いドキュメントにわたる情報を統合します。
対照実験では、再帰的要約による検索が、いくつかのタスクにおいて従来の検索拡張 LM よりも大幅な改善をもたらすことが示されています。
複雑で複数のステップからなる推論を伴う質問応答タスクについては、最先端の結果を示します。
たとえば、RAPTOR 検索と GPT-4 の使用を組み合わせることで、QUALITY ベンチマークでの最高のパフォーマンスを絶対精度で 20% 向上させることができます。

要約(オリジナル)

Retrieval-augmented language models can better adapt to changes in world state and incorporate long-tail knowledge. However, most existing methods retrieve only short contiguous chunks from a retrieval corpus, limiting holistic understanding of the overall document context. We introduce the novel approach of recursively embedding, clustering, and summarizing chunks of text, constructing a tree with differing levels of summarization from the bottom up. At inference time, our RAPTOR model retrieves from this tree, integrating information across lengthy documents at different levels of abstraction. Controlled experiments show that retrieval with recursive summaries offers significant improvements over traditional retrieval-augmented LMs on several tasks. On question-answering tasks that involve complex, multi-step reasoning, we show state-of-the-art results; for example, by coupling RAPTOR retrieval with the use of GPT-4, we can improve the best performance on the QuALITY benchmark by 20% in absolute accuracy.

arxiv情報

著者 Parth Sarthi,Salman Abdullah,Aditi Tuli,Shubh Khanna,Anna Goldie,Christopher D. Manning
発行日 2024-01-31 18:30:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク