TreeHop: Generate and Filter Next Query Embeddings Efficiently for Multi-hop Question Answering

要約

検索された生成(RAG)システムは、複数のドキュメントチャンクで情報を合成する必要がある複雑なクエリが必要なマルチホップ質問応答(MHQA)の重要な課題に直面しています。
既存のアプローチは通常、反復的なLLMベースのクエリの書き換えとルーティングに依存しているため、LLMの呼び出しと多段階プロセスが繰り返されるため、計算コストが高くなります。
これらの制限に対処するために、クエリ改良でLLMSを必要とせずに、埋め込みレベルのフレームワークであるTreeHopを提案します。
Treehopは、以前のクエリからセマンティック情報を融合し、ドキュメントを取得したドキュメントからのセマンティック情報を融合し、埋め込みスペース操作のみを介して反復的な検索を可能にすることにより、クエリの埋め込みを動的に更新します。
この方法は、従来の「Retrive-Rewrite-Vectorize-Retrieve」サイクルを合理化された「Retraine-embed-Retrieve」ループに置き換え、計算オーバーヘッドを大幅に削減します。
さらに、ルールベースの停止基準が導入され、さらに冗長検索をさらに剪定し、効率のバランスを取り、リコール率が導入されます。
実験結果は、Treehopが3つのオープンドメインMHQAデータセットで高度なRAGメソッドに匹敵し、モデルパラメーターサイズの5 \%-0.4 \%で匹敵するパフォーマンスを達成し、クエリレイテンシを同時アプローチと比較して約99%減少させることを示しています。
これにより、ツリーホップは、さまざまな知識集約型アプリケーションで展開するためのより速く、より費用対効果の高いソリューションになります。
再現性のために、コードとデータはhttps://github.com/allen-li1231/treehop-ragで入手できます。

要約(オリジナル)

Retrieval-augmented generation (RAG) systems face significant challenges in multi-hop question answering (MHQA), where complex queries require synthesizing information across multiple document chunks. Existing approaches typically rely on iterative LLM-based query rewriting and routing, resulting in high computational costs due to repeated LLM invocations and multi-stage processes. To address these limitations, we propose TreeHop, an embedding-level framework without the need for LLMs in query refinement. TreeHop dynamically updates query embeddings by fusing semantic information from prior queries and retrieved documents, enabling iterative retrieval through embedding-space operations alone. This method replaces the traditional ‘Retrieve-Rewrite-Vectorize-Retrieve’ cycle with a streamlined ‘Retrieve-Embed-Retrieve’ loop, significantly reducing computational overhead. Moreover, a rule-based stop criterion is introduced to further prune redundant retrievals, balancing efficiency and recall rate. Experimental results show that TreeHop rivals advanced RAG methods across three open-domain MHQA datasets, achieving comparable performance with only 5\%-0.4\% of the model parameter size and reducing the query latency by approximately 99\% compared to concurrent approaches. This makes TreeHop a faster and more cost-effective solution for deployment in a range of knowledge-intensive applications. For reproducibility purposes, codes and data are available here: https://github.com/allen-li1231/TreeHop-RAG.

arxiv情報

著者 Zhonghao Li,Kunpeng Zhang,Jinghuai Ou,Shuliang Liu,Xuming Hu
発行日 2025-04-30 13:15:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC, cs.IR, cs.LG パーマリンク