要約
既存の大規模言語モデル (LLM) は、優れた問題解決能力を示しますが、複雑な推論タスクに苦労する可能性があります。
思考連鎖およびツリーベースの検索手法は成功しているにもかかわらず、中間推論ステップの検索は主に LLM の内部知識に依存しており、推論ステップが少ない単純なタスクの処理に限定されています。
この論文では、取得した情報を統合して、LLM の固有の知識に依存するツリーベースの熟議推論プロセスをガイドする新しい RAG アプローチである \textbf{RAG-Star} を提案します。
RAG-Star は、モンテカルロ ツリー検索を活用することで、LLM 自体に基づいた推論のための中間サブクエリと回答を反復的に計画します。
内部および外部の知識を統合するために、クエリと回答を認識した報酬モデリングを利用して LLM の固有の推論に対するフィードバックを提供する、検索拡張検証を提案します。
Llama-3.1-8B-Instruct と GPT-4o を使用した実験では、RAG-Star が以前の RAG および推論手法よりも大幅に優れていることが実証されました。
要約(オリジナル)
Existing large language models (LLMs) show exceptional problem-solving capabilities but might struggle with complex reasoning tasks. Despite the successes of chain-of-thought and tree-based search methods, they mainly depend on the internal knowledge of LLMs to search over intermediate reasoning steps, limited to dealing with simple tasks involving fewer reasoning steps. In this paper, we propose \textbf{RAG-Star}, a novel RAG approach that integrates the retrieved information to guide the tree-based deliberative reasoning process that relies on the inherent knowledge of LLMs. By leveraging Monte Carlo Tree Search, RAG-Star iteratively plans intermediate sub-queries and answers for reasoning based on the LLM itself. To consolidate internal and external knowledge, we propose an retrieval-augmented verification that utilizes query- and answer-aware reward modeling to provide feedback for the inherent reasoning of LLMs. Our experiments involving Llama-3.1-8B-Instruct and GPT-4o demonstrate that RAG-Star significantly outperforms previous RAG and reasoning methods.
arxiv情報
著者 | Jinhao Jiang,Jiayi Chen,Junyi Li,Ruiyang Ren,Shijie Wang,Wayne Xin Zhao,Yang Song,Tao Zhang |
発行日 | 2024-12-17 13:05:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google