Think&Cite: Improving Attributed Text Generation with Self-Guided Tree Search and Progress Reward Modeling

要約

大規模言語モデル (LLM) は、その優れた機能にもかかわらず、幻覚を起こしたり、事実に誤りのある情報を生成したりする傾向があります。
この課題により、属性付きテキスト生成の取り組みが促進され、LLM は裏付けとなる証拠を含むコンテンツを生成するようになりました。
この論文では、Think&Cite と呼ばれる新しいフレームワークを提案し、検索と統合された複数ステップの推論問題として属性付きテキスト生成を定式化します。
具体的には、セルフガイド モンテカルロ ツリー検索 (SG-MCTS) を提案します。これは、LLM の自己反映機能を利用して、ツリー展開プロセスをガイドするために MCTS の中間状態を反映します。
信頼性の高い包括的なフィードバックを提供するために、ルートから現在の状態までのツリー検索の進行状況を生成と帰属の進行状況の 2 つの側面から測定する進行報酬モデルを導入します。
私たちは 3 つのデータセットに対して広範な実験を実施し、その結果、私たちのアプローチがベースラインのアプローチを大幅に上回ることが示されました。

要約(オリジナル)

Despite their outstanding capabilities, large language models (LLMs) are prone to hallucination and producing factually incorrect information. This challenge has spurred efforts in attributed text generation, which prompts LLMs to generate content with supporting evidence. In this paper, we propose a novel framework, called Think&Cite, and formulate attributed text generation as a multi-step reasoning problem integrated with search. Specifically, we propose Self-Guided Monte Carlo Tree Search (SG-MCTS), which capitalizes on the self-reflection capability of LLMs to reflect on the intermediate states of MCTS for guiding the tree expansion process. To provide reliable and comprehensive feedback, we introduce Progress Reward Models to measure the progress of tree search from the root to the current state from two aspects, i.e., generation and attribution progress. We conduct extensive experiments on three datasets and the results show that our approach significantly outperforms baseline approaches.

arxiv情報

著者 Junyi Li,Hwee Tou Ng
発行日 2024-12-19 13:55:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク