要約
思考連鎖 (CoT) を備えた大規模言語モデル (LLM) は、さまざまな下流タスクで優れた推論能力を示しています。
それでも、幻覚に悩まされ、外部の知識にアクセスできないため、LLM は、特に KBQA などの知識集約的なタスクに答えるコンテキストにおいて、不正確または不誠実な中間推論ステップを伴うことがよくあります。
この問題を軽減するために、我々は、外部知識との相互作用を介してCoT内の推論トレースを検証および修正し、それによって幻覚やエラー伝播を克服する知識駆動型思考連鎖(KD-CoT)と呼ばれるフレームワークを提案します。
具体的には、LLM の CoT 理論的プロセスを構造化されたマルチラウンド QA 形式に定式化します。
各ラウンドで、LLM は外部の知識を取得し、取得した正確な回答に基づいて忠実な推論トレースを生成する QA システムと対話します。
LLM の構造化された CoT 推論は、当社が開発した KBQA CoT コレクションによって促進されます。これは、コンテキスト内学習のデモンストレーションとして機能し、堅牢な検索者をトレーニングするためのフィードバック拡張としても利用できます。
WebQSP および ComplexWebQuestion データセットに関する広範な実験により、タスク解決推論生成における提案された KD-CoT の有効性が実証され、これはバニラ CoT ICL を上回る絶対成功率 8.0% および 5.1% を示します。
さらに、私たちが提案するフィードバック拡張検索機能は、知識を検索するための最先端のベースラインを上回り、ヒット パフォーマンスの大幅な向上を実現します。
要約(オリジナル)
Equipped with Chain-of-Thought (CoT), Large language models (LLMs) have shown impressive reasoning ability in various downstream tasks. Even so, suffering from hallucinations and the inability to access external knowledge, LLMs often come with incorrect or unfaithful intermediate reasoning steps, especially in the context of answering knowledge-intensive tasks such as KBQA. To alleviate this issue, we propose a framework called Knowledge-Driven Chain-of-Thought (KD-CoT) to verify and modify reasoning traces in CoT via interaction with external knowledge, and thus overcome the hallucinations and error propagation. Concretely, we formulate the CoT rationale process of LLMs into a structured multi-round QA format. In each round, LLMs interact with a QA system that retrieves external knowledge and produce faithful reasoning traces based on retrieved precise answers. The structured CoT reasoning of LLMs is facilitated by our developed KBQA CoT collection, which serves as in-context learning demonstrations and can also be utilized as feedback augmentation to train a robust retriever. Extensive experiments on WebQSP and ComplexWebQuestion datasets demonstrate the effectiveness of proposed KD-CoT in task-solving reasoning generation, which outperforms the vanilla CoT ICL with an absolute success rate of 8.0% and 5.1%. Furthermore, our proposed feedback-augmented retriever outperforms the state-of-the-art baselines for retrieving knowledge, achieving significant improvement in Hit performance.
arxiv情報
著者 | Keheng Wang,Feiyu Duan,Sirui Wang,Peiguang Li,Yunsen Xian,Chuantao Yin,Wenge Rong,Zhang Xiong |
発行日 | 2023-08-25 09:23:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google