要約
大規模言語モデル (LLM) は、強力な推論およびジェネレーターとして機能し、質問応答 (QA) などのさまざまな自然言語タスクにわたって並外れたパフォーマンスを示します。
これらのタスクの中でも、マルチホップ質問応答 (MHQA) は広く議論されているカテゴリであり、LLM 間のシームレスな統合と外部知識の取得が必要です。
既存の方法では、LLM を使用して推論パスと計画を生成し、IR を利用して関連する知識を繰り返し取得しますが、これらのアプローチには固有の欠陥があります。
一方で、Information Retriever (IR) は、LLM によって生成されるクエリの品質が低いことによって妨げられます。
一方、LLM は、IR による無関係な知識によって簡単に誤解されます。
IR と LLM の間の反復的なやり取りによって蓄積されたこれらの不正確さは、最終的には効率性の低下につながります。
上記の障壁を克服するために、本稿では、改良されたフレームワーク (Furthest Reasoning) と付属モジュール (Plan Assessor) を含む、Furthest-Reasoning-with-Plan-Assessment (FuRePA) と呼ばれる MHQA 用の新しいパイプラインを提案します。
1) 最遠推論は、LLM に対して以前の推論パスと生成されたクエリをマスクすることによって動作し、反復ごとに LLM が思考の連鎖を最初から生成することを促進します。
このアプローチにより、LLM は、以前の誤解を招く考えやクエリ (存在する場合) によって構築された足かせを打ち破ることができます。
2) 計画評価者は、LLM が提案する候補計画のグループから適切な計画を選択する訓練を受けた評価者です。
私たちの手法は、3 つの知名度の高い公開マルチホップ質問応答データセットで評価され、ほとんどの指標で最先端の手法を上回っています (回答精度で 10% ~ 12% を達成)。
要約(オリジナル)
Large Language Models (LLMs), acting as a powerful reasoner and generator, exhibit extraordinary performance across various natural language tasks, such as question answering (QA). Among these tasks, Multi-Hop Question Answering (MHQA) stands as a widely discussed category, necessitating seamless integration between LLMs and the retrieval of external knowledge. Existing methods employ LLM to generate reasoning paths and plans, and utilize IR to iteratively retrieve related knowledge, but these approaches have inherent flaws. On one hand, Information Retriever (IR) is hindered by the low quality of generated queries by LLM. On the other hand, LLM is easily misguided by the irrelevant knowledge by IR. These inaccuracies, accumulated by the iterative interaction between IR and LLM, lead to a disaster in effectiveness at the end. To overcome above barriers, in this paper, we propose a novel pipeline for MHQA called Furthest-Reasoning-with-Plan-Assessment (FuRePA), including an improved framework (Furthest Reasoning) and an attached module (Plan Assessor). 1) Furthest reasoning operates by masking previous reasoning path and generated queries for LLM, encouraging LLM generating chain of thought from scratch in each iteration. This approach enables LLM to break the shackle built by previous misleading thoughts and queries (if any). 2) The Plan Assessor is a trained evaluator that selects an appropriate plan from a group of candidate plans proposed by LLM. Our methods are evaluated on three highly recognized public multi-hop question answering datasets and outperform state-of-the-art on most metrics (achieving a 10%-12% in answer accuracy).
arxiv情報
著者 | Yin Zhu,Zhiling Luo,Gong Cheng |
発行日 | 2023-09-22 10:15:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google