SEER: Facilitating Structured Reasoning and Explanation via Reinforcement Learning

要約

質問から回答まで構造化された説明で推論プロセスを解明することは、質問応答 (QA) システムの解釈可能性、追跡可能性、信頼性を大幅に高めるため、非常に重要です。
ただし、構造化された説明では、モデルが複雑に構造化された推論を実行する必要があるため、大きな課題が生じます。
既存の手法のほとんどは、教師あり学習による単一ステップの推論に焦点を当てており、ステップ間の論理的な依存関係を無視しています。
さらに、既存の強化学習 (RL) ベースの手法は構造化された関係を見落としており、構造化推論における RL の可能性を十分に活用していません。
この論文では、構造化された推論と説明を容易にするために構造ベースの収益を最大化する新しい手法である SEER を提案します。
私たちが提案する構造ベースのリターンは、構造化推論に固有の階層構造と分岐構造を正確に記述し、異なる推論ステップ間の複雑な関係を効果的に捉えます。
さらに、多様な推論ステップを細心の注意を払って描写するために、きめの細かい報酬関数を導入します。
広範な実験により、SEER は最先端の手法を大幅に上回っており、EntailmentBank では RL ベースの手法と比較して 6.9% の絶対的な向上を達成し、STREET ベンチマークでは平均 4.4% の向上を達成し、優れた効率とクロスデータセット汎化パフォーマンスを示していることが示されています。

要約(オリジナル)

Elucidating the reasoning process with structured explanations from question to answer is crucial, as it significantly enhances the interpretability, traceability, and trustworthiness of question-answering (QA) systems. However, structured explanations demand models to perform intricately structured reasoning, which poses great challenges. Most existing methods focus on single-step reasoning through supervised learning, ignoring logical dependencies between steps. Moreover, existing reinforcement learning (RL) based methods overlook the structured relationships, underutilizing the potential of RL in structured reasoning. In this paper, we propose SEER, a novel method that maximizes a structure-based return to facilitate structured reasoning and explanation. Our proposed structure-based return precisely describes the hierarchical and branching structure inherent in structured reasoning, effectively capturing the intricate relationships between different reasoning steps. In addition, we introduce a fine-grained reward function to meticulously delineate diverse reasoning steps. Extensive experiments show that SEER significantly outperforms state-of-the-art methods, achieving an absolute improvement of 6.9% over RL-based methods on EntailmentBank, a 4.4% average improvement on STREET benchmark, and exhibiting outstanding efficiency and cross-dataset generalization performance.

arxiv情報

著者 Guoxin Chen,Kexin Tang,Chao Yang,Fuying Ye,Yu Qiao,Yiming Qian
発行日 2024-02-16 14:16:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク