Reward Engineering for Generating Semi-structured Explanation

要約

半構造化説明は、推論者の暗黙的なプロセスを明示的な表現で表します。
この説明では、特定のクエリで利用可能な情報が、答えを生成するために推論器がその内部重みから生成する情報でどのように補足されるかを強調しています。
言語モデルの生成能力は最近向上しましたが、モデルの真の推論能力を検証するための構造化された説明を作成することは依然として課題です。
この問題は、推論者が正しい提示と正しい推論プロセスの両方を具体化する構造化された説明と連続的な回答を組み合わせることが期待されるため、それほど大規模ではない LM で特に顕著です。
この研究では、まずこの課題に取り組む際の教師あり微調整 (SFT) の限界を強調し、次にこの問題にうまく対処するために強化学習 (RL) に注意深く作成された報酬エンジニアリング手法を導入します。
私たちは複数の報酬集計方法を調査し、将来の研究における RL の有望な可能性を明らかにする詳細な議論を提供します。
2 つの半構造化説明生成ベンチマーク (ExplaGraph と COPA-SSE) で提案した報酬は、新しい最先端の結果を達成しました。

要約(オリジナル)

Semi-structured explanation depicts the implicit process of a reasoner with an explicit representation. This explanation highlights how available information in a specific query is supplemented with information a reasoner produces from its internal weights towards generating an answer. Despite the recent improvements in generative capabilities of language models, producing structured explanations to verify model’s true reasoning capabilities remains a challenge. This issue is particularly pronounced for not-so-large LMs, as the reasoner is expected to couple a sequential answer with a structured explanation which embodies both the correct presentation and the correct reasoning process. In this work, we first underscore the limitations of supervised fine-tuning (SFT) in tackling this challenge, and then introduce a carefully crafted reward engineering method in reinforcement learning (RL) to better address this problem. We investigate multiple reward aggregation methods and provide a detailed discussion which sheds light on the promising potential of RL for future research. Our proposed reward on two semi-structured explanation generation benchmarks (ExplaGraph and COPA-SSE) achieves new state-of-the-art results.

arxiv情報

著者 Jiuzhou Han,Wray Buntine,Ehsan Shareghi
発行日 2023-09-15 12:10:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク