PINTO: Faithful Language Reasoning Using Prompt-Generated Rationales

要約

タイトル: PINTO: プロンプト生成レーショナルによる正確な言語推論
要約:
– 自然言語処理において、事前学習されたニューラル言語モデル(LM)によって、様々な言語推論タスクに対する印象的な結果が出ている。
– 近年の研究では、自由テキストのレーショナルを生成するためにLMの内部知識を取得し、同じLMまたは別個の推論LMによってガイドされたタスク予測を行うことで、この推論プロセスをより明確にすることが試みられている。
– しかし、レーショナル生成LMには、高価なレーショナル注釈や計算が必要であり、生成されたレーショナルがLMタスクのパフォーマンスを向上させたり、LMの意思決定を正確に反映しているという保証はない。
– 本研究では、プロンプトベースの学習によってレーショナルを合理化するLMパイプラインであるPINTOを提案している。
– PINTOは、タスク入力に対して適切な推論プロセスをマッピングするために、凍結したレーショナルLMに自由テキストのレーショナルを生成するようにプロンプトを与えます。
– 次に、PINTOの推論パフォーマンスは、生成されたレーショナルをコンテキストとして使用して、タスクを解決するために微調整され、レーショナルが摂動された場合はより自信がない予測を出力するように正則化されます。
– 4つのデータセットを対象に、PINTOが推論LMの汎化能力を大幅に向上させ、配布可能なテストセットと分布外のテストセットの両方で高いパフォーマンスを発揮することを示しています。
– また、PINTOのレーショナルは、競合するベースラインが生成するレーショナルよりも、タスク予測により忠実であることがわかりました。

要約(オリジナル)

Neural language models (LMs) have achieved impressive results on various language-based reasoning tasks by utilizing latent knowledge encoded in their own pretrained parameters. To make this reasoning process more explicit, recent works retrieve a rationalizing LM’s internal knowledge by training or prompting it to generate free-text rationales, which can be used to guide task predictions made by either the same LM or a separate reasoning LM. However, rationalizing LMs require expensive rationale annotation and/or computation, without any assurance that their generated rationales improve LM task performance or faithfully reflect LM decision-making. In this paper, we propose PINTO, an LM pipeline that rationalizes via prompt-based learning, and learns to faithfully reason over rationales via counterfactual regularization. First, PINTO maps out a suitable reasoning process for the task input by prompting a frozen rationalizing LM to generate a free-text rationale. Second, PINTO’s reasoning LM is fine-tuned to solve the task using the generated rationale as context, while regularized to output less confident predictions when the rationale is perturbed. Across four datasets, we show that PINTO significantly improves the generalization ability of the reasoning LM, yielding higher performance on both in-distribution and out-of-distribution test sets. Also, we find that PINTO’s rationales are more faithful to its task predictions than those generated by competitive baselines.

arxiv情報

著者 Peifeng Wang,Aaron Chan,Filip Ilievski,Muhao Chen,Xiang Ren
発行日 2023-04-06 23:49:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク