REFINER: Reasoning Feedback on Intermediate Representations

要約

【タイトル】REFINER:中間表現に対する推論フィードバック
【要約】
・言語モデル(LMs)は、中間推論(例えば、思考連鎖プロンプティング)を明示的に生成することにより、最近推論タスクで驚異的なパフォーマンスを示しています。
・しかし、これらの中間推論ステップは、初期コンテキストから不適切な推論を行い、最終的な予測を誤らせる可能性があります。
・本研究では、「REFINER」というフレームワークを紹介しています。これは、自動フィードバックを提供する批評者モデルと相互作用しながら、LMをfine-tuningして中間推論ステップを明示的に生成するためのものです。
・具体的には、批評者は構造化されたフィードバックを提供し、推論LMが中間引数を反復して改善するために使用します。
・3つの異なる推論タスクでのREFINERの実証評価は、比較可能なスケールのベースラインLMに比べて、有意な改善が示されています。
・さらに、理由付けにGPT3.5を使用する場合、fine-tuningなしで訓練された批評者が推論を大幅に向上させます。
・最後に、批評者モデルは、人間を介したデータなしで訓練されますが、推論時には人間に置き換えることができます。

要約(オリジナル)

Language models (LMs) have recently shown remarkable performance on reasoning tasks by explicitly generating intermediate inferences, e.g., chain-of-thought prompting. However, these intermediate inference steps may be inappropriate deductions from the initial context and lead to incorrect final predictions. Here we introduce REFINER, a framework for finetuning LMs to explicitly generate intermediate reasoning steps while interacting with a critic model that provides automated feedback on the reasoning. Specifically, the critic provides structured feedback that the reasoning LM uses to iteratively improve its intermediate arguments. Empirical evaluations of REFINER on three diverse reasoning tasks show significant improvements over baseline LMs of comparable scale. Furthermore, when using GPT3.5 as the reasoner, the trained critic significantly improves reasoning without finetuning the reasoner. Finally, our critic model is trained without expensive human-in-the-loop data but can be substituted with humans at inference time.

arxiv情報

著者 Debjit Paul,Mete Ismayilzada,Maxime Peyrard,Beatriz Borges,Antoine Bosselut,Robert West,Boi Faltings
発行日 2023-04-04 15:57:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク