RL4F: Generating Natural Language Feedback with Reinforcement Learning for Repairing Model Outputs

要約

前例のない成功にもかかわらず、最大の言語モデルでも間違いはあります。
人間がフィードバックを使用して学習し改善する方法と同様に、以前の研究では、出力を修復する際のガイドとなる自然言語フィードバックを備えた言語モデルを提供することが提案されていました。
人間が生成した批評は入手にコストがかかるため、研究者は、生成されたフィードバックを利用するように下流モデルをトレーニングできると想定しながら、人間の批評の代わりに学習された批評ジェネレーターを考案しました。
ただし、このアプローチは、微調整できないため、ChatGPT などのブラックボックス モデルやアクセスが制限されたモデルには適用されません。
さらに、大規模な汎用言語エージェントの時代では、ネットワークの複数のコピーが作成されるため、微調整は計算的にも空間的にも効率的ではありません。
この研究では、マルチエージェント協調フレームワークである RL4F (フィードバックのための強化学習) を導入します。このフレームワークでは、200 倍を超えるサイズの固定モデルである GPT-3 のエンドタスクのパフォーマンスを最大化するように批評ジェネレーターがトレーニングされます。
RL4F は、GPT-3 がその成果を改訂するのに役立つ批評を作成します。
私たちは、行動計画、要約、およびアルファベット順化のための 3 つのデータセットを研究し、他の学習型、検索強化型、またはプロンプトベースの批評ジェネレーターと比較して、複数のテキスト類似性メトリックにおいて最大 10% の相対的な改善を示しました。

要約(オリジナル)

Despite their unprecedented success, even the largest language models make mistakes. Similar to how humans learn and improve using feedback, previous work proposed providing language models with natural language feedback to guide them in repairing their outputs. Because human-generated critiques are expensive to obtain, researchers have devised learned critique generators in lieu of human critics while assuming one can train downstream models to utilize generated feedback. However, this approach does not apply to black-box or limited access models such as ChatGPT, as they cannot be fine-tuned. Moreover, in the era of large general-purpose language agents, fine-tuning is neither computationally nor spatially efficient as it results in multiple copies of the network. In this work, we introduce RL4F (Reinforcement Learning for Feedback), a multi-agent collaborative framework where the critique generator is trained to maximize end-task performance of GPT-3, a fixed model more than 200 times its size. RL4F produces critiques that help GPT-3 revise its outputs. We study three datasets for action planning, summarization and alphabetization and show relative improvements up to 10% in multiple text similarity metrics over other learned, retrieval-augmented or prompting-based critique generators.

arxiv情報

著者 Afra Feyza Akyürek,Ekin Akyürek,Aman Madaan,Ashwin Kalyan,Peter Clark,Derry Wijaya,Niket Tandon
発行日 2023-07-11 18:29:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク