要約
大規模言語モデル (LLM) は、特定の制約の下でコンテンツを生成するように求められると、問題が発生することがよくあります。
ただし、そのような場合、多くの場合、これらの制約が満たされているか、違反しているかを確認するのは簡単です。
最近の研究では、LLM がそのような「修正フィードバック」から恩恵を受けることができることが示されています。
ここで、LLM のこのスキルはトレーニングによって大幅に強化できると主張します。
インタラクション セッションをシミュレートし、制約を満たす能力に応じてモデルに報酬を与えることで、モデルにそのような報酬を使用するように教えるための RL フレームワークを導入します。
私たちはこの方法を CORGI (Controlled Generation with RL for Guided Interaction) と呼び、ラベルなしのトレーニング データを使用してさまざまな制御生成タスクで評価します。
CORGI は、会話によるフィードバックを組み込んでいないベースラインの強化学習方法よりも常に優れていることがわかりました。
さらに、CORGI の対話型フレームワークによりメタ学習が可能になり、LLM が新しいタスクにおけるガイド付き対話をより適切に一般化できるようになります。
私たちの結果は、会話の最適化を強化学習と組み合わせると、制御された生成コンテキストにおける LLM の有効性が大幅に向上することを明確に示しています。
要約(オリジナル)
Large Language Models (LLMs) often struggle when prompted to generate content under specific constraints. However, in such cases it is often easy to check whether these constraints are satisfied or violated. Recent works have shown that LLMs can benefit from such ‘corrective feedback’. Here we claim that this skill of LLMs can be significantly enhanced via training. We introduce an RL framework for teaching models to use such rewards, by simulating interaction sessions, and rewarding the model according to its ability to satisfy the constraints. We refer to our method as CORGI (Controlled Generation with RL for Guided Interaction), and evaluate it on a variety of controlled generation tasks using unlabeled training data. We find that CORGI consistently outperforms the baseline reinforcement learning method that does not incorporate conversational feedback. Furthermore, CORGI’s interactive framework enables meta-learning, allowing the LLM to generalize better to guided interaction in new tasks. Our results clearly show that conversational optimization, when combined with reinforcement learning, significantly improves the effectiveness of LLMs in controlled generation contexts.
arxiv情報
著者 | Liat Bezalel,Eyal Orgad,Amir Globerson |
発行日 | 2024-11-06 17:04:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google