要約
強化学習 (RL) は、条件付きテキスト生成のために大規模言語モデル (LLM) を微調整するための強力なパラダイムとして登場しました。
特に、ChatGPT や GPT-4 などの最近の LLM は、RL と人間からのフィードバックを組み込むことで、ユーザーと流暢な会話を行うことができます。
私たちは、検索学習アルゴリズムに触発され、テキスト生成の重要な特性を利用して、近接ポリシー最適化 (PPO) などの汎用アルゴリズムを超えた強化学習アルゴリズムの研究を目指しています。
特に、GPT-3 などの動的なブラックボックス ガイド LLM と対話できるように RL アルゴリズムを拡張し、LLM 微調整用の RL アルゴリズムのスイートであるガイド付きフィードバック付き RL (RLGF) を提案します。
IMDB のポジティブ レビューと、GRUE ベンチマークからの CommonGen テキスト生成タスクを実験します。
RL アルゴリズムが教師あり学習 (SL) およびデフォルトの PPO ベースラインよりも高いパフォーマンスを達成することを示し、ガイド LLM との相互作用の利点を示します。
CommonGen では、SL ベースラインを上回っているだけでなく、最適化した基準を超えて、さまざまな語彙的および意味論的なメトリクスにわたって PPO を超えて改善しています。
特に、IMDB データセットでは、GPT-2 ベースのポリシーがゼロショット GPT-3 オラクルよりも優れていることが示されており、これは、アルゴリズムが、よりシンプルで安価な強力なブラックボックス GPT-3 オラクルから学習できることを示しています。
パフォーマンスを向上させながら一般公開されている GPT-2 モデル。
要約(オリジナル)
Reinforcement learning (RL) has emerged as a powerful paradigm for fine-tuning Large Language Models (LLMs) for conditional text generation. In particular, recent LLMs such as ChatGPT and GPT-4 can engage in fluent conversations with users by incorporating RL and feedback from humans. Inspired by learning-to-search algorithms and capitalizing on key properties of text generation, we seek to investigate reinforcement learning algorithms beyond general purpose algorithms such as Proximal policy optimization (PPO). In particular, we extend RL algorithms to allow them to interact with a dynamic black-box guide LLM such as GPT-3 and propose RL with guided feedback (RLGF), a suite of RL algorithms for LLM fine-tuning. We experiment on the IMDB positive review and CommonGen text generation task from the GRUE benchmark. We show that our RL algorithms achieve higher performance than supervised learning (SL) and default PPO baselines, demonstrating the benefit of interaction with the guide LLM. On CommonGen, we not only outperform our SL baselines but also improve beyond PPO across a variety of lexical and semantic metrics beyond the one we optimized for. Notably, on the IMDB dataset, we show that our GPT-2 based policy outperforms the zero-shot GPT-3 oracle, indicating that our algorithms can learn from a powerful, black-box GPT-3 oracle with a simpler, cheaper, and publicly available GPT-2 model while gaining performance.
arxiv情報
著者 | Jonathan D. Chang,Kiante Brantley,Rajkumar Ramamurthy,Dipendra Misra,Wen Sun |
発行日 | 2023-06-20 18:19:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google