Learning to Generate Better Than Your LLM

要約

強化学習 (RL) は、テキスト生成用の大規模言語モデル (LLM) を微調整するための強力なパラダイムとして登場しました。
特に、ChatGPT や GPT-4 などの最近の LLM は、RL で微調整した後、ユーザーと流暢な会話を行うことができます。
テキスト生成の重要な特性を利用して、近接ポリシー最適化 (PPO) のような汎用アルゴリズムを超えた RL アルゴリズムの調査を目指しています。
特に、動的ブラックボックス ガイド LLM と対話できるように RL アルゴリズムを拡張し、LLM 微調整用の RL アルゴリズムのスイートであるガイド付きフィードバック付き RL (RLGF) を提案します。
ガイド LLM が報酬を最大化するために最適化される LLM と対話する 2 つの方法を提供します。
ガイド LLM は、RL 最適化手順の追加の開始状態として機能するテキストを生成できます。
ガイド LLM は、最適化中の LLM によって生成された部分的な文を完成させるために使用することもでき、ガイド LLM を模倣し、最終的には超える専門家として扱います。
IMDB の肯定的なセンチメント、CommonGen、および TL;DR 要約タスクを実験します。
RL アルゴリズムが教師あり学習 (SL) および RL ベースライン PPO よりも高いパフォーマンスを達成することを示し、ガイド LLM との相互作用の利点を示します。
CommonGen と TL;DR の両方で、SL ベースラインを上回っただけでなく、最適化した基準を超えてさまざまな指標にわたって PPO も改善しました。
私たちのコードは https://github.com/Cornell-RL/tril にあります。

要約(オリジナル)

Reinforcement learning (RL) has emerged as a powerful paradigm for fine-tuning Large Language Models (LLMs) for text generation. In particular, recent LLMs such as ChatGPT and GPT-4 can engage in fluent conversations with users after finetuning with RL. Capitalizing on key properties of text generation, we seek to investigate RL algorithms beyond general purpose algorithms like Proximal Policy Optimization (PPO). In particular, we extend RL algorithms to allow them to interact with a dynamic black-box guide LLM and propose RL with guided feedback (RLGF), a suite of RL algorithms for LLM fine-tuning. We provide two ways for the guide LLM to interact with the LLM to be optimized for maximizing rewards. The guide LLM can generate text which serves as additional starting states for the RL optimization procedure. The guide LLM can also be used to complete the partial sentences generated by the LLM that is being optimized, treating the guide LLM as an expert to imitate and surpass eventually. We experiment on the IMDB positive sentiment, CommonGen, and TL;DR summarization tasks. We show that our RL algorithms achieve higher performance than supervised learning (SL) and the RL baseline PPO, demonstrating the benefit of interaction with the guide LLM. On both CommonGen and TL;DR, we not only outperform our SL baselines but also improve upon PPO across a variety of metrics beyond the one we optimized for. Our code can be found at https://github.com/Cornell-RL/tril.

arxiv情報

著者 Jonathan D. Chang,Kiante Brantley,Rajkumar Ramamurthy,Dipendra Misra,Wen Sun
発行日 2023-11-13 18:51:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク