Offline RL for Natural Language Generation with Implicit Language Q Learning

要約

タイトル:Implicit Language Q-learningを用いた自然言語生成のためのオフラインRL
要約:
– 大規模な言語モデルは、テキストコーパスから広範な知識を抽出できるが、ユーザー指定のタスクを完了する際に一貫性が欠けることがある。
– この問題には、キュレートされたデータセットでの教師あり学習によるファインチューニング、または強化学習を通じて対処できる。
– 本研究では、言語モデル用に設計された柔軟なユーティリティ最大化フレームワークであるRLアルゴリズムと、以前に収集されたデータを活用することができる教師あり学習の能力を組み合わせた、新しいオフラインRL方法である暗黙の言語Q学習(ILQL)を提案する。
– 本手法では、値の保守性と暗黙のデータセットサポート制約を組み合わせて、価値関数を学習し、ユーザー指定のユーティリティ関数を最大化する言語モデルの生成をガイドする。
– ILQLを実証し、オフラインRLが自然言語生成の設定でどのように有用であるかについて詳細な実証分析を提示する。また、エンドツーエンドの対話において先行手法よりも効果的なユーティリティ最適化手法であり、毒性の有無を判定するなどの主観的な報酬関数を効果的に最適化することができることを示す。

要約(オリジナル)

Large language models distill broad knowledge from text corpora. However, they can be inconsistent when it comes to completing user specified tasks. This issue can be addressed by finetuning such models via supervised learning on curated datasets, or via reinforcement learning. In this work, we propose a novel offline RL method, implicit language Q-learning (ILQL), designed for use on language models, that combines both the flexible utility maximization framework of RL algorithms with the ability of supervised learning to leverage previously collected data, as well as its simplicity and stability. Our method employs a combination of value conservatism alongside an implicit dataset support constraint in learning value functions, which are then used to guide language model generations towards maximizing user-specified utility functions. In addition to empirically validating ILQL, we present a detailed empirical analysis of situations where offline RL can be useful in natural language generation settings, demonstrating how it can be a more effective utility optimizer than prior approaches for end-to-end dialogue, and how it can effectively optimize high variance reward functions based on subjective judgement, such as whether to label a comment as toxic or not.

arxiv情報

著者 Charlie Snell,Ilya Kostrikov,Yi Su,Mengjiao Yang,Sergey Levine
発行日 2023-05-01 04:42:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.LG パーマリンク