要約
タスク固有の報酬関数を最大化するために事前トレーニングされた言語モデルを適応させる Q プロービングと呼ばれるアプローチを紹介します。
高いレベルでは、Q プローブは微調整などのより重いアプローチと、少数のショット プロンプトなどのより軽いアプローチの間に位置しますが、どちらかと組み合わせることもできます。
アイデアは、候補の補完の重み付けを変更するために使用できる、モデルの埋め込み空間に関する単純な線形関数を学習することです。
理論的には、このサンプリング手順は、サンプル数の増加に伴う Q プローブの KL 制約最大化と同等であることを示します。
Q プローブをトレーニングするために、報酬モデリング、または重要度で重み付けされた政策勾配に基づく新しい直接政策学習目標のクラスのいずれかを検討します。
この手法を使用すると、グラウンドトゥルースの報酬 (コード生成) と嗜好データによって定義される暗黙的な報酬を備えたドメインで利益が得られ、データが限られた領域での微調整を上回るパフォーマンスが得られます。
さらに、Q プローブはサンプリングと埋め込みへのアクセスのみを想定しているため、API 上でトレーニングできます。
コード: https://github.com/likenneth/q_probe 。
要約(オリジナル)
We present an approach called Q-probing to adapt a pre-trained language model to maximize a task-specific reward function. At a high level, Q-probing sits between heavier approaches such as finetuning and lighter approaches such as few shot prompting, but can also be combined with either. The idea is to learn a simple linear function on a model’s embedding space that can be used to reweight candidate completions. We theoretically show that this sampling procedure is equivalent to a KL-constrained maximization of the Q-probe as the number of samples increases. To train the Q-probes we consider either reward modeling or a class of novel direct policy learning objectives based on importance weighted policy gradients. With this technique, we see gains in domains with ground-truth rewards (code generation) as well as implicit rewards defined by preference data, even outperforming finetuning in data-limited regimes. Moreover, a Q-probe can be trained on top of an API since it only assumes access to sampling and embeddings. Code: https://github.com/likenneth/q_probe .
arxiv情報
著者 | Kenneth Li,Samy Jelassi,Hugh Zhang,Sham Kakade,Martin Wattenberg,David Brandfonbrener |
発行日 | 2024-02-22 16:43:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google