Inference-Time Policy Adapters (IPA): Tailoring Extreme-Scale LMs without Fine-tuning

要約

極端なスケールの言語モデルはさまざまな言語タスクで優れたパフォーマンスを示していますが、純粋なプロンプトによるこれらの言語モデルの制御の程度は制限されることがよくあります。
このような言語モデルを直接微調整することは、それらを調整するのに効果的ですが、非常にコストがかかる場合 (GPT-3 など)、またはより広範なコミュニティでは実現不可能である場合もあります (GPT-4 など)。
私たちは、GPT-3 などの言語モデルを微調整することなく効率的に調整する推論時ポリシー アダプター (IPA) を提案します。
IPA は、強化学習を使用して任意のユーザー目標を最適化するようにトレーニングされた軽量のポリシー アダプターを通じて、デコード中に大規模な基本モデルをガイドします。
有害性の軽減や語彙的に制約された生成など、5 つの困難なテキスト生成タスクに関して、IPA は既製の言語モデルに比べて大幅な改善を一貫してもたらしています。
これは、場合によっては高価な微調整を含めて、競合するベースライン手法よりも優れたパフォーマンスを発揮します。
特に、IPA を使用して GPT-2 を調整すると GPT-3 よりも優れたパフォーマンスが得られますが、IPA を使用して GPT-3 を調整すると、GPT-3 よりも (場合によっては GPT-4 よりも) パフォーマンスが大幅に向上します。
私たちの有望な結果は、極端なスケールの言語モデルを調整するための軽量の代替手段としての IPA の可能性を強調しています。

要約(オリジナル)

While extreme-scale language models have demonstrated exceptional performance on a variety of language tasks, the degree of control over these language models through pure prompting can often be limited. Directly fine-tuning such language models can be effective for tailoring them, but it can be either extremely costly (e.g., GPT-3) or not even feasible for the broader community (e.g., GPT-4). We propose Inference-time Policy Adapters (IPA), which efficiently tailors a language model such as GPT-3 without fine-tuning it. IPA guides a large base model during decoding time through a lightweight policy adapter trained to optimize an arbitrary user objective with reinforcement learning. On five challenging text generation tasks, such as toxicity reduction and lexically constrained generation, IPA consistently brings significant improvements over off-the-shelf language models. It outperforms competitive baseline methods, sometimes even including expensive fine-tuning. In particular, tailoring GPT-2 with IPA can outperform GPT-3, while tailoring GPT-3 with IPA brings a major performance boost over GPT-3 (and sometimes even over GPT-4). Our promising results highlight the potential of IPA as a lightweight alternative to tailoring extreme-scale language models.

arxiv情報

著者 Ximing Lu,Faeze Brahman,Peter West,Jaehun Jang,Khyathi Chandu,Abhilasha Ravichander,Lianhui Qin,Prithviraj Ammanabrolu,Liwei Jiang,Sahana Ramnath,Nouha Dziri,Jillian Fisher,Bill Yuchen Lin,Skyler Hallinan,Xiang Ren,Sean Welleck,Yejin Choi
発行日 2023-12-06 09:00:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク