要約
大規模な事前トレーニング済み言語モデルの一般的な機能にもかかわらず、目的の動作をより適切に達成するためにさらなる適応を行うことで一貫して恩恵を受けます。
ただし、これらのモデルのチューニングはますますリソースを大量に消費するようになり、モデルの重みがプライベートである場合には不可能になります。
プロキシ チューニングを導入します。プロキシ チューニングは、ブラック ボックス LM 上で動作し、直接チューニングと同じ目的を達成する軽量のデコード時間アルゴリズムですが、パラメータではなく、出力ボキャブラリに対する予測のみにアクセスすることによって行われます。
私たちの方法では、より小規模な LM を調整し、その後、小規模な調整済み LM と調整されていない LM の予測の差を適用して、大規模な事前トレーニングの利点を維持しながら、より大きな未調整モデルの元の予測を調整の方向にシフトします。
実験では、わずか 7B サイズのプロキシを使用してプロキシ チューニングを Llama2-70B に適用すると、知識、推論、安全性ベンチマーク全体で評価した場合、Llama2-70B とその真に調整されたチャット バージョンとの間のギャップの 88% を埋めることができました。
。
次に、プロキシ チューニングをコードのドメイン適応に適用したり、質問応答や数学の問題でタスク固有の微調整を適用したりすることで、プロキシ チューニングの一般性を示します。
最後に、時間的適応のために真のブラックボックス LM、GPT-3.5 をプロキシ調整して、最近のイベントに関する知識を増やす方法を示します。
私たちの研究は、デコード時のガイダンスを通じて、小規模に調整された LM を使用して、独自の可能性がある大規模な LM を効率的にカスタマイズできることを実証しています。
要約(オリジナル)
Despite the general capabilities of large pretrained language models, they consistently benefit from further adaptation to better achieve desired behaviors. However, tuning these models has become increasingly resource-intensive, or impossible when model weights are private. We introduce proxy-tuning, a lightweight decoding-time algorithm that operates on top of black-box LMs to achieve the same end as direct tuning, but by accessing only its predictions over the output vocabulary, not its parameters. Our method tunes a smaller LM, then applies the difference between the predictions of the small tuned and untuned LMs to shift the original predictions of the larger untuned model in the direction of tuning, while retaining the benefits of larger-scale pretraining. In experiments, when we apply proxy-tuning to Llama2-70B using proxies of only 7B size, we can close 88% of the gap between Llama2-70B and its truly-tuned chat version, when evaluated across knowledge, reasoning, and safety benchmarks. We then demonstrate the generality of proxy-tuning by applying it to domain adaptation on code, and task-specific finetuning on question-answering and math problems. Finally, we show how to proxy-tune a truly black-box LM, GPT-3.5, for temporal adaptation, increasing its knowledge about recent events. Our work demonstrates the promise of using small tuned LMs to efficiently customize large, potentially proprietary LMs through decoding-time guidance.
arxiv情報
著者 | Alisa Liu,Xiaochuang Han,Yizhong Wang,Yulia Tsvetkov,Yejin Choi,Noah A. Smith |
発行日 | 2024-08-23 05:21:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google