In-Context Alignment: Chat with Vanilla Language Models Before Fine-Tuning

要約

このノートでは、コンテキスト内学習による推論時間の調整について探ります。
微調整する前にバニラの事前トレーニング済み言語モデル Llama-2 を検討し、モデルがチャット形式の指示に従うように求められたときに平均 9 個のデモンストレーション調整例を取得します。
直接プロンプトと比較して、モデルの重みを変更せずにコンテキスト内の調整を行うと、合計で勝率が 7 倍増加します。
OpenAI の text-davinci-003 モデルを使用すると、バニラ言語モデルが調整の微調整を備えた強力なベースラインに匹敵します。

要約(オリジナル)

In this note, we explore inference-time alignment through in-context learning. We consider a vanilla pretrained language model Llama-2 before any fine-tuning and retrieve an average of 9 demonstration alignment examples when the model is prompted to follow chat-style instructions. Compared to direct prompting, the in-context alignment without changing model weights leads to a 7x increase in win-rate w.r.t. the text-davinci-003 model from OpenAI, making the vanilla language model comparable to strong baselines with alignment fine-tuning.

arxiv情報

著者 Xiaochuang Han
発行日 2023-08-08 14:17:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク