要約
このノートでは、コンテキスト内学習による推論時間の調整について探ります。
微調整する前にバニラの事前トレーニング済み言語モデル Llama-2 を検討し、モデルがチャット形式の指示に従うように求められたときに平均 9 個のデモンストレーション調整例を取得します。
直接プロンプトと比較して、モデルの重みを変更せずにコンテキスト内の調整を行うと、合計で勝率が 7 倍増加します。
OpenAI の text-davinci-003 モデルを使用すると、バニラ言語モデルが調整の微調整を備えた強力なベースラインに匹敵します。
要約(オリジナル)
In this note, we explore inference-time alignment through in-context learning. We consider a vanilla pretrained language model Llama-2 before any fine-tuning and retrieve an average of 9 demonstration alignment examples when the model is prompted to follow chat-style instructions. Compared to direct prompting, the in-context alignment without changing model weights leads to a 7x increase in win-rate w.r.t. the text-davinci-003 model from OpenAI, making the vanilla language model comparable to strong baselines with alignment fine-tuning.
arxiv情報
著者 | Xiaochuang Han |
発行日 | 2023-08-08 14:17:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google