In-context Vectors: Making In Context Learning More Effective and Controllable Through Latent Space Steering

要約

大規模言語モデル (LLM) は、デモンストレーション例に基づいて新しいタスクに適応する、新しいコンテキスト内学習機能を示します。
ただし、コンテキスト内学習は多くの設定で効果が限られており、定量的に制御することが難しく、コンテキスト ウィンドウのスペースを占有します。
これらの制限を克服するために、私たちはインコンテキスト学習をインコンテキスト ベクトル (ICV) として再構築する代替アプローチを提案します。
ICV を使用するには 2 つの手順があります。
まず、デモンストレーション例でフォワード パスを使用して、LLM の潜在的な埋め込みからコンテキスト内ベクトルを作成します。
このベクトルは、目的のタスクに関する重要な情報を取得します。
新しいクエリでは、プロンプトにデモンストレーションを追加する代わりに、ICV を使用して LLM の潜在状態をシフトします。
ICV アプローチにはいくつかの利点があります。1) LLM がデモンストレーションの例をより効果的に追跡できるようになります。
2) ICV の大きさを調整することで制御が簡単です。
3) コンテキスト内のデモンストレーションを削除することで、プロンプトの長さを短縮します。
4) ICV は、微調整よりも計算効率がはるかに優れています。
ICV は、安全性、スタイルの伝達、ロールプレイング、フォーマットなどのさまざまなタスクにおいて、標準的なコンテキスト内学習と微調整と比較して優れたパフォーマンスを実現することを実証します。
さらに、対応する ICV での単純なベクトル演算によって、LLM がさまざまな種類の命令に同時に従うように柔軟に教えることができることを示します。

要約(オリジナル)

Large language models (LLMs) demonstrate emergent in-context learning capabilities, where they adapt to new tasks based on example demonstrations. However, in-context learning has seen limited effectiveness in many settings, is difficult to quantitatively control and takes up context window space. To overcome these limitations, we propose an alternative approach that recasts in-context learning as in-context vectors (ICV). Using ICV has two steps. We first use a forward pass on demonstration examples to create the in-context vector from the latent embedding of the LLM. This vector captures essential information about the intended task. On a new query, instead of adding demonstrations to the prompt, we shift the latent states of the LLM using the ICV. The ICV approach has several benefits: 1) it enables the LLM to more effectively follow the demonstration examples; 2) it’s easy to control by adjusting the magnitude of the ICV; 3) it reduces the length of the prompt by removing the in-context demonstrations; 4) ICV is computationally much more efficient than fine-tuning. We demonstrate that ICV achieves better performance compared to standard in-context learning and fine-tuning on diverse tasks including safety, style transfer, role-playing and formatting. Moreover, we show that we can flexibly teach LLM to simultaneously follow different types of instructions by simple vector arithmetics on the corresponding ICVs.

arxiv情報

著者 Sheng Liu,Lei Xing,James Zou
発行日 2023-11-16 22:39:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク