Measuring and Controlling Instruction (In)Stability in Language Model Dialogs

要約

システム プロンプトは、言語モデル チャットボットをカスタマイズするための標準ツールであり、特定の指示に従うことができます。
システム プロンプトの使用における暗黙の前提は、プロンプトが安定しているため、チャットボットは会話中、規定の指示に従ってテキストを生成し続けることです。
私たちは、この仮定をテストするための定量的なベンチマークを提案し、2 つの指示されたチャットボット間のセルフチャットを介して指示の安定性を評価します。
LLaMA2-chat-70B や GPT-3.5 などの人気モデルをテストしたところ、8 ラウンドの会話内で大幅な指示のずれが明らかになりました。
この現象の経験的および理論的分析は、長い交換による注意力の減衰により、トランスフォーマーの注意力メカニズムが役割を果たすことを示唆しています。
注意力の減衰と命令のドリフトに対処するために、私たちは、2 つの強力なベースラインと比べて有利に比較できる、split-softmax と呼ばれる軽量な方法を提案します。

要約(オリジナル)

System-prompting is a standard tool for customizing language-model chatbots, enabling them to follow a specific instruction. An implicit assumption in the use of system prompts is that they will be stable, so the chatbot will continue to generate text according to the stipulated instructions for the duration of a conversation. We propose a quantitative benchmark to test this assumption, evaluating instruction stability via self-chats between two instructed chatbots. Testing popular models like LLaMA2-chat-70B and GPT-3.5, we reveal a significant instruction drift within eight rounds of conversations. An empirical and theoretical analysis of this phenomenon suggests the transformer attention mechanism plays a role, due to attention decay over long exchanges. To combat attention decay and instruction drift, we propose a lightweight method called split-softmax, which compares favorably against two strong baselines.

arxiv情報

著者 Kenneth Li,Tianle Liu,Naomi Bashkansky,David Bau,Fernanda Viégas,Hanspeter Pfister,Martin Wattenberg
発行日 2024-04-02 17:13:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク