Nevermind: Instruction Override and Moderation in Large Language Models

要約

最近の大規模言語モデル(Large Language Models: LLMs)の素晴らしい能力を考慮し、矛盾した状況(例えばオーバーライド)における明示的な命令に従うタスクについて、最も人気のあるプロプライエタリモデルと異なるサイズのオープンソースモデルを調査し、ベンチマークを行う。これらには、モデルの重み内の知識を上書きするモデルの能力、プロンプト内の抽出された知識を上書きする(または中程度にする)能力、そして最後に完全な脱獄を実行する能力が含まれる。より大きなモデルは、内部的な指示や文脈的な指示を上書きするような指示に従うことで、最高のパフォーマンスを発揮し、たとえ誤りであっても従順である。ロープスケーリングによってより長いコンテキストにスケーリングする場合、命令追従能力を維持するためには、当惑度の崖っぷちからかなりのバッファを維持する必要がある。最後に、命令追従の改善、ひいては命令の上書きや脱獄は、言語モデルが与えられた安全フィルタやガイドラインに従う能力と基本的に相反するものであることを観察する。したがって、安全で信頼できるAIのための最も効果的なアプローチは、LLM自体の外部で対処されるべきであると我々は仮定する。

要約(オリジナル)

Given the impressive capabilities of recent Large Language Models (LLMs), we investigate and benchmark the most popular proprietary and different sized open source models on the task of explicit instruction following in conflicting situations, e.g. overrides. These include the ability of the model to override the knowledge within the weights of the model, the ability to override (or moderate) extracted knowledge in the prompt, and lastly the ability to perform a full jailbreak. Experimentation performed suggest several key findings to improve instruction following – larger models perform the best in following instructions that override internal and contextual instructions, and are obedient, even to a fault. When scaling to longer contexts via rope scaling, a significant buffer needs to be maintained from the edge of the perplexity cliff in order to maintain instruction following capabilities. Finally, we observe improving instruction following, and subsequently instruction overrides/jailbreaks, is fundamentally at odds with the ability of a language model to follow given safety filters or guidelines. Thus, we postulate the most effective approach for safe, trustworthy AI should be dealt external to the LLM itself.

arxiv情報

著者 Edward Kim
発行日 2024-02-05 18:58:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク