Fundamental Limitations of Alignment in Large Language Models

要約

タイトル:大規模言語モデルにおけるアラインメントの根本的限界

要約:

– 人間と相互作用する言語モデルを開発する際に大切な点は、その振る舞いが人間の利益にかなうようになっていることである。
– アラインメントと呼ばれるプロセスを通じて、言語モデルの望ましい振る舞いを促進し、望ましくない振る舞いを防ぐ方法がある。
– この論文では、振る舞い期待値(BEB)という理論的なアプローチを提案し、大規模言語モデルにおけるアラインメントのいくつかの本質的な特徴や制限を形式的に調査することができる。
– 重要なことに、モデルが発生する確率が有限である任意の振る舞いに対して、その振る舞いを引き起こすことができるプロンプトが存在し、プロンプトの長さに比例してその確率が増加することを証明している。
– これは、不要な振る舞いを減らすが、完全に排除しないアラインメントプロセスは、敵対的なプロンプト攻撃に対して安全ではないことを意味する。
– さらに、人間のフィードバックからの強化学習など、主要なアラインメント手法が言語モデルの不要な振る舞いを引き起こす原因が解明される。
– また、私たちはBEBフレームワークに「ペルソナ」という概念を導入し、モデルが一般的に発生しないとされる振る舞いが、特定のペルソナとして振る舞うことを促すことで前面に出ることができることがわかった。
– この理論的結果は、「chatGPT jailbreaks」と呼ばれる現代の大規模実験で実証されており、敵対的なユーザーが言語モデルを悪意のあるペルソナとして動作させ、アラインメントのガードレールを破壊することが可能であることを示している。
– 結果として、言語モデルのアラインメントには根本的な限界があることが明らかになり、AIの安全性を確保するために信頼性の高いメカニズムを開発する必要性がある。

要約(オリジナル)

An important aspect in developing language models that interact with humans is aligning their behavior to be useful and unharmful for their human users. This is usually achieved by tuning the model in a way that enhances desired behaviors and inhibits undesired ones, a process referred to as alignment. In this paper, we propose a theoretical approach called Behavior Expectation Bounds (BEB) which allows us to formally investigate several inherent characteristics and limitations of alignment in large language models. Importantly, we prove that for any behavior that has a finite probability of being exhibited by the model, there exist prompts that can trigger the model into outputting this behavior, with probability that increases with the length of the prompt. This implies that any alignment process that attenuates undesired behavior but does not remove it altogether, is not safe against adversarial prompting attacks. Furthermore, our framework hints at the mechanism by which leading alignment approaches such as reinforcement learning from human feedback increase the LLM’s proneness to being prompted into the undesired behaviors. Moreover, we include the notion of personas in our BEB framework, and find that behaviors which are generally very unlikely to be exhibited by the model can be brought to the front by prompting the model to behave as specific persona. This theoretical result is being experimentally demonstrated in large scale by the so called contemporary ‘chatGPT jailbreaks’, where adversarial users trick the LLM into breaking its alignment guardrails by triggering it into acting as a malicious persona. Our results expose fundamental limitations in alignment of LLMs and bring to the forefront the need to devise reliable mechanisms for ensuring AI safety.

arxiv情報

著者 Yotam Wolf,Noam Wies,Yoav Levine,Amnon Shashua
発行日 2023-04-19 17:50:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CL パーマリンク