要約
LLM は、多くの場合、競合するプレッシャー (有用性と無害性など) に直面します。
モデルがそのような競合をどのように解決するかを理解するために、禁止された事実タスクに関する Llama-2-chat モデルを研究します。
具体的には、ラマ-2 に正しい答えを言うことを禁止しながら、事実に基づく想起ステートメントを誠実に完了するように指示します。
これにより、モデルが誤った答えを返すことがよくあります。
私たちは Llama-2 を 1000 以上のコンポーネントに分解し、正解を禁止するのにどれだけ役立つかに関して各コンポーネントをランク付けします。
完全な抑制動作を確実に実装するには、合計で約 35 個のコンポーネントで十分であることがわかりました。
ただし、これらのコンポーネントはかなり異種混合であり、多くは欠陥のあるヒューリスティックを使用して動作します。
これらのヒューリスティックの 1 つが、カリフォルニア攻撃と呼ばれる手動で設計された敵対的攻撃を介して悪用される可能性があることを発見しました。
私たちの結果は、高度な ML システムを正常に解釈することを妨げるいくつかの障害を浮き彫りにしました。
プロジェクトの Web サイトは https://forbiddenfacts.github.io から入手できます。
要約(オリジナル)
LLMs often face competing pressures (for example helpfulness vs. harmlessness). To understand how models resolve such conflicts, we study Llama-2-chat models on the forbidden fact task. Specifically, we instruct Llama-2 to truthfully complete a factual recall statement while forbidding it from saying the correct answer. This often makes the model give incorrect answers. We decompose Llama-2 into 1000+ components, and rank each one with respect to how useful it is for forbidding the correct answer. We find that in aggregate, around 35 components are enough to reliably implement the full suppression behavior. However, these components are fairly heterogeneous and many operate using faulty heuristics. We discover that one of these heuristics can be exploited via a manually designed adversarial attack which we call The California Attack. Our results highlight some roadblocks standing in the way of being able to successfully interpret advanced ML systems. Project website available at https://forbiddenfacts.github.io .
arxiv情報
著者 | Tony T. Wang,Miles Wang,Kaivu Hariharan,Nir Shavit |
発行日 | 2023-12-14 10:27:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google