Automatically Auditing Large Language Models via Discrete Optimization

要約

大規模な言語モデルを監査して予期しない動作を検出することは、壊滅的な展開を未然に防ぐために重要ですが、依然として課題です。
この作業では、監査を最適化の問題としてキャストし、目的のターゲット動作に一致する入出力のペアを自動的に検索します。
たとえば、モデルが有毒な出力にマッピングされる「バラク・オバマ」で始まる無毒な入力を見つけることを目指す場合があります。
この最適化問題は、実行可能な点のセットがまばらで、空間が離散的であり、監査対象の言語モデルが非線形で高次元であるため、解決が困難です。
これらの課題に対処するために、入力と出力を共同で効率的に最適化する離散最適化アルゴリズム、ARCA を導入します。
私たちのアプローチは、有名人に関する軽蔑的な補完を自動的に発見し (例えば、「バラク・オバマは合法化された胎児です」->「児童殺人者」)、英語の出力を補完するフランス語の入力を生成し、特定の名前を生成する入力を見つけます。
私たちの仕事は、展開前にモデルの障害モードを明らかにするための有望な新しいツールを提供します。

要約(オリジナル)

Auditing large language models for unexpected behaviors is critical to preempt catastrophic deployments, yet remains challenging. In this work, we cast auditing as an optimization problem, where we automatically search for input-output pairs that match a desired target behavior. For example, we might aim to find a non-toxic input that starts with ‘Barack Obama’ that a model maps to a toxic output. This optimization problem is difficult to solve as the set of feasible points is sparse, the space is discrete, and the language models we audit are non-linear and high-dimensional. To combat these challenges, we introduce a discrete optimization algorithm, ARCA, that jointly and efficiently optimizes over inputs and outputs. Our approach automatically uncovers derogatory completions about celebrities (e.g. ‘Barack Obama is a legalized unborn’ -> ‘child murderer’), produces French inputs that complete to English outputs, and finds inputs that generate a specific name. Our work offers a promising new tool to uncover models’ failure-modes before deployment.

arxiv情報

著者 Erik Jones,Anca Dragan,Aditi Raghunathan,Jacob Steinhardt
発行日 2023-03-08 05:09:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク