Discovering Forbidden Topics in Language Models

要約

拒否の発見とは、言語モデルが議論することを拒否する一連のトピックを特定するタスクです。
この新しい問題の設定を導入し、拒否の発見方法を開発しました。PrefillCrawler(IPC)は、禁止されたトピックを見つけるためにトークンのプリリングを使用しています。
公共の安全調整データを備えたオープンソースモデルであるTulu-3-8BでIPCをベンチマークします。
クローラーは、1000のプロンプトの予算内で36のトピック中31を取得することができます。
次に、Claude-Haikuの登録オプションを使用して、クローラーをフロンティアモデルに拡張します。
最後に、広く使用されている3つのオープンウェイトモデルをクロールします:Llama-3.3-70bとそのバリアントの2つは、推論のために微調整されています:Deepseek-R1-70BおよびPerplexity-R1-1776-70B。
DeepSeek-R1-70Bは、検閲の調整と一致するパターンを明らかにします。モデルは、CCPに整列した応答の記憶を示す「思考抑制」行動を示しています。
Perplexity-R1-1776-70Bは検閲に対して堅牢ですが、IPCは量子化されたモデルでCCPに整列した拒否の回答を引き出します。
私たちの調査結果は、AIシステムのバイアス、境界、およびアライメント障害を検出する拒否発見方法の重要な必要性を強調しています。

要約(オリジナル)

Refusal discovery is the task of identifying the full set of topics that a language model refuses to discuss. We introduce this new problem setting and develop a refusal discovery method, Iterated Prefill Crawler (IPC), that uses token prefilling to find forbidden topics. We benchmark IPC on Tulu-3-8B, an open-source model with public safety tuning data. Our crawler manages to retrieve 31 out of 36 topics within a budget of 1000 prompts. Next, we scale the crawler to a frontier model using the prefilling option of Claude-Haiku. Finally, we crawl three widely used open-weight models: Llama-3.3-70B and two of its variants finetuned for reasoning: DeepSeek-R1-70B and Perplexity-R1-1776-70B. DeepSeek-R1-70B reveals patterns consistent with censorship tuning: The model exhibits ‘thought suppression’ behavior that indicates memorization of CCP-aligned responses. Although Perplexity-R1-1776-70B is robust to censorship, IPC elicits CCP-aligned refusals answers in the quantized model. Our findings highlight the critical need for refusal discovery methods to detect biases, boundaries, and alignment failures of AI systems.

arxiv情報

著者 Can Rager,Chris Wendler,Rohit Gandikota,David Bau
発行日 2025-06-11 16:52:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク