HiddenGuard: Fine-Grained Safe Generation with Specialized Representation Router

要約

大規模言語モデル(LLM)がますます強力になるにつれて、その安全性と人間の価値観との整合性を確保することが重要な課題となっている。理想的には、LLMは有害な情報や機微な情報の開示を避けながら、有益な応答を提供すべきである。しかし、有害なプロンプトを完全に拒否するようにモデルを訓練したり、粗いフィルタを適用したりするなど、拒否戦略に大きく依存する現在のアライメントアプローチは、その二項対立的な性質によって制限されている。これらの方法は、情報へのアクセスを完全に拒否するか、十分なニュアンスなしに許可するかのどちらかであり、過度に慎重な応答や微妙な有害コンテンツの検出の失敗につながる。例えば、LLMは誤用の懸念から、薬に関する基本的な公開情報の提供を拒否することがある。さらに、これらの拒否ベースの方法は、混合コンテンツのシナリオを処理するのに苦労し、文脈に依存する感受性に適応する能力を欠いているため、良性のコンテンツを過剰に検閲してしまう可能性がある。これらの課題を克服するために、LLMにおけるきめ細かく安全な生成のための新しいフレームワークであるHiddenGuardを紹介する。HiddenGuardはPrism (rePresentation Router for In-Stream Moderation)を組み込んでおり、LLMと並行して動作し、中間的な隠された状態を活用することで、リアルタイムのトークン・レベルでの有害コンテンツの検出と再編集を可能にする。このきめ細かなアプローチにより、よりニュアンスに富んだ、文脈を考慮したモデレーションが可能になり、モデルが、明白な拒否ではなく、センシティブな情報を選択的に再編集または置換しながら、有益な応答を生成することができる。また、多様なコンテキストにおける潜在的に有害な情報のトークン・レベルのきめ細かいアノテーションを含む包括的なデータセットも提供する。我々の実験により、HiddenGuardは、モデルの応答の全体的な有用性と情報性を維持しながら、有害なコンテンツの検出と再編集において90%以上のF1スコアを達成することが実証された。

要約(オリジナル)

As Large Language Models (LLMs) grow increasingly powerful, ensuring their safety and alignment with human values remains a critical challenge. Ideally, LLMs should provide informative responses while avoiding the disclosure of harmful or sensitive information. However, current alignment approaches, which rely heavily on refusal strategies, such as training models to completely reject harmful prompts or applying coarse filters are limited by their binary nature. These methods either fully deny access to information or grant it without sufficient nuance, leading to overly cautious responses or failures to detect subtle harmful content. For example, LLMs may refuse to provide basic, public information about medication due to misuse concerns. Moreover, these refusal-based methods struggle to handle mixed-content scenarios and lack the ability to adapt to context-dependent sensitivities, which can result in over-censorship of benign content. To overcome these challenges, we introduce HiddenGuard, a novel framework for fine-grained, safe generation in LLMs. HiddenGuard incorporates Prism (rePresentation Router for In-Stream Moderation), which operates alongside the LLM to enable real-time, token-level detection and redaction of harmful content by leveraging intermediate hidden states. This fine-grained approach allows for more nuanced, context-aware moderation, enabling the model to generate informative responses while selectively redacting or replacing sensitive information, rather than outright refusal. We also contribute a comprehensive dataset with token-level fine-grained annotations of potentially harmful information across diverse contexts. Our experiments demonstrate that HiddenGuard achieves over 90% in F1 score for detecting and redacting harmful content while preserving the overall utility and informativeness of the model’s responses.

arxiv情報

著者 Lingrui Mei,Shenghua Liu,Yiwei Wang,Baolong Bi,Ruibin Yuan,Xueqi Cheng
発行日 2024-10-03 17:10:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク