SCAR: Sparse Conditioned Autoencoders for Concept Detection and Steering in LLMs

要約

大規模言語モデル (LLM) は、人間のようなテキストを生成する際に優れた機能を実証していますが、その出力はユーザーと一致しなかったり、有害なコンテンツを生成したりする可能性があります。
この論文では、発生前に毒性などの概念を検出し、方向付けるための新しいアプローチを紹介します。
ここでは、未使用の LLM を拡張する単一のトレーニング済みモジュールである Sparse Conditioned Autoencoder (SCAR) を紹介します。
SCAR は、標準評価ベンチマークでのモデルのテキスト生成の品質を損なうことなく、コンセプト (有害なコンテンツなど) に向かう、またはコンセプトから遠ざかる完全な操縦性を保証します。
私たちは、毒性、安全性、書き方の調整などのさまざまな概念を通じて、アプローチの効果的な適用を実証します。
そのため、この取り組みは LLM 生成を制御するための堅牢なフレームワークを確立し、現実世界のアプリケーションでの倫理的かつ安全な展開を保証します。

要約(オリジナル)

Large Language Models (LLMs) have demonstrated remarkable capabilities in generating human-like text, but their output may not be aligned with the user or even produce harmful content. This paper presents a novel approach to detect and steer concepts such as toxicity before generation. We introduce the Sparse Conditioned Autoencoder (SCAR), a single trained module that extends the otherwise untouched LLM. SCAR ensures full steerability, towards and away from concepts (e.g., toxic content), without compromising the quality of the model’s text generation on standard evaluation benchmarks. We demonstrate the effective application of our approach through a variety of concepts, including toxicity, safety, and writing style alignment. As such, this work establishes a robust framework for controlling LLM generations, ensuring their ethical and safe deployment in real-world applications.

arxiv情報

著者 Ruben Härle,Felix Friedrich,Manuel Brack,Björn Deiseroth,Patrick Schramowski,Kristian Kersting
発行日 2024-12-05 10:45:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク