PaCE: Parsimonious Concept Engineering for Large Language Models

要約

大規模言語モデル (LLM) は、さまざまなタスクに使用されています。
これらは人間のような反応を生成することができますが、潜在的に有害な情報、人種差別的または性差別的な言葉、幻覚などの望ましくない出力を生成することもあります。
アライメント方法は、微調整、プロンプト エンジニアリング、表現エンジニアリングなどの技術によって、そのような望ましくない出力を削減するように設計されています。
ただし、既存の方法にはいくつかの課題があります。調整タスクごとにコストのかかる微調整が必​​要なものもあります。
望ましくない概念を適切に除去できず、調整に失敗するものもあります。
良性の概念を削除し、LLM の言語能力を低下させるものもあります。
これらの問題に対処するために、私たちは調整のための新しい活性化エンジニアリング フレームワークである Parsimonious Concept Engineering (PaCE) を提案します。
まず、概念を十分にモデル化するために、各アトムが意味概念に対応する大規模な概念辞書を活性化空間に構築します。
次に、調整タスクが与えられた場合、概念分割者に、概念に良性か望ましくないかの注釈を効率的に付けるように指示します。
最後に、推論時に、スパースコーディングを介して概念辞書に沿って LLM アクティベーションを分解し、アクティベーションを良性コンポーネントと望ましくないコンポーネントの線形結合として正確に表現します。
後者をアクティベーションから削除することで、LLM の動作を調整目標に向けて再調整します。
私たちは、反応の解毒、忠実さの強化、感情修正などのタスクに関する実験を実施し、PaCE が言語能力を維持しながら最先端のアライメント性能を達成することを示します。

要約(オリジナル)

Large Language Models (LLMs) are being used for a wide variety of tasks. While they are capable of generating human-like responses, they can also produce undesirable output including potentially harmful information, racist or sexist language, and hallucinations. Alignment methods are designed to reduce such undesirable output, via techniques such as fine-tuning, prompt engineering, and representation engineering. However, existing methods face several challenges: some require costly fine-tuning for every alignment task; some do not adequately remove undesirable concepts, failing alignment; some remove benign concepts, lowering the linguistic capabilities of LLMs. To address these issues, we propose Parsimonious Concept Engineering (PaCE), a novel activation engineering framework for alignment. First, to sufficiently model the concepts, we construct a large-scale concept dictionary in the activation space, in which each atom corresponds to a semantic concept. Then, given any alignment task, we instruct a concept partitioner to efficiently annotate the concepts as benign or undesirable. Finally, at inference time, we decompose the LLM activations along the concept dictionary via sparse coding, to accurately represent the activation as a linear combination of the benign and undesirable components. By removing the latter ones from the activation, we reorient the behavior of LLMs towards alignment goals. We conduct experiments on tasks such as response detoxification, faithfulness enhancement, and sentiment revising, and show that PaCE achieves state-of-the-art alignment performance while maintaining linguistic capabilities.

arxiv情報

著者 Jinqi Luo,Tianjiao Ding,Kwan Ho Ryan Chan,Darshan Thaker,Aditya Chattopadhyay,Chris Callison-Burch,René Vidal
発行日 2024-06-06 17:59:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR, cs.LG パーマリンク