要約
大規模な言語モデル(LLMS)で学習した概念を調査することは、セマンティック知識が内部でエンコードされる方法を理解するために重要です。
プロービングタスクに関する線形分類器のトレーニングは、表現空間の特定の概念のベクトルを示す主要なアプローチです。
ただし、概念に対して特定された単一のベクトルは、データとトレーニングの両方によって異なり、堅牢性が低下し、実際のアプリケーションでの有効性が弱まります。
この課題に対処するために、特定の概念を表す部分空間を近似するアプローチを提案します。
線形プロービング分類子の上に構築され、概念ベクトルをガウスコンセプトサブスペース(GCS)に拡張します。
さまざまなサイズとアーキテクチャを持つ複数のLLMにわたる忠実さと妥当性を測定することにより、GCSの有効性を実証します。
さらに、表現介入タスクを使用して、感情ステアリングなどの実際のアプリケーションでの有効性を紹介します。
実験結果は、GCSの概念ベクトルがステアリングパフォーマンスのバランスをとり、自然言語生成タスクの流ency性を維持する可能性があることを示しています。
要約(オリジナル)
Probing learned concepts in large language models (LLMs) is crucial for understanding how semantic knowledge is encoded internally. Training linear classifiers on probing tasks is a principle approach to denote the vector of a certain concept in the representation space. However, the single vector identified for a concept varies with both data and training, making it less robust and weakening its effectiveness in real-world applications. To address this challenge, we propose an approach to approximate the subspace representing a specific concept. Built on linear probing classifiers, we extend the concept vectors into Gaussian Concept Subspace (GCS). We demonstrate GCS’s effectiveness through measuring its faithfulness and plausibility across multiple LLMs with different sizes and architectures. Additionally, we use representation intervention tasks to showcase its efficacy in real-world applications such as emotion steering. Experimental results indicate that GCS concept vectors have the potential to balance steering performance and maintaining the fluency in natural language generation tasks.
arxiv情報
著者 | Haiyan Zhao,Heng Zhao,Bo Shen,Ali Payani,Fan Yang,Mengnan Du |
発行日 | 2025-03-06 15:50:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google