Layer Importance and Hallucination Analysis in Large Language Models via Enhanced Activation Variance-Sparsity

要約

大規模言語モデル (LLM) のさまざまな層の重要性を評価することは、モデルのパフォーマンスと解釈可能性を最適化するために重要です。
このペーパーでは、まず、正規化されたアクティベーション分散とスパース性を組み合わせてモデル全体のパフォーマンスに対する各レイヤーの寄与を定量化するアクティベーション分散スパース性スコア (AVSS) を使用してレイヤーの重要性を調査します。
AVSS に基づいてレイヤーをランク付けし、最も影響の少ない 25\% を削除することにより、質問応答、言語モデリング、センチメント分類などのタスクに関する実験では、元のパフォーマンスの 90\% 以上が維持され、LLM アーキテクチャの潜在的な冗長性が強調されています。
AVSS に基づいて、層全体の幻覚傾向を評価するように調整された拡張バージョン (EAVSS) を提案します。
この改善されたアプローチでは、幻覚特異的活性化分散 (HSAV) および幻覚特異的スパーシティ (HSS) メトリクスが導入され、幻覚傾向層を正確に識別できるようになります。
これらの層に対照学習を組み込むことで、幻覚の生成を効果的に軽減し、より堅牢で効率的な LLM に貢献します (最大パフォーマンス向上は 12%)。
NQ、SciQ、TriviaQA、TruthfulQA、WikiQA データセットに関する結果は、この手法の有効性を示しており、LLM におけるレイヤーの重要性評価と幻覚軽減の両方に包括的なフレームワークを提供します。

要約(オリジナル)

Evaluating the importance of different layers in large language models (LLMs) is crucial for optimizing model performance and interpretability. This paper first explores layer importance using the Activation Variance-Sparsity Score (AVSS), which combines normalized activation variance and sparsity to quantify each layer’s contribution to overall model performance. By ranking layers based on AVSS and pruning the least impactful 25\%, our experiments on tasks such as question answering, language modeling, and sentiment classification show that over 90\% of the original performance is retained, highlighting potential redundancies in LLM architectures. Building on AVSS, we propose an enhanced version tailored to assess hallucination propensity across layers (EAVSS). This improved approach introduces Hallucination-Specific Activation Variance (HSAV) and Hallucination-Specific Sparsity (HSS) metrics, allowing precise identification of hallucination-prone layers. By incorporating contrastive learning on these layers, we effectively mitigate hallucination generation, contributing to more robust and efficient LLMs(The maximum performance improvement is 12\%). Our results on the NQ, SciQ, TriviaQA, TruthfulQA, and WikiQA datasets demonstrate the efficacy of this method, offering a comprehensive framework for both layer importance evaluation and hallucination mitigation in LLMs.

arxiv情報

著者 Zichen Song,Sitan Huang,Yuxin Wu,Zhongfeng Kang
発行日 2024-11-15 09:33:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.PF パーマリンク