要約
言語モデル (LM) の潜在空間を理解することは、言語モデルのパフォーマンスと解釈可能性を向上させるために重要です。
既存の分析では、LM セマンティクスに対する解きほぐされた (モデル中心の) 洞察を提供するには不十分なことが多く、LM 適応の重要な側面が無視されています。
これに応えて、私たちは語彙定義意味論と呼ばれる先駆的な手法を導入します。これは、LM 潜在空間内に参照フレームを確立し、LM 語彙に基づいたもつれの解けた意味論的分析を保証します。
私たちのアプローチは、モデル中心の洞察のために LM 語彙を活用し、以前のもつれ分析を超越しています。
さらに、微分可能性と局所等方性を強調してロジットを計算する新しい手法を提案し、LM 適応中にデータ表現を意味論的に校正するためのニューラル クラスタリング モジュールを導入します。
多様なテキスト理解データセットにわたる広範な実験を通じて、私たちのアプローチは、検索拡張生成とパラメーター効率の高い微調整という最先端の手法を上回り、その有効性と幅広い適用性を示しています。
私たちの発見は、LM の仕組みを解明するだけでなく、LM の性能と解釈可能性を高めるための実用的なソリューションも提供します。
要約(オリジナル)
Understanding the latent space of language models (LM) is crucial to refining their performance and interpretability. Existing analyses often fall short in providing disentangled (model-centric) insights into LM semantics, and neglect essential aspects of LM adaption. In response, we introduce a pioneering method called vocabulary-defined semantics, which establishes a reference frame within the LM latent space, ensuring disentangled semantic analysis grounded in LM vocabulary. Our approach transcends prior entangled analysis, leveraging LM vocabulary for model-centric insights. Furthermore, we propose a novel technique to compute logits, emphasising differentiability and local isotropy, and introduce a neural clustering module for semantically calibrating data representations during LM adaptation. Through extensive experiments across diverse text understanding datasets, our approach outperforms state-of-the-art methods of retrieval-augmented generation and parameter-efficient finetuning, showcasing its efficacy and broad applicability. Our findings not only shed light on LM mechanics, but also offer practical solutions to enhance LM performance and interpretability.
arxiv情報
著者 | Jian Gu,Chunyang Chen,Aldeida Aleti |
発行日 | 2024-02-12 11:30:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google