On the Semantics of LM Latent Space: A Vocabulary-defined Approach

要約

深層学習の領域では、トランスフォーマーのような言語モデル (LM) の潜在空間を理解することが、パフォーマンスと解釈可能性を向上させるために重要です。
しかし、既存の分析は、LM セマンティクスに対する絶対的かつモデル中心の洞察を提供するには不十分であることが多く、LM 適応の重要な側面が無視されています。
これに応えて、私たちは語彙定義意味論と呼ばれる先駆的な手法を導入します。これは、LM 潜在空間内に固定参照フレームを確立し、LM 語彙に基づいた絶対的な意味論的分析を保証します。
私たちのアプローチは、モデル中心の洞察のために LM ボキャブラリーを活用し、これまでの相対分析を超えています。
さらに、微分可能性と局所等方性を強調してロジットを計算する新しい手法を提案し、LM 適応中にデータ表現を意味論的に校正するためのニューラル クラスタリング モジュールを導入します。
多様なテキスト理解データセットにわたる広範な実験を通じて、私たちのアプローチは、検索拡張生成とパラメーター効率の高い微調整という最先端の方法を超え、その有効性と幅広い適用性を示しています。
私たちの発見は、LM の仕組みを解明するだけでなく、LM の性能と解釈可能性を高めるための実用的なソリューションも提供します。

要約(オリジナル)

In the realm of deep learning, understanding the latent space of language models (LMs) like transformers is crucial for refining their performance and interpretability. However, existing analyses often fall short in providing absolute and model-centric insights into LM semantics, and neglect essential aspects of LM adaption. In response, we introduce a pioneering method called vocabulary-defined semantics, which establishes a fixed reference frame within the LM latent space, ensuring absolute semantic analysis grounded in LM vocabulary. Our approach transcends prior relative analyses, leveraging LM vocabulary for model-centric insights. Furthermore, we propose a novel technique to compute logits, emphasizing differentiability and local isotropy, and introduce a neural clustering module for semantically calibrating data representations during LM adaptation. Through extensive experiments across diverse text understanding datasets, our approach surpasses state-of-the-art methods of retrieval-augmented generation and parameters-efficient finetuning, showcasing its efficacy and broad applicability. Our findings not only shed light on LM mechanics but also offer practical solutions for enhancing LM performance and interpretability.

arxiv情報

著者 Jian Gu,Chunyang Chen,Aldeida Aleti
発行日 2024-01-29 14:29:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク