要約
文の埋め込みは、最新のNLPおよびAIシステムの中心ですが、内部構造についてはほとんど知られていません。
Cosineの類似性などの測定値を使用してこれらの埋め込みを比較することはできますが、寄与機能は人間の解釈ではなく、埋め込みの内容は、複雑な神経変換と個々のトークンの埋め込みを組み合わせた最終的なプーリング操作によってマスクされているため、追跡できないように思えます。
この問題を軽減するために、トークンレベルの表現で辞書学習を使用して、文の埋め込みを解釈可能なコンポーネントに機械的に分解する新しい方法を提案します。
プーリングがこれらの機能を文の表現に圧縮する方法を分析し、文の埋め込みに存在する潜在的な特徴を評価します。
このブリッジは、文レベルの分析を伴うトークンレベルの機械的解釈可能性を発揮し、より透明で制御可能な表現を実現します。
私たちの研究では、たとえば、多くのセマンティックおよび構文の側面が埋め込みで直線的にエンコードされているという文の内側の仕組みに関するいくつかの興味深い洞察を得ています。
要約(オリジナル)
Sentence embeddings are central to modern NLP and AI systems, yet little is known about their internal structure. While we can compare these embeddings using measures such as cosine similarity, the contributing features are not human-interpretable, and the content of an embedding seems untraceable, as it is masked by complex neural transformations and a final pooling operation that combines individual token embeddings. To alleviate this issue, we propose a new method to mechanistically decompose sentence embeddings into interpretable components, by using dictionary learning on token-level representations. We analyze how pooling compresses these features into sentence representations, and assess the latent features that reside in a sentence embedding. This bridges token-level mechanistic interpretability with sentence-level analysis, making for more transparent and controllable representations. In our studies, we obtain several interesting insights into the inner workings of sentence embedding spaces, for instance, that many semantic and syntactic aspects are linearly encoded in the embeddings.
arxiv情報
著者 | Matthieu Tehenan,Vikram Natarajan,Jonathan Michala,Milton Lin,Juri Opitz |
発行日 | 2025-06-10 17:05:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google