要約
スパースオートエンコーダ(SAE)は、複雑なニューラルネットワークから解釈可能な特徴を抽出する上で有望である。我々は、大規模言語モデルからの高密度テキスト埋め込みに対するSAEの最初のアプリケーションの一つを紹介し、意味概念の分離におけるSAEの有効性を実証する。コンピュータサイエンスと天文学の420,000以上の科学論文の抄録の埋め込みに対してSAEを学習させることにより、結果として得られる疎な表現が、解釈可能性を提供しつつ、意味的忠実性を維持することを示す。また、学習された特徴を分析し、異なるモデル容量における特徴を探索し、様々な抽象度で関連する概念を表現する“特徴ファミリー”を特定する新しい手法を紹介する。我々のアプローチの実用的な有用性を示すために、これらの解釈可能な特徴が、クエリのセマンティクスをきめ細かく制御することを可能にし、セマンティック検索を正確に制御するためにどのように利用できるかを示す。この研究は、密な埋め込みが持つ意味の豊かさと、疎な表現が持つ解釈可能性のギャップを埋めるものである。埋め込み、訓練されたスパースオートエンコーダ、解釈された特徴、およびそれらを探索するためのウェブアプリケーションをオープンソースで提供する。
要約(オリジナル)
Sparse autoencoders (SAEs) have shown promise in extracting interpretable features from complex neural networks. We present one of the first applications of SAEs to dense text embeddings from large language models, demonstrating their effectiveness in disentangling semantic concepts. By training SAEs on embeddings of over 420,000 scientific paper abstracts from computer science and astronomy, we show that the resulting sparse representations maintain semantic fidelity while offering interpretability. We analyse these learned features, exploring their behaviour across different model capacities and introducing a novel method for identifying “feature families” that represent related concepts at varying levels of abstraction. To demonstrate the practical utility of our approach, we show how these interpretable features can be used to precisely steer semantic search, allowing for fine-grained control over query semantics. This work bridges the gap between the semantic richness of dense embeddings and the interpretability of sparse representations. We open source our embeddings, trained sparse autoencoders, and interpreted features, as well as a web app for exploring them.
arxiv情報
著者 | Charles O’Neill,Christine Ye,Kartheik Iyer,John F. Wu |
発行日 | 2024-08-01 15:46:22+00:00 |
arxivサイト | arxiv_id(pdf) |