The Shape of Learning: Anisotropy and Intrinsic Dimensions in Transformer-Based Models

要約

この研究では、エンコーダとデコーダの間の二分法に焦点を当て、変圧器アーキテクチャの埋め込みの異方性ダイナミクスと固有次元についての調査を紹介します。
私たちの調査結果は、トランス デコーダの異方性プロファイルが明確な釣鐘型の曲線を示し、中間層で最も高い異方性濃度を示すことを明らかにしました。
このパターンは、エンコーダで観察されるより均一に分布した異方性とは異なります。
さらに、埋め込みの固有次元がトレーニングの初期段階で増加し、高次元空間への拡張を示していることもわかりました。
その後、トレーニングの終わりに向けて次元が減少する圧縮フェーズが続き、よりコンパクトな表現への改良が示唆されます。
私たちの結果は、エンコーダーとデコーダーの埋め込みプロパティの理解に新たな洞察を提供します。

要約(オリジナル)

In this study, we present an investigation into the anisotropy dynamics and intrinsic dimension of embeddings in transformer architectures, focusing on the dichotomy between encoders and decoders. Our findings reveal that the anisotropy profile in transformer decoders exhibits a distinct bell-shaped curve, with the highest anisotropy concentrations in the middle layers. This pattern diverges from the more uniformly distributed anisotropy observed in encoders. In addition, we found that the intrinsic dimension of embeddings increases in the initial phases of training, indicating an expansion into higher-dimensional space. Which is then followed by a compression phase towards the end of training with dimensionality decrease, suggesting a refinement into more compact representations. Our results provide fresh insights to the understanding of encoders and decoders embedding properties.

arxiv情報

著者 Anton Razzhigaev,Matvey Mikhalchuk,Elizaveta Goncharova,Ivan Oseledets,Denis Dimitrov,Andrey Kuznetsov
発行日 2023-11-10 08:25:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IT, cs.LG, math.GN, math.IT パーマリンク