On the Anatomy of Attention

要約

機械学習モデルを体系的に関連付けて推論するために、圏論的な図式形式主義を導入します。
私たちの図は、本質的な詳細を失うことなく直感的にアーキテクチャを表現しており、モデル間の自然な関係がグラフィック変換によって捉えられ、重要な相違点と類似点が一目で識別できます。
この論文では、注意のメカニズムに焦点を当てます。民間伝承を数学的導出に変換し、文献における注意の変異の分類を構築します。
私たちの形式主義に裏付けられた実証的研究の最初の例として、注意の繰り返しの解剖学的構成要素を特定し、それを徹底的に再結合して、注意のメカニズムのバリエーションの空間を探索します。

要約(オリジナル)

We introduce a category-theoretic diagrammatic formalism in order to systematically relate and reason about machine learning models. Our diagrams present architectures intuitively but without loss of essential detail, where natural relationships between models are captured by graphical transformations, and important differences and similarities can be identified at a glance. In this paper, we focus on attention mechanisms: translating folklore into mathematical derivations, and constructing a taxonomy of attention variants in the literature. As a first example of an empirical investigation underpinned by our formalism, we identify recurring anatomical components of attention, which we exhaustively recombine to explore a space of variations on the attention mechanism.

arxiv情報

著者 Nikhil Khatri,Tuomas Laakkonen,Jonathon Liu,Vincent Wang-Maścianica
発行日 2024-07-02 16:50:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 18M30, 68T01, cs.LG, I.2.6, math.CT パーマリンク