Energy Transformer

要約

トランスフォーマーは、機械学習で選択される事実上のモデルになり、通常、多くのアプリケーションで優れたパフォーマンスを発揮します。
同時に、変圧器の世界におけるアーキテクチャの開発は、ほとんどが経験的な発見によって推進されており、アーキテクチャのビルディング ブロックの理論的理解はかなり限られています。
対照的に、高密度連想記憶モデルまたは最新のホップフィールド ネットワークには十分に確立された理論的基盤がありますが、真に印象的な実際の結果はまだ実証されていません。
フィードフォワード トランスフォーマー ブロックのシーケンスを 1 つの大規模な連想メモリ モデルに置き換えるトランスフォーマー アーキテクチャを提案します。
Energy Transformer (または略して ET) と呼ばれる私たちの新しいアーキテクチャには、現在の世代のトランスでよく使用される、おなじみのアーキテクチャ プリミティブが多数含まれています。
ただし、既存のアーキテクチャと同じではありません。
ET の変換レイヤーのシーケンスは、トークン間の関係を表す役割を担う、特別に設計されたエネルギー関数を最小限に抑えるように意図的に設計されています。
この計算原理の結果として、ET における注意は、従来の注意メカニズムとは異なります。
この作業では、ET の理論的基礎を紹介し、画像補完タスクを使用してその経験的機能を調査し、グラフ異常検出タスクで強力な定量的結果を取得します。

要約(オリジナル)

Transformers have become the de facto models of choice in machine learning, typically leading to impressive performance on many applications. At the same time, the architectural development in the transformer world is mostly driven by empirical findings, and the theoretical understanding of their architectural building blocks is rather limited. In contrast, Dense Associative Memory models or Modern Hopfield Networks have a well-established theoretical foundation, but have not yet demonstrated truly impressive practical results. We propose a transformer architecture that replaces the sequence of feedforward transformer blocks with a single large Associative Memory model. Our novel architecture, called Energy Transformer (or ET for short), has many of the familiar architectural primitives that are often used in the current generation of transformers. However, it is not identical to the existing architectures. The sequence of transformer layers in ET is purposely designed to minimize a specifically engineered energy function, which is responsible for representing the relationships between the tokens. As a consequence of this computational principle, the attention in ET is different from the conventional attention mechanism. In this work, we introduce the theoretical foundations of ET, explore it’s empirical capabilities using the image completion task, and obtain strong quantitative results on the graph anomaly detection task.

arxiv情報

著者 Benjamin Hoover,Yuchen Liang,Bao Pham,Rameswar Panda,Hendrik Strobelt,Duen Horng Chau,Mohammed J. Zaki,Dmitry Krotov
発行日 2023-02-14 18:51:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク