要約
ビジョン トランスフォーマーは、画像分類やアクション認識など、いくつかのコンピューター ビジョン タスクにおける最先端のパフォーマンスにより、今日非常に人気があります。
それらのパフォーマンスは、非常に記述的なパッチの埋め込みと階層構造によって大幅に強化されていますが、トランスフォーマーのセルフアテンション マップを改良するために追加のデータ表現を利用する研究はまだ限られています。
この問題に対処するために、マルチマニホールド マルチヘッド アテンションと呼ばれる新しいアテンション メカニズムがこの研究で提案され、トランスフォーマーの通常の自己アテンションに取って代わります。
提案されたメカニズムは、入力空間を 3 つの異なる多様体、つまりユークリッド、対称正定、グラスマンでモデル化するため、入力のさまざまな統計的および幾何学的特性を活用して、非常に記述的なアテンション マップを計算します。
このようにして、提案された注意メカニズムは、ビジョン トランスフォーマーが画像の重要な外観、色、およびテクスチャの特徴により注意を払うように導くことができ、よく知られている画像分類データセットに関する実験結果によって示されるように、分類結果の改善につながります。
要約(オリジナル)
Vision Transformers are very popular nowadays due to their state-of-the-art performance in several computer vision tasks, such as image classification and action recognition. Although their performance has been greatly enhanced through highly descriptive patch embeddings and hierarchical structures, there is still limited research on utilizing additional data representations so as to refine the self-attention map of a Transformer. To address this problem, a novel attention mechanism, called multi-manifold multi-head attention, is proposed in this work to substitute the vanilla self-attention of a Transformer. The proposed mechanism models the input space in three distinct manifolds, namely Euclidean, Symmetric Positive Definite and Grassmann, thus leveraging different statistical and geometrical properties of the input for the computation of a highly descriptive attention map. In this way, the proposed attention mechanism can guide a Vision Transformer to become more attentive towards important appearance, color and texture features of an image, leading to improved classification results, as shown by the experimental results on well-known image classification datasets.
arxiv情報
著者 | Dimitrios Konstantinidis,Ilias Papastratis,Kosmas Dimitropoulos,Petros Daras |
発行日 | 2022-11-30 13:45:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google