要約
ビジョン トランスフォーマー (ViT) は、さまざまなビジョン タスクで最先端の結果を達成しています。
学習可能な位置埋め込み (PE) メカニズムを利用して、各画像パッチの位置をエンコードします。
しかし、この学習可能な PE が本当に必要かどうか、またそのメリットが何であるかは現在のところ不明です。
このペーパーでは、空間配置に関する事前知識を利用して、個々のパッチの位置をエンコードする 2 つの代替方法について説明します。
1 つは配列関係埋め込み (SRE) と呼ばれ、もう 1 つは円関係埋め込み (CRE) と呼ばれます。
その中で、SRE はすべてのパッチが順番に並べられていると見なし、隣接するパッチは同じ間隔の距離を持ちます。
CRE は、中央のパッチを円の中心と見なし、4 つの近傍の原則に基づいて、中心から残りのパッチまでの距離を測定します。
異なる半径を持つ複数の同心円は、異なるパッチを結合します。
最後に、これら 2 つの関係を 3 つの従来の ViT に実装し、4 つの一般的なデータセットでテストしました。
実験では、SRE と CRE を PE に置き換えて、ランダムな学習可能なパラメーターを減らしながら、同じパフォーマンスを達成できることが示されています。
SRE または CRE を PE と組み合わせると、PE のみを使用するよりも優れたパフォーマンスが得られます。
要約(オリジナル)
The vision transformer (ViT) has achieved state-of-the-art results in various vision tasks. It utilizes a learnable position embedding (PE) mechanism to encode the location of each image patch. However, it is presently unclear if this learnable PE is really necessary and what its benefits are. This paper explores two alternative ways of encoding the location of individual patches that exploit prior knowledge about their spatial arrangement. One is called the sequence relationship embedding (SRE), and the other is called the circle relationship embedding (CRE). Among them, the SRE considers all patches to be in order, and adjacent patches have the same interval distance. The CRE considers the central patch as the center of the circle and measures the distance of the remaining patches from the center based on the four neighborhoods principle. Multiple concentric circles with different radii combine different patches. Finally, we implemented these two relations on three classic ViTs and tested them on four popular datasets. Experiments show that SRE and CRE can replace PE to reduce the random learnable parameters while achieving the same performance. Combining SRE or CRE with PE gets better performance than only using PE.
arxiv情報
著者 | Zhengyang Yu,Jochen Triesch |
発行日 | 2022-10-19 15:29:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google