要約
計算コストとメモリ消費量の点で入力サイズに線形にスケールする新しい双方向 Transformer アーキテクチャ (BiXT) を紹介しますが、他の効率的な Transformer ベースのアプローチで見られるパフォーマンスの低下や 1 つの入力モダリティのみへの制限は発生しません。
。
BiXT は Perceiver アーキテクチャからインスピレーションを得ていますが、反復的な注意を効率的な双方向のクロス アテンション モジュールに置き換えます。このモジュールでは、入力トークンと潜在変数が同時に相互に注意を払い、2 つの間に自然に現れる注意の対称性を活用します。
このアプローチは、Perceiver のようなアーキテクチャが経験する主要なボトルネックを解放し、セマンティクス (「何を」) と位置 (「どこ」) の両方の処理と解釈を複数のレイヤーにわたって並行して開発できるようにします。
インスタンスベースのタスクも同様です。
BiXT は、効率と完全な Transformer アーキテクチャの汎用性およびパフォーマンスを組み合わせることで、点群や画像などの長いシーケンスをより高い特徴解像度で処理でき、点群パーツのセグメンテーション、セマンティック画像のセグメンテーション、画像分類などのさまざまなタスクにわたって競争力のあるパフォーマンスを実現します。
要約(オリジナル)
We present a novel bi-directional Transformer architecture (BiXT) which scales linearly with input size in terms of computational cost and memory consumption, but does not suffer the drop in performance or limitation to only one input modality seen with other efficient Transformer-based approaches. BiXT is inspired by the Perceiver architectures but replaces iterative attention with an efficient bi-directional cross-attention module in which input tokens and latent variables attend to each other simultaneously, leveraging a naturally emerging attention-symmetry between the two. This approach unlocks a key bottleneck experienced by Perceiver-like architectures and enables the processing and interpretation of both semantics (`what’) and location (`where’) to develop alongside each other over multiple layers — allowing its direct application to dense and instance-based tasks alike. By combining efficiency with the generality and performance of a full Transformer architecture, BiXT can process longer sequences like point clouds or images at higher feature resolutions and achieves competitive performance across a range of tasks like point cloud part segmentation, semantic image segmentation and image classification.
arxiv情報
著者 | Markus Hiller,Krista A. Ehinger,Tom Drummond |
発行日 | 2024-02-19 13:38:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google