Multiscale Vision Transformers meet Bipartite Matching for efficient single-stage Action Localization

要約

アクションの位置特定は、検出タスクと認識タスクを組み合わせた難しい問題であり、多くの場合別々に扱われます。
最先端の手法は、高解像度で事前に計算された既製の境界ボックス検出に依存しており、分類タスクのみに焦点を当てた変換モデルを提案しています。
このような 2 段階のソリューションは、リアルタイムの展開には法外です。
一方、シングルステージ方式では、ネットワークの一部 (通常はバックボーン) をワークロードの大部分の共有に専念することで両方のタスクをターゲットにし、速度の代わりにパフォーマンスを犠牲にします。
これらの方法は、学習可能なクエリを備えた DETR ヘッドの追加に基づいて構築されており、クロス アテンションおよびセルフ アテンションの後に、人のバウンディング ボックスとアクションを検出するために対応する MLP に送信できます。
ただし、DETR のようなアーキテクチャはトレーニングが難しく、非常に複雑になる可能性があります。
この論文では、\textbf{直線の二部マッチング損失がビジョン トランスフォーマーの出力トークンに適用できる}ことを観察します。
これにより、追加のエンコーダ/デコーダ ヘッドや学習可能なクエリを必要とせずに両方のタスクを実行できるバックボーン + MLP アーキテクチャが実現します。
両方のタスクを実行するために二部マッチングでトレーニングされた単一の MViTv2-S アーキテクチャが、事前に計算されたバウンディング ボックス上で RoI align を使用してトレーニングされた場合、同じ MViTv2-S を超えることを示します。
トークン プーリングと提案されたトレーニング パイプラインの慎重な設計により、二部マッチング ビジョン トランスフォーマー モデル \textbf{BMViT} は、AVA2.2 で +3 mAP を達成します。
に関して。
2 段階の MViTv2-S に相当します。
コードは \href{https://github.com/IoannaNti/BMViT}{https://github.com/IoannaNti/BMViT} で入手できます。

要約(オリジナル)

Action Localization is a challenging problem that combines detection and recognition tasks, which are often addressed separately. State-of-the-art methods rely on off-the-shelf bounding box detections pre-computed at high resolution, and propose transformer models that focus on the classification task alone. Such two-stage solutions are prohibitive for real-time deployment. On the other hand, single-stage methods target both tasks by devoting part of the network (generally the backbone) to sharing the majority of the workload, compromising performance for speed. These methods build on adding a DETR head with learnable queries that after cross- and self-attention can be sent to corresponding MLPs for detecting a person’s bounding box and action. However, DETR-like architectures are challenging to train and can incur in big complexity. In this paper, we observe that \textbf{a straight bipartite matching loss can be applied to the output tokens of a vision transformer}. This results in a backbone + MLP architecture that can do both tasks without the need of an extra encoder-decoder head and learnable queries. We show that a single MViTv2-S architecture trained with bipartite matching to perform both tasks surpasses the same MViTv2-S when trained with RoI align on pre-computed bounding boxes. With a careful design of token pooling and the proposed training pipeline, our Bipartite-Matching Vision Transformer model, \textbf{BMViT}, achieves +3 mAP on AVA2.2. w.r.t. the two-stage MViTv2-S counterpart. Code is available at \href{https://github.com/IoannaNti/BMViT}{https://github.com/IoannaNti/BMViT}

arxiv情報

著者 Ioanna Ntinou,Enrique Sanchez,Georgios Tzimiropoulos
発行日 2024-05-23 15:52:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク