TDViT: Temporal Dilated Video Transformer for Dense Video Tasks

要約

3D CNN やビデオ トランスフォーマーなどのディープ ビデオ モデルは、スパース ビデオ タスク、つまりビデオごとに 1 つの結果を予測するタスクで有望なパフォーマンスを達成しました。
ただし、既存のディープ ビデオ モデルを高密度ビデオ タスクに適応させるとき、つまりフレームごとに 1 つの結果を予測するときに課題が発生します。
具体的には、これらのモデルは導入に費用がかかり、冗長フレームを処理する際の効率が低く、長距離の時間的相関を捕捉することが困難です。
これらの問題を克服するために、慎重に設計された時間拡張トランスフォーマー ブロック (TDTB) で構成される時間拡張ビデオ トランスフォーマー (TDViT) を提案します。
TDTB は、時空間表現を効率的に抽出し、時間的冗長性の悪影響を効果的に軽減できます。
さらに、階層型 TDTB を使用することにより、私たちのアプローチは指数関数的に拡張された時間的受容野を獲得し、したがって長距離のダイナミクスをモデル化できます。
2 つの異なる高密度ビデオ ベンチマーク、つまりビデオ オブジェクト検出用の ImageNet VID とビデオ インスタンス セグメンテーション用の YouTube VIS で広範な実験が行われています。
優れた実験結果は、私たちの方法の優れた効率、有効性、および互換性を実証しています。
コードは https://github.com/guanxiongsun/vfe.pytorch で入手できます。

要約(オリジナル)

Deep video models, for example, 3D CNNs or video transformers, have achieved promising performance on sparse video tasks, i.e., predicting one result per video. However, challenges arise when adapting existing deep video models to dense video tasks, i.e., predicting one result per frame. Specifically, these models are expensive for deployment, less effective when handling redundant frames, and difficult to capture long-range temporal correlations. To overcome these issues, we propose a Temporal Dilated Video Transformer (TDViT) that consists of carefully designed temporal dilated transformer blocks (TDTB). TDTB can efficiently extract spatiotemporal representations and effectively alleviate the negative effect of temporal redundancy. Furthermore, by using hierarchical TDTBs, our approach obtains an exponentially expanded temporal receptive field and therefore can model long-range dynamics. Extensive experiments are conducted on two different dense video benchmarks, i.e., ImageNet VID for video object detection and YouTube VIS for video instance segmentation. Excellent experimental results demonstrate the superior efficiency, effectiveness, and compatibility of our method. The code is available at https://github.com/guanxiongsun/vfe.pytorch.

arxiv情報

著者 Guanxiong Sun,Yang Hua,Guosheng Hu,Neil Robertson
発行日 2024-02-14 15:41:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク