Streaming Video Model

要約

タイトル:ストリーミング動画モデル
要約:

– 伝統的に、動画理解タスクは2つの異なるタスクに特化した2つのアーキテクチャによってモデリングされてきました。
– アクション認識のようなシーケンスベースの動画タスクでは、空間時間特徴を直接抽出するためのビデオバックボーンが使用されます。
– 一方、多重オブジェクトトラッキング(MOT)のようなフレームベースの動画タスクでは、固定された単一の画像バックボーンを使用して空間特徴を抽出します。
– それに対して、私たちは、動画理解タスクを1つの新しいストリーミング動画アーキテクチャで統一することを提案します。これをストリーミングビジョントランスフォーマー(S-ViT)と呼びます。
– S-ViTは、最初にメモリを備えた時間的に意識した空間エンコーダでフレームレベルの特徴を生成してフレームベースの動画タスクに対応し、次にタスク関連の時間的デコーダに入力してシーケンスベースのタスクに対応する空間時間的特徴を取得します。
– S-ViTの効率と効果は、シーケンスベースのアクション認識タスクにおける最先端の精度と、フレームベースのMOTタスクに対する従来のアーキテクチャに対する競争的優位性によって示されます。
– 私たちは、ストリーミング動画モデルの概念とS-ViTの実装が、動画理解のための統一されたディープラーニングアーキテクチャに向けた堅固なステップであると信じています。コードはhttps://github.com/yuzhms/Streaming-Video-Modelで利用可能です。

要約(オリジナル)

Video understanding tasks have traditionally been modeled by two separate architectures, specially tailored for two distinct tasks. Sequence-based video tasks, such as action recognition, use a video backbone to directly extract spatiotemporal features, while frame-based video tasks, such as multiple object tracking (MOT), rely on single fixed-image backbone to extract spatial features. In contrast, we propose to unify video understanding tasks into one novel streaming video architecture, referred to as Streaming Vision Transformer (S-ViT). S-ViT first produces frame-level features with a memory-enabled temporally-aware spatial encoder to serve the frame-based video tasks. Then the frame features are input into a task-related temporal decoder to obtain spatiotemporal features for sequence-based tasks. The efficiency and efficacy of S-ViT is demonstrated by the state-of-the-art accuracy in the sequence-based action recognition task and the competitive advantage over conventional architecture in the frame-based MOT task. We believe that the concept of streaming video model and the implementation of S-ViT are solid steps towards a unified deep learning architecture for video understanding. Code will be available at https://github.com/yuzhms/Streaming-Video-Model.

arxiv情報

著者 Yucheng Zhao,Chong Luo,Chuanxin Tang,Dongdong Chen,Noel Codella,Zheng-Jun Zha
発行日 2023-03-30 08:51:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク