Learning Streaming Video Representation via Multitask Training

要約

継続的なビデオストリームを理解することは、具体化されたAIや自律運転など、リアルタイムアプリケーションで基本的な役割を果たします。
オフラインのビデオ理解とは異なり、ストリーミングビデオの理解には、フレームごとにビデオストリームフレームを処理し、履歴情報を保存し、低遅延の決定を下す機能が必要です。これらの課題に対処するために、主な貢献は3つあります。
(i)因果的な時間的注意を事前に訓練した視覚変圧器に組み込むことにより、ストリームフォーマーと呼ばれる新しいストリーミングビデオバックボーンを開発します。
これにより、画像表現の機能を維持しながら効率的なストリーミングビデオ処理が可能になります。(ii)ストリームフォーマーを訓練するには、マルチタスク視覚言語アライメントフレームワーク内の多様な空間的ビデオ理解タスクを統合することを提案します。
したがって、Streamformerは、グローバルなセマンティクス、時間的ダイナミクス、および細粒の空間的関係を同時に学習します。
(iii)オンラインアクション検出、オンラインビデオインスタンスセグメンテーション、およびビデオ質問応答に関する広範な実験を実施します。
Streamformerは、効率を維持しながら競争結果を達成し、リアルタイムアプリケーションの可能性を示しています。

要約(オリジナル)

Understanding continuous video streams plays a fundamental role in real-time applications including embodied AI and autonomous driving. Unlike offline video understanding, streaming video understanding requires the ability to process video streams frame by frame, preserve historical information, and make low-latency decisions.To address these challenges, our main contributions are three-fold. (i) We develop a novel streaming video backbone, termed as StreamFormer, by incorporating causal temporal attention into a pre-trained vision transformer. This enables efficient streaming video processing while maintaining image representation capability.(ii) To train StreamFormer, we propose to unify diverse spatial-temporal video understanding tasks within a multitask visual-language alignment framework. Hence, StreamFormer learns global semantics, temporal dynamics, and fine-grained spatial relationships simultaneously. (iii) We conduct extensive experiments on online action detection, online video instance segmentation, and video question answering. StreamFormer achieves competitive results while maintaining efficiency, demonstrating its potential for real-time applications.

arxiv情報

著者 Yibin Yan,Jilan Xu,Shangzhe Di,Yikun Liu,Yudi Shi,Qirui Chen,Zeqian Li,Yifei Huang,Weidi Xie
発行日 2025-04-28 17:59:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク