要約
既存のビデオキャプションアプローチは、通常、最初にデコードされたビデオからビデオフレームをサンプリングし、その後の処理(例えば、特徴抽出および/またはキャプションモデルの学習)を行う必要がある。このパイプラインでは、手作業によるフレームサンプリングは、ビデオ内の重要な情報を無視する可能性があり、パフォーマンスが低下する。さらに、サンプリングされたフレーム内の冗長な情報は、ビデオキャプションの推論において低い効率をもたらす可能性がある。1)デコードされた動画からの生画像と比較して、Iフレーム、動きベクトル、残差からなる圧縮動画は非常に区別可能であるため、特殊なモデル設計により、手動サンプリングなしで動画全体を学習に活用することができる。我々は、ビデオキャプションのための圧縮領域における、シンプルで効果的なエンドツーエンドの変換器を提案し、キャプションのための圧縮ビデオからの学習を可能にする。シンプルな設計でありながら、我々の手法が、既存のアプローチよりもほぼ2倍高速に動作しながら、様々なベンチマークで最先端の性能を達成できることを示す。コードはhttps://github.com/acherstyx/CoCap。
要約(オリジナル)
Existing video captioning approaches typically require to first sample video frames from a decoded video and then conduct a subsequent process (e.g., feature extraction and/or captioning model learning). In this pipeline, manual frame sampling may ignore key information in videos and thus degrade performance. Additionally, redundant information in the sampled frames may result in low efficiency in the inference of video captioning. Addressing this, we study video captioning from a different perspective in compressed domain, which brings multi-fold advantages over the existing pipeline: 1) Compared to raw images from the decoded video, the compressed video, consisting of I-frames, motion vectors and residuals, is highly distinguishable, which allows us to leverage the entire video for learning without manual sampling through a specialized model design; 2) The captioning model is more efficient in inference as smaller and less redundant information is processed. We propose a simple yet effective end-to-end transformer in the compressed domain for video captioning that enables learning from the compressed video for captioning. We show that even with a simple design, our method can achieve state-of-the-art performance on different benchmarks while running almost 2x faster than existing approaches. Code is available at https://github.com/acherstyx/CoCap.
arxiv情報
著者 | Yaojie Shen,Xin Gu,Kai Xu,Heng Fan,Longyin Wen,Libo Zhang |
発行日 | 2024-01-03 08:29:03+00:00 |
arxivサイト | arxiv_id(pdf) |