要約
さまざまなビデオ言語学習タスクにおいて、マルチグレイン データを使用してクロスモダリティの調整を達成するという課題は依然として残っています。
私たちは、データとモデリングという 2 つの重要な観点からこの課題に取り組む方法を提案します。
マルチグレインのビデオテキスト事前トレーニング データセットが存在しないことを考慮して、統合および圧縮操作を備えた粒度拡張 (GEX) メソッドを導入して、シングルグレイン データセットの粒度を拡張します。
マルチグレイン データをより適切にモデル化するために、反復近似モジュール (IAM) を導入します。これは、クロスモーダル調整に必要な情報を保持しながら、マルチグレインのビデオとテキストを統一された低次元の意味空間に埋め込みます。
さらに、GEXIA は拡張性が高く、位置合わせのためのビデオ テキストの粒度の数に制限がありません。
7 つのベンチマーク データセットにわたる 3 つのカテゴリのビデオ タスクに関する作業を評価し、最先端または同等のパフォーマンスを示します。
驚くべきことに、事前トレーニング データセットには短いビデオ クリップしか含まれていないにもかかわらず、私たちのモデルは長い形式のビデオの理解に関わるタスクに優れています。
要約(オリジナル)
In various video-language learning tasks, the challenge of achieving cross-modality alignment with multi-grained data persists. We propose a method to tackle this challenge from two crucial perspectives: data and modeling. Given the absence of a multi-grained video-text pretraining dataset, we introduce a Granularity EXpansion (GEX) method with Integration and Compression operations to expand the granularity of a single-grained dataset. To better model multi-grained data, we introduce an Iterative Approximation Module (IAM), which embeds multi-grained videos and texts into a unified, low-dimensional semantic space while preserving essential information for cross-modal alignment. Furthermore, GEXIA is highly scalable with no restrictions on the number of video-text granularities for alignment. We evaluate our work on three categories of video tasks across seven benchmark datasets, showcasing state-of-the-art or comparable performance. Remarkably, our model excels in tasks involving long-form video understanding, even though the pretraining dataset only contains short video clips.
arxiv情報
著者 | Yicheng Wang,Zhikang Zhang,Jue Wang,David Fan,Zhenlin Xu,Linda Liu,Xiang Hao,Vimal Bhat,Xinyu Li |
発行日 | 2024-12-10 17:50:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google