要約
ビデオ認識の大規模基礎モデルから視覚言語の知識を転送することが効果的であることが証明されています。
ドメインのギャップを埋めるために、追加のパラメトリック モジュールが追加され、時間情報を取得します。
ただし、ゼロショットの一般化は特殊なパラメーターの数が増加するにつれて減少し、既存の作品はゼロショットとクローズセットのパフォーマンスの間でトレードオフになります。
本稿では、1 つの統一モデル内で一般化と専門化のバランスをとることを可能にする新しいフレームワークである MoTE を紹介します。
私たちのアプローチは、時間的専門家の混合を調整して、さまざまな程度のデータフィッティングで複数のタスクビューを学習します。
各エキスパートの知識を最大限に保存するために、重み空間におけるエキスパートのマージ プロセスを正規化する \emph{Weight Merging Regularization} を提案します。
さらに、時間的特徴変調を使用して、テスト中に時間的特徴の寄与を正規化します。
私たちは、ゼロショットとクローズセットのビデオ認識タスクの間でサウンドバランスを実現し、Kinetics-400 \& 600、UCF、HMDB などのさまざまなデータセットで最先端の結果または競争力のある結果を取得します。
コードは \url{https://github.com/ZMHH-H/MoTE} で入手できます。
要約(オリジナル)
Transferring visual-language knowledge from large-scale foundation models for video recognition has proved to be effective. To bridge the domain gap, additional parametric modules are added to capture the temporal information. However, zero-shot generalization diminishes with the increase in the number of specialized parameters, making existing works a trade-off between zero-shot and close-set performance. In this paper, we present MoTE, a novel framework that enables generalization and specialization to be balanced in one unified model. Our approach tunes a mixture of temporal experts to learn multiple task views with various degrees of data fitting. To maximally preserve the knowledge of each expert, we propose \emph{Weight Merging Regularization}, which regularizes the merging process of experts in weight space. Additionally with temporal feature modulation to regularize the contribution of temporal feature during test. We achieve a sound balance between zero-shot and close-set video recognition tasks and obtain state-of-the-art or competitive results on various datasets, including Kinetics-400 \& 600, UCF, and HMDB. Code is available at \url{https://github.com/ZMHH-H/MoTE}.
arxiv情報
著者 | Minghao Zhu,Zhengpu Wang,Mengxian Hu,Ronghao Dang,Xiao Lin,Xun Zhou,Chengju Liu,Qijun Chen |
発行日 | 2024-10-14 15:00:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google