EXTERN: Leveraging Endo-Temporal Regularization for Black-box Video Domain Adaptation

要約

映像モデルを様々な環境の映像タスクにシームレスに適用できるようにするため、映像モデルの頑健性と移植性を向上させる様々な映像教師なし領域適応(VUDA)手法が提案されています。しかし、これらのVUDA手法は、モデルの頑健性は向上するものの、適応のために元データと元モデルのパラメータの両方にアクセスする必要があり、データプライバシーとモデルの移植性に大きな問題があります。上記の懸念に対処するため、本論文ではまず、より現実的かつ困難なシナリオとしてブラックボックス映像領域適応(BVDA)を定式化し、ソースビデオモデルがブラックボックス予測器としてのみ提供される。画像領域ではブラックボックス領域適応(BDA)のためのいくつかの方法が提案されているが、ビデオモダリティはより複雑な時間的特徴を持ち、整列が難しいため、これらの方法はビデオ領域には適用できない。BVDAに対応するため、我々は、ブラックボックス予測器から得られた予測から知識を抽出しながら、マスク・トゥ・ミックス戦略とビデオに合わせた正則化:エンド時間正則化およびエクソ時間正則化を適用した新しいEndo and eXo-TEmporal Regularized Network (EXTERN) を提案する.実証結果は、様々なクロスドメイン閉集合および部分集合行動認識ベンチマークにおいて、EXTERNの最先端の性能を示し、ソースデータにアクセス可能な既存のビデオドメイン適応手法のほとんどを凌駕するものであった。

要約(オリジナル)

To enable video models to be applied seamlessly across video tasks in different environments, various Video Unsupervised Domain Adaptation (VUDA) methods have been proposed to improve the robustness and transferability of video models. Despite improvements made in model robustness, these VUDA methods require access to both source data and source model parameters for adaptation, raising serious data privacy and model portability issues. To cope with the above concerns, this paper firstly formulates Black-box Video Domain Adaptation (BVDA) as a more realistic yet challenging scenario where the source video model is provided only as a black-box predictor. While a few methods for Black-box Domain Adaptation (BDA) are proposed in image domain, these methods cannot apply to video domain since video modality has more complicated temporal features that are harder to align. To address BVDA, we propose a novel Endo and eXo-TEmporal Regularized Network (EXTERN) by applying mask-to-mix strategies and video-tailored regularizations: endo-temporal regularization and exo-temporal regularization, performed across both clip and temporal features, while distilling knowledge from the predictions obtained from the black-box predictor. Empirical results demonstrate the state-of-the-art performance of EXTERN across various cross-domain closed-set and partial-set action recognition benchmarks, which even surpassed most existing video domain adaptation methods with source data accessibility.

arxiv情報

著者 Yuecong Xu,Jianfei Yang,Min Wu,Xiaoli Li,Lihua Xie,Zhenghua Chen
発行日 2022-08-10 07:09:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク