Unsupervised Video Domain Adaptation for Action Recognition: A Disentanglement Perspective

要約

教師なしビデオ ドメインの適応は、実際的ではありますが、困難な作業です。
本作では初めて、解きほぐす視点から取り組んでいます。
私たちの重要なアイデアは、もつれを解くことで空間領域と時間領域の発散を別々に処理することです。
具体的には、静的情報のエンコードと動的情報のエンコードという 2 つの潜在要素セットからのクロスドメイン ビデオの生成を検討します。
次に、このような生成をモデル化するために、Transfer Sequential VAE (TranSVAE) フレームワークが開発されます。
適応をより効果的に行うために、潜在的な要因を抑制するためのいくつかの目的を提案します。
これらの制約があるため、静的なドメイン固有の情報を解きほぐすことで空間的相違を容易に除去でき、時間的相違は敵対的学習を通じてフレーム レベルとビデオ レベルの両方からさらに削減されます。
UCF-HMDB、Jester、および Epic-Kitchens データセットに関する広範な実験により、いくつかの最先端のアプローチと比較した TranSVAE の有効性と優位性が検証されています。
コードは公開されています。

要約(オリジナル)

Unsupervised video domain adaptation is a practical yet challenging task. In this work, for the first time, we tackle it from a disentanglement view. Our key idea is to handle the spatial and temporal domain divergence separately through disentanglement. Specifically, we consider the generation of cross-domain videos from two sets of latent factors, one encoding the static information and another encoding the dynamic information. A Transfer Sequential VAE (TranSVAE) framework is then developed to model such generation. To better serve for adaptation, we propose several objectives to constrain the latent factors. With these constraints, the spatial divergence can be readily removed by disentangling the static domain-specific information out, and the temporal divergence is further reduced from both frame- and video-levels through adversarial learning. Extensive experiments on the UCF-HMDB, Jester, and Epic-Kitchens datasets verify the effectiveness and superiority of TranSVAE compared with several state-of-the-art approaches. Code is publicly available.

arxiv情報

著者 Pengfei Wei,Lingdong Kong,Xinghua Qu,Yi Ren,Zhiqiang Xu,Jing Jiang,Xiang Yin
発行日 2023-10-24 10:34:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク