要約
教師なしビデオ ドメインの適応は、実用的でありながら困難な作業です。
この作品では、初めて、もつれを解く視点からそれに取り組みます。
私たちの重要なアイデアは、適応プロセス中にデータからドメイン関連の情報を解きほぐすことです。
具体的には、静的ドメイン関連情報をエンコードする 1 つと、時間的および意味関連情報をエンコードする 2 つの潜在的要因からのクロスドメイン ビデオの生成を検討します。
次に、そのような生成をモデル化するために、Transfer Sequential VAE (TranSVAE) フレームワークが開発されます。
適応をより良くするために、TranSVAEの潜在的な要因を制限するためのいくつかの目的をさらに提案します。
UCF-HMDB、Jester、および Epic-Kitchens のデータセットに対する広範な実験により、いくつかの最先端の方法と比較して、TranSVAE の有効性と優位性が検証されています。
コードは https://github.com/ldkong1205/TranSVAE で公開されています。
要約(オリジナル)
Unsupervised video domain adaptation is a practical yet challenging task. In this work, for the first time, we tackle it from a disentanglement view. Our key idea is to disentangle the domain-related information from the data during the adaptation process. Specifically, we consider the generation of cross-domain videos from two sets of latent factors, one encoding the static domain-related information and another encoding the temporal and semantic-related information. A Transfer Sequential VAE (TranSVAE) framework is then developed to model such generation. To better serve for adaptation, we further propose several objectives to constrain the latent factors in TranSVAE. Extensive experiments on the UCF-HMDB, Jester, and Epic-Kitchens datasets verify the effectiveness and superiority of TranSVAE compared with several state-of-the-art methods. Code is publicly available at https://github.com/ldkong1205/TranSVAE.
arxiv情報
著者 | Pengfei Wei,Lingdong Kong,Xinghua Qu,Xiang Yin,Zhiqiang Xu,Jing Jiang,Zejun Ma |
発行日 | 2022-08-15 17:59:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google