要約
行動認識におけるアノテーションコストを削減するために、ラベル付けされたデータセット(すなわち、ソースドメイン)からラベル付けされていないデータセット(すなわち、ターゲットドメイン)に予測モデルを適応させることを目的とした教師なしビデオドメイン適応法が提案されている。この研究では、ターゲットデータセットがソースと共有されていない「未知の」意味カテゴリを含む、オープンセットビデオドメイン適応(OUVDA)と呼ばれる、より現実的なシナリオを扱う。課題は、未知のクラスから共有クラスを分離しながら、2つのドメインの共有クラスを整合させることにある。本研究では、識別可能でよくクラスタ化された特徴を学習する統一的な対比学習フレームワークにより、OUVDAに取り組むことを提案する。また、ビデオデータに含まれる時間情報を利用することで、特徴空間をより適切にクラスタリングすることを可能にするビデオ指向の時間的コントラストロスを提案する。我々は、識別可能な特徴空間が未知のクラスの分離を容易にし、それにより、単純な類似度に基づくスコアを用いて未知のクラスを識別することが可能であることを示す。複数のOUVDAベンチマークを用いた徹底的な実験評価を行い、提案手法の先行技術に対する有効性を示す。
要約(オリジナル)
In an effort to reduce annotation costs in action recognition, unsupervised video domain adaptation methods have been proposed that aim to adapt a predictive model from a labelled dataset (i.e., source domain) to an unlabelled dataset (i.e., target domain). In this work we address a more realistic scenario, called open-set video domain adaptation (OUVDA), where the target dataset contains ‘unknown’ semantic categories that are not shared with the source. The challenge lies in aligning the shared classes of the two domains while separating the shared classes from the unknown ones. In this work we propose to address OUVDA with an unified contrastive learning framework that learns discriminative and well-clustered features. We also propose a video-oriented temporal contrastive loss that enables our method to better cluster the feature space by exploiting the freely available temporal information in video data. We show that discriminative feature space facilitates better separation of the unknown classes, and thereby allows us to use a simple similarity based score to identify them. We conduct thorough experimental evaluation on multiple OUVDA benchmarks and show the effectiveness of our proposed method against the prior art.
arxiv情報
著者 | Giacomo Zara,Victor Guilherme Turrisi da Costa,Subhankar Roy,Paolo Rota,Elisa Ricci |
発行日 | 2023-01-09 13:16:50+00:00 |
arxivサイト | arxiv_id(pdf) |