FeatFSDA: Towards Few-shot Domain Adaptation for Video-based Activity Recognition

要約

一般的な時空間アーキテクチャでは、時間次元から生じるパラメータの増加によりオーバーフィッティングの危険性があるため、アクティビティ認識にはドメイン適応が不可欠です。
教師なしドメイン適応方法は広く研究されていますが、ターゲット ドメインからの大規模なラベルなしデータが必要です。
この研究では、ビデオベースのアクティビティ認識のための少数ショット ドメイン適応 (FSDA-AR) に取り組みます。これは、非常に少量のラベル付きターゲット ビデオを活用して、効果的な適応を実現します。
この設定は、まれではあるが認識することが重要なアクティビティを含むことが多い、ターゲット ドメイン内のクラスごとにほんの数例、または 1 つの例だけを記録してラベル付けする必要があるため、アプリケーションにとって魅力的で有望です。
私たちは、確立された 5 つのデータセット (UCF101、HMDB51、EPIC-KITCHEN、Sims4Action、Toyota Smart Home) を使用して FSDA-AR ベンチマークを構築します。
私たちの結果は、FSDA-AR が、ターゲットの例が大幅​​に少ない (まだラベル付けされている) 場合でも、教師なしドメイン適応と同等に機能することを示しています。
さらに、少数のラベル付きターゲット ドメイン サンプルを知識ガイダンスとしてより効果的に活用するための、新しいアプローチである FeatFSDA を提案します。
FeatFSDA には、潜在空間セマンティック隣接損失、ドメイン プロトタイプ類似性損失、およびグラフ注意型ネットワーク ベースのエッジ ドロップアウト手法が組み込まれています。
私たちのアプローチは、FSDA-AR ベンチマーク内のすべてのデータセットで最先端のパフォーマンスを実現します。
ビデオベースのアクティビティ認識のための少数ショット ドメイン適応の今後の研究を促進するために、https://github.com/KPeng9510/FeatFSDA でベンチマークとコードをリリースします。

要約(オリジナル)

Domain adaptation is essential for activity recognition, as common spatiotemporal architectures risk overfitting due to increased parameters arising from the temporal dimension. Unsupervised domain adaptation methods have been extensively studied, yet, they require large-scale unlabeled data from the target domain. In this work, we address few-shot domain adaptation for video-based activity recognition (FSDA-AR), which leverages a very small amount of labeled target videos to achieve effective adaptation. This setting is attractive and promising for applications, as it requires recording and labeling only a few, or even a single example per class in the target domain, which often includes activities that are rare yet crucial to recognize. We construct FSDA-AR benchmarks using five established datasets: UCF101, HMDB51, EPIC-KITCHEN, Sims4Action, and Toyota Smart Home. Our results demonstrate that FSDA-AR performs comparably to unsupervised domain adaptation with significantly fewer (yet labeled) target examples. We further propose a novel approach, FeatFSDA, to better leverage the few labeled target domain samples as knowledge guidance. FeatFSDA incorporates a latent space semantic adjacency loss, a domain prototypical similarity loss, and a graph-attentive-network-based edge dropout technique. Our approach achieves state-of-the-art performance on all datasets within our FSDA-AR benchmark. To encourage future research of few-shot domain adaptation for video-based activity recognition, we will release our benchmarks and code at https://github.com/KPeng9510/FeatFSDA.

arxiv情報

著者 Kunyu Peng,Di Wen,David Schneider,Jiaming Zhang,Kailun Yang,M. Saquib Sarfraz,Rainer Stiefelhagen,Alina Roitberg
発行日 2023-05-15 08:01:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO, eess.IV パーマリンク