Human-Centric Transformer for Domain Adaptive Action Recognition

要約

我々は、アクション認識のためのドメイン適応タスク、すなわちドメイン適応アクション認識を研究します。これは、ラベルが十分なソースドメインからラベルのないターゲットドメインにアクション認識能力を効果的に伝達することを目的としています。
アクションは人間によって実行されるため、ドメイン全体でアクションを認識する場合は、ビデオ内の人間の手がかりを活用することが重要です。
しかし、既存の方法は人間の手がかりを失う傾向がありますが、人間以外のコンテキストとそれに関連するアクションの間の相関を利用して認識することを好み、アクションに依存しない関心のあるコンテキストはターゲットドメインでの認識パフォーマンスを低下させます。
この問題を克服するために、私たちはドメイン適応型行動認識のための人間中心の行動手がかりを明らかにすることに焦点を当てており、私たちの概念は人間中心の行動手がかりの 2 つの側面、すなわち人間の手がかりと人間とコンテキストの相互作用の手がかりを調査することです。
したがって、私たちが提案するHuman-Centric Transformer(HCTransformer)は、ドメインバリアントビデオ特徴学習における人間中心のアクションキューに明示的に集中する、分離された人間中心の学習パラダイムを開発します。
当社の HCTransformer は、まずヒューマン エンコーダーによって人間を意識した時間モデリングを実行し、ドメイン不変のビデオ特徴学習中の人間の手がかりの損失を回避することを目的としています。
次に、HCTransformer は、Transformer のようなアーキテクチャにより、コンテキスト エンコーダーによってドメイン不変コンテキストとアクション相関コンテキストを活用し、人間とアクション相関コンテキスト間のドメイン不変相互作用をさらにモデル化します。
当社は、UCF-HMDB、Kinetics-NecDrone、EPIC-Kitchens-UDA という 3 つのベンチマークで広範な実験を実施しており、最先端のパフォーマンスにより、当社が提案する HCTransformer の有効性が実証されています。

要約(オリジナル)

We study the domain adaptation task for action recognition, namely domain adaptive action recognition, which aims to effectively transfer action recognition power from a label-sufficient source domain to a label-free target domain. Since actions are performed by humans, it is crucial to exploit human cues in videos when recognizing actions across domains. However, existing methods are prone to losing human cues but prefer to exploit the correlation between non-human contexts and associated actions for recognition, and the contexts of interest agnostic to actions would reduce recognition performance in the target domain. To overcome this problem, we focus on uncovering human-centric action cues for domain adaptive action recognition, and our conception is to investigate two aspects of human-centric action cues, namely human cues and human-context interaction cues. Accordingly, our proposed Human-Centric Transformer (HCTransformer) develops a decoupled human-centric learning paradigm to explicitly concentrate on human-centric action cues in domain-variant video feature learning. Our HCTransformer first conducts human-aware temporal modeling by a human encoder, aiming to avoid a loss of human cues during domain-invariant video feature learning. Then, by a Transformer-like architecture, HCTransformer exploits domain-invariant and action-correlated contexts by a context encoder, and further models domain-invariant interaction between humans and action-correlated contexts. We conduct extensive experiments on three benchmarks, namely UCF-HMDB, Kinetics-NecDrone and EPIC-Kitchens-UDA, and the state-of-the-art performance demonstrates the effectiveness of our proposed HCTransformer.

arxiv情報

著者 Kun-Yu Lin,Jiaming Zhou,Wei-Shi Zheng
発行日 2024-07-15 16:10:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク