Exploring Mutual Cross-Modal Attention for Context-Aware Human Affordance Generation

要約

人間のアフォーダンス学習は、推定されたポーズがシーン内の有効な人間の行動を表すように、文脈的に関連する斬新なポーズ予測を調査します。
タスクは機械の知覚と自動化されたインタラクティブナビゲーションエージェントの基本ですが、指数関数的に多数の可能性のあるポーズとアクションのバリエーションにより、問題が挑戦的で自明でないことがあります。
ただし、2Dシーンでの人間のアフォーダンス予測のための既存のデータセットと方法は、文献では大幅に制限されています。
このホワイトペーパーでは、2つの異なるモダリティからの空間機能マップに相互に参加することにより、アフォーダンス予測のシーンコンテキストをエンコードするための新しい分析メカニズムを提案します。
提案された方法は、問題の複雑さを効率的に減らすために、個々のサブタスクの間で解き放たれます。
まず、グローバルシーンコンテキストエンコーディングに条件付けられた変分自動エンコーダー(VAE)を使用して、シーン内の人の可能性のある場所をサンプリングします。
次に、予測場所をエンコードするローカルコンテキストの分類器を使用して、既存の人間のポーズ候補のセットから潜在的なポーズテンプレートを予測します。
後続の手順では、2つのVAEを使用して、ローカルコンテキストとテンプレートクラスを条件付けすることにより、予測ポーズテンプレートのスケールと変形パラメーターをサンプリングします。
私たちの実験は、複雑な2Dシーンへの人間のアフォーダンス注入の以前のベースラインにわたって大幅な改善を示しています。

要約(オリジナル)

Human affordance learning investigates contextually relevant novel pose prediction such that the estimated pose represents a valid human action within the scene. While the task is fundamental to machine perception and automated interactive navigation agents, the exponentially large number of probable pose and action variations make the problem challenging and non-trivial. However, the existing datasets and methods for human affordance prediction in 2D scenes are significantly limited in the literature. In this paper, we propose a novel cross-attention mechanism to encode the scene context for affordance prediction by mutually attending spatial feature maps from two different modalities. The proposed method is disentangled among individual subtasks to efficiently reduce the problem complexity. First, we sample a probable location for a person within the scene using a variational autoencoder (VAE) conditioned on the global scene context encoding. Next, we predict a potential pose template from a set of existing human pose candidates using a classifier on the local context encoding around the predicted location. In the subsequent steps, we use two VAEs to sample the scale and deformation parameters for the predicted pose template by conditioning on the local context and template class. Our experiments show significant improvements over the previous baseline of human affordance injection into complex 2D scenes.

arxiv情報

著者 Prasun Roy,Saumik Bhattacharya,Subhankar Ghosh,Umapada Pal,Michael Blumenstein
発行日 2025-02-19 11:24:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM パーマリンク