Interact with me: Joint Egocentric Forecasting of Intent to Interact, Attitude and Social Actions

要約

効率的なヒューマンエージェント相互作用のために、エージェントはターゲットユーザーを積極的に認識し、今後の相互作用に備える必要があります。
この挑戦的な問題を、エージェントと対話するという人の意図、エージェントに対する彼らの態度、およびエージェント(エゴセントリック)の視点から実行する行動を共同で予測するという新しいタスクとして定式化します。
したがって、\ emphing {socialegonet} – 階層的マルチタスク学習アプローチを介してタスク依存関係を悪用するグラフベースの時空間フレームワークを提案します。
SocialEgonetは、高い推論速度のために1秒のビデオ入力からのみ抽出された全身スケルトン(顔、手、体のキーポイント)を使用します。
評価のために、新しいクラスラベルと境界ボックスアノテーションを使用した既存のエゴセントリックヒトエージェント相互作用データセットを強化します。
JPL-Socialという名前のこの増強されたデータセットでの広範な実験は、モデルのいくつかの競合ベースラインを上回るモデルの優れたパフォーマンス(すべてのタスクにわたる平均精度:83.15 \%)を示しています。
追加の注釈とコードは、受け入れられると利用可能になります。

要約(オリジナル)

For efficient human-agent interaction, an agent should proactively recognize their target user and prepare for upcoming interactions. We formulate this challenging problem as the novel task of jointly forecasting a person’s intent to interact with the agent, their attitude towards the agent and the action they will perform, from the agent’s (egocentric) perspective. So we propose \emph{SocialEgoNet} – a graph-based spatiotemporal framework that exploits task dependencies through a hierarchical multitask learning approach. SocialEgoNet uses whole-body skeletons (keypoints from face, hands and body) extracted from only 1 second of video input for high inference speed. For evaluation, we augment an existing egocentric human-agent interaction dataset with new class labels and bounding box annotations. Extensive experiments on this augmented dataset, named JPL-Social, demonstrate \emph{real-time} inference and superior performance (average accuracy across all tasks: 83.15\%) of our model outperforming several competitive baselines. The additional annotations and code will be available upon acceptance.

arxiv情報

著者 Tongfei Bian,Yiming Ma,Mathieu Chollet,Victor Sanchez,Tanaya Guha
発行日 2025-05-08 13:28:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.HC パーマリンク