Interactive Spatiotemporal Token Attention Network for Skeleton-based General Interactive Action Recognition

要約

インタラクティブなアクションを認識することは、人間とロボットのインタラクションとコラボレーションにおいて重要な役割を果たします。
これまでの方法では、遅延融合および同時注意メカニズムを使用してインタラクティブな関係をキャプチャしていましたが、学習能力が限られていたり、よりインタラクションするエンティティに適応するには非効率でした。
各エンティティの事前分布がすでに知られていると仮定すると、主題の多様性に対処するより一般的な設定での評価も欠如し​​ています。
これらの問題に対処するために、空間的、時間的、およびインタラクティブな関係を同時にモデル化する、インタラクティブ時空間トークン アテンション ネットワーク (ISTA-Net) を提案します。
具体的には、私たちのネットワークには、複数の多様なエンティティの動きを表現する統一された方法であるインタラクティブ時空間トークン (IST) を分割するためのトークナイザーが含まれています。
エンティティの次元を拡張することにより、IST はより優れたインタラクティブな表現を提供します。
IST の 3 次元に沿って共同学習するために、3D 畳み込みと統合されたマルチヘッド セルフ アテンション ブロックは、トークン間の相関関係を捕捉するように設計されています。
相関関係をモデル化する場合、エンティティの厳密な順序付けは通常、対話型アクションの認識には無関係です。
この目的を達成するために、交換可能なエンティティの IST の順序性を排除するエンティティの再配置が提案されています。
4 つのデータセットに対する広範な実験により、最先端の方法を上回るパフォーマンスで ISTA-Net の有効性が検証されました。
私たちのコードは https://github.com/Necolizer/ISTA-Net で公開されています。

要約(オリジナル)

Recognizing interactive action plays an important role in human-robot interaction and collaboration. Previous methods use late fusion and co-attention mechanism to capture interactive relations, which have limited learning capability or inefficiency to adapt to more interacting entities. With assumption that priors of each entity are already known, they also lack evaluations on a more general setting addressing the diversity of subjects. To address these problems, we propose an Interactive Spatiotemporal Token Attention Network (ISTA-Net), which simultaneously model spatial, temporal, and interactive relations. Specifically, our network contains a tokenizer to partition Interactive Spatiotemporal Tokens (ISTs), which is a unified way to represent motions of multiple diverse entities. By extending the entity dimension, ISTs provide better interactive representations. To jointly learn along three dimensions in ISTs, multi-head self-attention blocks integrated with 3D convolutions are designed to capture inter-token correlations. When modeling correlations, a strict entity ordering is usually irrelevant for recognizing interactive actions. To this end, Entity Rearrangement is proposed to eliminate the orderliness in ISTs for interchangeable entities. Extensive experiments on four datasets verify the effectiveness of ISTA-Net by outperforming state-of-the-art methods. Our code is publicly available at https://github.com/Necolizer/ISTA-Net

arxiv情報

著者 Yuhang Wen,Zixuan Tang,Yunsheng Pang,Beichen Ding,Mengyuan Liu
発行日 2023-07-14 16:51:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO パーマリンク