Actor-agnostic Multi-label Action Recognition with Multi-modal Query

要約

既存のアクション認識方法は、アクター間の本質的なトポロジー的および見かけ上の違いにより、通常はアクター固有です。
これには、アクター固有のポーズ推定 (人間対動物など) が必要となり、モデル設計が複雑になり、メンテナンスコストが高くなります。
さらに、彼らは多くの場合、視覚的モダリティのみと単一ラベル分類の学習に重点を置き、他の利用可能な情報ソース (クラス名のテキストなど) や複数のアクションの同時発生を無視します。
これらの制限を克服するために、我々は、人間や動物を含むさまざまなタイプのアクターに統一されたソリューションを提供する「アクターに依存しないマルチモーダルマルチラベルアクション認識」と呼ばれる新しいアプローチを提案します。
さらに、トランスフォーマーベースのオブジェクト検出フレームワーク (DETR など) で新しいマルチモーダル セマンティック クエリ ネットワーク (MSQNet) モデルを定式化します。これは、アクション クラスをより適切に表現するために視覚的およびテキストのモダリティを活用することを特徴とします。
アクター固有のモデル設計が不要になることは、アクターの姿勢推定の必要性が完全になくなるため、重要な利点となります。
公開されている 5 つのベンチマークに関する広範な実験により、当社の MSQNet は、人間および動物の単一および複数ラベルのアクション認識タスクにおいて、アクター固有の代替案の従来技術よりも一貫して最大 50% 優れていることが示されています。
コードは https://github.com/mondalanindya/MSQNet で入手できます。

要約(オリジナル)

Existing action recognition methods are typically actor-specific due to the intrinsic topological and apparent differences among the actors. This requires actor-specific pose estimation (e.g., humans vs. animals), leading to cumbersome model design complexity and high maintenance costs. Moreover, they often focus on learning the visual modality alone and single-label classification whilst neglecting other available information sources (e.g., class name text) and the concurrent occurrence of multiple actions. To overcome these limitations, we propose a new approach called ‘actor-agnostic multi-modal multi-label action recognition,’ which offers a unified solution for various types of actors, including humans and animals. We further formulate a novel Multi-modal Semantic Query Network (MSQNet) model in a transformer-based object detection framework (e.g., DETR), characterized by leveraging visual and textual modalities to represent the action classes better. The elimination of actor-specific model designs is a key advantage, as it removes the need for actor pose estimation altogether. Extensive experiments on five publicly available benchmarks show that our MSQNet consistently outperforms the prior arts of actor-specific alternatives on human and animal single- and multi-label action recognition tasks by up to 50%. Code is made available at https://github.com/mondalanindya/MSQNet.

arxiv情報

著者 Anindya Mondal,Sauradip Nag,Joaquin M Prada,Xiatian Zhu,Anjan Dutta
発行日 2024-01-10 12:18:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, eess.IV パーマリンク