Self-supervised Multi-actor Social Activity Understanding in Streaming Videos

要約

この研究では、監視や支援ロボット工学などの現実世界のタスクにおける重要なコンポーネントである社会活動認識 (SAR) の問題に取り組んでいます。
従来のイベント理解アプローチとは異なり、SAR では、個々のアクターの外観と動作をモデル化し、それらを社会的相互作用の中で文脈化する必要があります。
従来のアクション位置特定手法は、単一アクター、単一アクションを前提としているため、不十分です。
これまでの SAR 研究は、密に注釈が付けられたデータに大きく依存していましたが、プライバシー上の懸念により、現実世界の環境での適用は制限されていました。
この研究では、ストリーミング ビデオにおける SAR のマルチアクター予測学習に基づく自己教師ありアプローチを提案します。
視覚的意味論的なグラフ構造を使用して社会的相互作用をモデル化し、最小限のラベル付きデータで堅牢なパフォーマンスを実現するリレーショナル推論を可能にします。
提案されたフレームワークは、標準的なグループ活動認識ベンチマークで競争力のあるパフォーマンスを達成します。
公開されている 3 つのアクション ローカリゼーション ベンチマークでの評価により、任意のアクション ローカリゼーションへの一般化可能性が実証されています。

要約(オリジナル)

This work addresses the problem of Social Activity Recognition (SAR), a critical component in real-world tasks like surveillance and assistive robotics. Unlike traditional event understanding approaches, SAR necessitates modeling individual actors’ appearance and motions and contextualizing them within their social interactions. Traditional action localization methods fall short due to their single-actor, single-action assumption. Previous SAR research has relied heavily on densely annotated data, but privacy concerns limit their applicability in real-world settings. In this work, we propose a self-supervised approach based on multi-actor predictive learning for SAR in streaming videos. Using a visual-semantic graph structure, we model social interactions, enabling relational reasoning for robust performance with minimal labeled data. The proposed framework achieves competitive performance on standard group activity recognition benchmarks. Evaluation on three publicly available action localization benchmarks demonstrates its generalizability to arbitrary action localization.

arxiv情報

著者 Shubham Trehan,Sathyanarayanan N. Aakur
発行日 2024-06-20 16:33:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク