Pose-guided multi-task video transformer for driver action recognition

要約

私たちは、車内ビデオの分析を通じて脇見運転の状況を特定するタスクを調査します。
この課題に取り組むために、注意散漫な行動とドライバーの姿勢の両方を予測するマルチタスク ビデオ トランスフォーマーを導入しました。
大規模な事前トレーニング済みアーキテクチャである VideoMAEv2 を活用する私たちのアプローチは、人間のキーポイントの位置からのセマンティック情報を組み込んで、アクション認識を強化し、時空間トークンの数を最小限に抑えることで計算オーバーヘッドを削減します。
ポーズとクラス情報を使用してトークンの選択をガイドすることで、ベースラインの精度を維持しながらモデルの計算要件を大幅に削減します。
私たちのモデルは、現在のビデオトランスベースのアプローチと比較して優れた効率を示しながら、ドライバーの動作認識において既存の最先端の結果を上回っています。

要約(オリジナル)

We investigate the task of identifying situations of distracted driving through analysis of in-car videos. To tackle this challenge we introduce a multi-task video transformer that predicts both distracted actions and driver pose. Leveraging VideoMAEv2, a large pre-trained architecture, our approach incorporates semantic information from human keypoint locations to enhance action recognition and decrease computational overhead by minimizing the number of spatio-temporal tokens. By guiding token selection with pose and class information, we notably reduce the model’s computational requirements while preserving the baseline accuracy. Our model surpasses existing state-of-the art results in driver action recognition while exhibiting superior efficiency compared to current video transformer-based approaches.

arxiv情報

著者 Ricardo Pizarro,Roberto Valle,Luis Miguel Bergasa,José M. Buenaposada,Luis Baumela
発行日 2024-07-18 17:53:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク