Action Recognition Using Temporal Shift Module and Ensemble Learning

要約

このペーパーでは、\ ACL {ICPR} 2024のマルチモーダル視覚パターン認識ワークショップの一部であるマルチモーダルアクション認識チャレンジの最初のランクソリューションを紹介します。
マルチモーダルソースから収集されたクラス。
提案されたアプローチは、複数のデータ入力タイプを組み込んだビデオデータの時間的ダイナミクスを効率的にキャプチャすることを目的とした手法である\ acl {TSM}に基づいて構築されます。
当社の戦略には、事前に訓練されたモデルを活用するための転送学習が含まれ、その後、チャレンジの特定のデータセットで細心の微調整を行い、20のアクションクラスのパフォーマンスを最適化しました。
バックボーンネットワークを慎重に選択して、計算効率と認識精度のバランスをとり、異なるモダリティからの出力を統合するアンサンブル手法を使用してモデルをさらに改良しました。
このアンサンブルアプローチは、全体的なパフォーマンスを高める上で重要であることが証明されました。
私たちのソリューションは、テストセットで完全なTOP-1精度を達成し、20のクラスで人間の行動を認識する上で提案されたアプローチの有効性を実証しました。
当社のコードは、オンラインで入手できますhttps://github.com/ffyyytt/tsm-mmvpr。

要約(オリジナル)

This paper presents the first-rank solution for the Multi-Modal Action Recognition Challenge, part of the Multi-Modal Visual Pattern Recognition Workshop at the \acl{ICPR} 2024. The competition aimed to recognize human actions using a diverse dataset of 20 action classes, collected from multi-modal sources. The proposed approach is built upon the \acl{TSM}, a technique aimed at efficiently capturing temporal dynamics in video data, incorporating multiple data input types. Our strategy included transfer learning to leverage pre-trained models, followed by meticulous fine-tuning on the challenge’s specific dataset to optimize performance for the 20 action classes. We carefully selected a backbone network to balance computational efficiency and recognition accuracy and further refined the model using an ensemble technique that integrates outputs from different modalities. This ensemble approach proved crucial in boosting the overall performance. Our solution achieved a perfect top-1 accuracy on the test set, demonstrating the effectiveness of the proposed approach in recognizing human actions across 20 classes. Our code is available online https://github.com/ffyyytt/TSM-MMVPR.

arxiv情報

著者 Anh-Kiet Duong,Petra Gomez-Krämer
発行日 2025-01-29 10:36:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク