要約
ビデオ内の人間のアクションやアクティビティの認識は、監視と監視、自動運転車、スポーツ分析、人間とロボットのインタラクションなどの用途に使用されるコンピューター ビジョンの基本的なタスクです。
従来の教師あり手法では、トレーニング用に大規模なアノテーション付きデータセットが必要であり、取得に費用と時間がかかります。
この研究では、半教師ありアクション認識のための対照学習を備えたクロスアーキテクチャ擬似ラベリングを使用した新しいアプローチを提案しています。
私たちのフレームワークは、ラベル付きデータとラベルなしデータの両方を活用してビデオ内のアクション表現を堅牢に学習し、擬似ラベル付けと対照学習を組み合わせて、両方のタイプのサンプルから効果的に学習します。
3D 畳み込みニューラル ネットワーク (3D CNN) とビデオ トランスフォーマー (VIT) を利用してアクション表現のさまざまな側面をキャプチャする、新しいクロスアーキテクチャ アプローチを導入します。
したがって、これを ActNetFormer と呼びます。
3D CNN は時間領域での空間特徴と局所的な依存関係のキャプチャに優れていますが、VIT はフレーム全体にわたる長距離の依存関係のキャプチャに優れています。
これらの相補的なアーキテクチャを ActNetFormer フレームワーク内に統合することにより、私たちのアプローチはアクションのローカルおよびグローバルの両方のコンテキスト情報を効果的にキャプチャできます。
この包括的な表現学習により、モデルはこれらの各アーキテクチャの強みを活用して、半教師ありアクション認識タスクでより優れたパフォーマンスを達成できるようになります。
標準的な行動認識データセットの実験結果は、私たちのアプローチが既存の方法よりも優れたパフォーマンスを発揮し、ラベル付きデータのほんの一部で最先端のパフォーマンスを達成できることを示しています。
この作品の公式 Web サイトは https://github.com/rana2149/ActNetFormer から入手できます。
要約(オリジナル)
Human action or activity recognition in videos is a fundamental task in computer vision with applications in surveillance and monitoring, self-driving cars, sports analytics, human-robot interaction and many more. Traditional supervised methods require large annotated datasets for training, which are expensive and time-consuming to acquire. This work proposes a novel approach using Cross-Architecture Pseudo-Labeling with contrastive learning for semi-supervised action recognition. Our framework leverages both labeled and unlabelled data to robustly learn action representations in videos, combining pseudo-labeling with contrastive learning for effective learning from both types of samples. We introduce a novel cross-architecture approach where 3D Convolutional Neural Networks (3D CNNs) and video transformers (VIT) are utilised to capture different aspects of action representations; hence we call it ActNetFormer. The 3D CNNs excel at capturing spatial features and local dependencies in the temporal domain, while VIT excels at capturing long-range dependencies across frames. By integrating these complementary architectures within the ActNetFormer framework, our approach can effectively capture both local and global contextual information of an action. This comprehensive representation learning enables the model to achieve better performance in semi-supervised action recognition tasks by leveraging the strengths of each of these architectures. Experimental results on standard action recognition datasets demonstrate that our approach performs better than the existing methods, achieving state-of-the-art performance with only a fraction of labeled data. The official website of this work is available at: https://github.com/rana2149/ActNetFormer.
arxiv情報
著者 | Sharana Dharshikgan Suresh Dass,Hrishav Bakul Barua,Ganesh Krishnasamy,Raveendran Paramesran,Raphael C. -W. Phan |
発行日 | 2024-04-09 12:09:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google