Learning Human Action Recognition Representations Without Real Humans

要約

小規模な下流データセットで高いアクション認識パフォーマンスを達成するには、大規模なビデオ データセットでの事前トレーニングが不可欠になっています。
ただし、大規模なビデオ データセットのほとんどには人物の画像が含まれているため、プライバシー、倫理、データ保護に関連する問題が伴い、再現可能な研究のために公開共有することができないことがよくあります。
既存の研究では、顔をぼかしたり、ビデオをダウンサンプリングしたり、合成データでトレーニングしたりすることで、これらの問題を軽減しようと試みてきました。
一方で、プライバシーを保護する事前トレーニング済みモデルの下流タスクへの移行可能性に関する分析は限られています。
この研究では、最初に「実際の人間が含まれていないデータを使用して人間の行動認識用のモデルを事前トレーニングできるか?」という質問をすることで、この問題を研究します。
この目的を達成するために、人間が削除された現実世界のビデオと仮想人間を含む合成データを活用してモデルを事前トレーニングするベンチマークを初めて提示します。
次に、このデータで学習した表現の、下流のアクション認識ベンチマークのさまざまなセットへの転送可能性を評価します。
さらに、合成データと人間が削除した実際のデータを効果的に組み合わせるために、プライバシー保護 MAE-Align と呼ばれる新しい事前トレーニング戦略を提案します。
私たちのアプローチは、線形プローブと微調整の両方において、以前のベースラインよりも最大 5% 優れたパフォーマンスを発揮し、下流タスクにおける人間のアクション認識表現と人間以外のアクション認識表現の間のパフォーマンスのギャップを埋めます。
私たちのベンチマーク、コード、モデルは https://github.com/howardzh01/PPMA で入手できます。

要約(オリジナル)

Pre-training on massive video datasets has become essential to achieve high action recognition performance on smaller downstream datasets. However, most large-scale video datasets contain images of people and hence are accompanied with issues related to privacy, ethics, and data protection, often preventing them from being publicly shared for reproducible research. Existing work has attempted to alleviate these problems by blurring faces, downsampling videos, or training on synthetic data. On the other hand, analysis on the transferability of privacy-preserving pre-trained models to downstream tasks has been limited. In this work, we study this problem by first asking the question: can we pre-train models for human action recognition with data that does not include real humans? To this end, we present, for the first time, a benchmark that leverages real-world videos with humans removed and synthetic data containing virtual humans to pre-train a model. We then evaluate the transferability of the representation learned on this data to a diverse set of downstream action recognition benchmarks. Furthermore, we propose a novel pre-training strategy, called Privacy-Preserving MAE-Align, to effectively combine synthetic data and human-removed real data. Our approach outperforms previous baselines by up to 5% and closes the performance gap between human and no-human action recognition representations on downstream tasks, for both linear probing and fine-tuning. Our benchmark, code, and models are available at https://github.com/howardzh01/PPMA .

arxiv情報

著者 Howard Zhong,Samarth Mishra,Donghyun Kim,SouYoung Jin,Rameswar Panda,Hilde Kuehne,Leonid Karlinsky,Venkatesh Saligrama,Aude Oliva,Rogerio Feris
発行日 2023-11-10 18:38:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク