Federated Self-supervised Learning for Video Understanding


カメラ付きモバイルデバイスの普及により、ラベル付けされていない大量のビデオデータがエッジで生成されるようになった。このような映像データから時空間表現を抽出し、タスクに応じた学習を行う自己教師あり学習(SSL)が提案されているが、プライバシーや通信コストなどの実用上の問題から、SSLは大規模に展開することができない。これらの課題を軽減するために、我々は動画像SSLのタスクにFederated Learning (FL)を用いることを提案する。この研究では、現在の最新のビデオSSL技術(SOTA)の性能を評価し、kinetics-400データセットでシミュレーションした大規模FL設定に統合した場合の欠点を明らかにする。続いて、異なる集約戦略と部分的な重み更新を統合した、FedVSSLと呼ばれる新しいビデオ用統合型SSLフレームワークを提案する。FedVSSLは、UCF-101で6.66%、HMDB-51で5.13%と、下流検索タスクの集中型SOTAを上回る性能を示し、その有効性と意義を広範な実験により実証する。


The ubiquity of camera-enabled mobile devices has lead to large amounts of unlabelled video data being produced at the edge. Although various self-supervised learning (SSL) methods have been proposed to harvest their latent spatio-temporal representations for task-specific training, practical challenges including privacy concerns and communication costs prevent SSL from being deployed at large scales. To mitigate these issues, we propose the use of Federated Learning (FL) to the task of video SSL. In this work, we evaluate the performance of current state-of-the-art (SOTA) video-SSL techniques and identify their shortcomings when integrated into the large-scale FL setting simulated with kinetics-400 dataset. We follow by proposing a novel federated SSL framework for video, dubbed FedVSSL, that integrates different aggregation strategies and partial weight updating. Extensive experiments demonstrate the effectiveness and significance of FedVSSL as it outperforms the centralized SOTA for the downstream retrieval task by 6.66% on UCF-101 and 5.13% on HMDB-51.


著者 Yasar Abbas Ur Rehman,Yan Gao,Jiajun Shen,Pedro Porto Buarque de Gusmao,Nicholas Lane
発行日 2022-07-05 11:39:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク