XKD: Cross-modal Knowledge Distillation with Domain Alignment for Video Representation Learning


要約:本研究では、未ラベル化されたビデオクリップから意味のある表現を学習するための自己監督的フレームワークであるXKDを提案する。XKDは2つの疑似タスクでトレーニングされる。最初に、マスクされたデータ復元を通じてオーディオとビジュアルストリームから個々の表現を学習する。次に、師弟セットアップを介して両側面を学ぶための自己監督 クロスモジュール知識蒸留を行うことで、相補的な情報を学ぶ。また、転送する最も効果的な情報を特定し、知識転送を妨げる可能性のあるオーディオとビジュアルの両側面のドメインギャップに取り組むために、ドメイン化整列と特徴修正戦略を導入する。最後に、オーディオとビジュアルの両方のストリームを処理できる汎用的なネットワークを開発するために、モダリティに依存しないバリアントが導入される。提案されたクロスモーダル知識蒸留は、UCF101で線形評価トップ1精度を8.6%、HMDB51で8.2%、Kinetics-Soundで13.9%、Kinetics400で15.7%向上させる。さらに、モダリティに依存しないバリアントは、異なるダウンストリームタスクを解決するために両方のデータストリームを学習できる汎用的なネットワークを開発するための良い結果を示す。


We present XKD, a novel self-supervised framework to learn meaningful representations from unlabelled video clips. XKD is trained with two pseudo tasks. First, masked data reconstruction is performed to learn individual representations from audio and visual streams. Next, self-supervised cross-modal knowledge distillation is performed between the two modalities through teacher-student setups to learn complementary information. To identify the most effective information to transfer and also to tackle the domain gap between audio and visual modalities which could hinder knowledge transfer, we introduce a domain alignment and feature refinement strategy for effective cross-modal knowledge distillation. Lastly, to develop a general-purpose network capable of handling both audio and visual streams, modality-agnostic variants of our proposed framework are introduced, which use the same backbone for both audio and visual modalities. Our proposed cross-modal knowledge distillation improves linear evaluation top-1 accuracy of video action classification by 8.6% on UCF101, 8.2% on HMDB51, 13.9% on Kinetics-Sound, and 15.7% on Kinetics400. Additionally, our modality-agnostic variant shows promising results in developing a general-purpose network capable of learning both data streams for solving different downstream tasks.


著者 Pritam Sarkar,Ali Etemad
発行日 2023-04-05 06:20:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク