Temporal and cross-modal attention for audio-visual zero-shot learning

要約

ビデオ分類のための視聴覚一般化ゼロショット学習では、テスト時に以前は見られなかった新しいクラスのサンプルを認識できるようにするために、音声情報と視覚情報の関係を理解する必要があります。
ビデオデータのオーディオデータとビジュアルデータ間の自然な意味的および時間的アラインメントを利用して、テスト時に見えないクラスに一般化する強力な表現を学習できます。
視聴覚一般化ゼロショット学習のためのマルチモーダルで時間的なクロスアテンションフレームワーク(\ modelName)を提案します。
その入力は、事前にトレーニングされたネットワークから取得された、時間的に調整されたオーディオおよびビジュアル機能です。
モダリティ内の自己注意ではなく、時間の経過に伴うクロスモーダル対応に焦点を当てるようにフレームワークを奨励すると、パフォーマンスが大幅に向上します。
時間的特徴を取り込む提案されたフレームワークが、(一般化された)ゼロショット学習の\ ucf、\ vgg、および\activityベンチマークで最先端のパフォーマンスをもたらすことを示します。
すべての結果を再現するためのコードは、\url{https://github.com/ExplainableML/TCAF-GZSL}で入手できます。

要約(オリジナル)

Audio-visual generalised zero-shot learning for video classification requires understanding the relations between the audio and visual information in order to be able to recognise samples from novel, previously unseen classes at test time. The natural semantic and temporal alignment between audio and visual data in video data can be exploited to learn powerful representations that generalise to unseen classes at test time. We propose a multi-modal and Temporal Cross-attention Framework (\modelName) for audio-visual generalised zero-shot learning. Its inputs are temporally aligned audio and visual features that are obtained from pre-trained networks. Encouraging the framework to focus on cross-modal correspondence across time instead of self-attention within the modalities boosts the performance significantly. We show that our proposed framework that ingests temporal features yields state-of-the-art performance on the \ucf, \vgg, and \activity benchmarks for (generalised) zero-shot learning. Code for reproducing all results is available at \url{https://github.com/ExplainableML/TCAF-GZSL}.

arxiv情報

著者 Otniel-Bogdan Mercea,Thomas Hummel,A. Sophia Koepke,Zeynep Akata
発行日 2022-07-20 15:19:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク