要約
近年、研究者は音声信号とビデオ信号の両方を組み合わせて、アクションが視覚的な手がかりによって適切に表現されない、または捉えられないという課題に対処しています。
ただし、2 つの方式を効果的に活用する方法はまだ開発中です。
この研究では、階層表現学習を活用するマルチスケール マルチモーダル トランスフォーマー (MMT) を開発します。
特に、MMT は、新しいマルチスケール オーディオ トランスフォーマー (MAT) とマルチスケール ビデオ トランスフォーマーで構成されます [43]。
識別的なクロスモダリティ融合を学習するために、2 つのモダリティを堅牢に調整するオーディオビデオコントラスト損失 (AVC) およびモーダル内コントラスト損失 (IMC) と呼ばれるマルチモーダル教師付き対比対物レンズをさらに設計します。
MMT は、外部トレーニング データなしでトップ 1 の精度という点で、以前の最先端のアプローチを 7.3%、Kinetics-Sounds と VGGSound で 2.1% 上回っています。
さらに、提案された MAT は、3 つの公開ベンチマーク データセットで AST [28] のパフォーマンスを 22.2%、4.4%、および 4.7% 大幅に上回り、FLOP の数に基づいて約 3%、GPU メモリ使用量に基づいて 9.8% 効率が高くなります。
要約(オリジナル)
In recent years, researchers combine both audio and video signals to deal with challenges where actions are not well represented or captured by visual cues. However, how to effectively leverage the two modalities is still under development. In this work, we develop a multiscale multimodal Transformer (MMT) that leverages hierarchical representation learning. Particularly, MMT is composed of a novel multiscale audio Transformer (MAT) and a multiscale video Transformer [43]. To learn a discriminative cross-modality fusion, we further design multimodal supervised contrastive objectives called audio-video contrastive loss (AVC) and intra-modal contrastive loss (IMC) that robustly align the two modalities. MMT surpasses previous state-of-the-art approaches by 7.3% and 2.1% on Kinetics-Sounds and VGGSound in terms of the top-1 accuracy without external training data. Moreover, the proposed MAT significantly outperforms AST [28] by 22.2%, 4.4% and 4.7% on three public benchmark datasets, and is about 3% more efficient based on the number of FLOPs and 9.8% more efficient based on GPU memory usage.
arxiv情報
著者 | Wentao Zhu |
発行日 | 2024-01-08 17:02:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google