Vision Transformers are Parameter-Efficient Audio-Visual Learners

要約

【タイトル】ビジョン・トランスフォーマーは効率的なパラメーターでオーディオ・ビジュアル学習器である

【要約】

– ビジョン・トランスフォーマー(ViTs)は、過去数年間、様々なコンピュータビジョンタスクで驚異的な結果を出している。
– 本研究では、視覚データだけで事前学習された凍結されたViTsが、元のパラメーターのファインチューニングなしでオーディオ・ビジュアルデータにも一般化する能力を調べた。
– そのために、元々のすべてのレイヤーに少数の訓練可能なパラメーターを注入することで、事前学習済みのViTsをオーディオ・ビジュアルタスクに適応させるlatent audio-visual hybrid (LAVISH)アダプタを提案した。
– 視覚的および音声的な手がかりを効率的に融合するために、LAVISHアダプタは一連の潜在トークンを使用し、標準的なクロス・アテンションのクワドラチックコストを排除するために注意のボトルネックを形成する。
– 既存のモダリティ特定のオーディオ・ビジュアル方法と比較して、LAVISHアプローチは、チューニング可能なパラメーターが少なく、高価なオーディオ事前学習や外部オーディオエンコーダに頼らず、さまざまなオーディオ・ビジュアルタスクで競争力のある、あるいはより優れたパフォーマンスを発揮した。
– コードはhttps://genjib.github.io/project_page/LAVISH/で入手可能である。

要約(オリジナル)

Vision transformers (ViTs) have achieved impressive results on various computer vision tasks in the last several years. In this work, we study the capability of frozen ViTs, pretrained only on visual data, to generalize to audio-visual data without finetuning any of its original parameters. To do so, we propose a latent audio-visual hybrid (LAVISH) adapter that adapts pretrained ViTs to audio-visual tasks by injecting a small number of trainable parameters into every layer of a frozen ViT. To efficiently fuse visual and audio cues, our LAVISH adapter uses a small set of latent tokens, which form an attention bottleneck, thus, eliminating the quadratic cost of standard cross-attention. Compared to the existing modality-specific audio-visual methods, our approach achieves competitive or even better performance on various audio-visual tasks while using fewer tunable parameters and without relying on costly audio pretraining or external audio encoders. Our code is available at https://genjib.github.io/project_page/LAVISH/

arxiv情報

著者 Yan-Bo Lin,Yi-Lin Sung,Jie Lei,Mohit Bansal,Gedas Bertasius
発行日 2023-04-05 17:41:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.CV, cs.LG, cs.SD, eess.AS パーマリンク