Efficient Audio-Visual Fusion for Video Classification

要約

ビデオ分類タスクにおけるオーディオビジュアルフュージョンのための斬新で効率的なアプローチであるAttend-Fusionを紹介します。
私たちの方法は、コンパクトなモデル アーキテクチャを維持しながら、オーディオとビジュアルの両方のモダリティを活用するという課題に対処します。
YouTube-8M データセットでの広範な実験を通じて、当社の Attend-Fusion は、大規模なベースライン モデルと比較してモデルの複雑さを大幅に軽減しながら、競争力のあるパフォーマンスを達成できることを実証しました。

要約(オリジナル)

We present Attend-Fusion, a novel and efficient approach for audio-visual fusion in video classification tasks. Our method addresses the challenge of exploiting both audio and visual modalities while maintaining a compact model architecture. Through extensive experiments on the YouTube-8M dataset, we demonstrate that our Attend-Fusion achieves competitive performance with significantly reduced model complexity compared to larger baseline models.

arxiv情報

著者 Mahrukh Awan,Asmar Nadeem,Armin Mustafa
発行日 2024-11-08 14:47:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク