Efficient Audio-Visual Fusion for Video Classification

要約

ビデオ分類タスクにおけるオーディオビジュアルフュージョンのための斬新で効率的なアプローチであるAttend-Fusionを紹介します。
私たちの方法は、コンパクトなモデルアーキテクチャを維持しながら、オーディオとビジュアルの両方のモダリティを活用するという課題に対処します。
YouTube-8M データセットでの広範な実験を通じて、当社の Attend-Fusion は、大規模なベースラインモデルと比較してモデルの複雑さを大幅に軽減しながら、競争力のあるパフォーマンスを達成できることを実証しました。

要約(オリジナル)

We present Attend-Fusion, a novel and efficient approach for audio-visual fusion in video classification tasks. Our method addresses the challenge of exploiting both audio and visual modalities while maintaining a compact model architecture. Through extensive experiments on the YouTube-8M dataset, we demonstrate that our Attend-Fusion achieves competitive performance with significantly reduced model complexity compared to larger baseline models.

arxiv情報

著者	Mahrukh Awan,Asmar Nadeem,Armin Mustafa
発行日	2024-11-08 14:47:28+00:00
arxivサイト	arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

Efficient Audio-Visual Fusion for Video Classification

要約

要約(オリジナル)

arxiv情報

提供元, 利用サービス

最近の投稿

最近のコメント

アーカイブ

カテゴリー