要約
ビデオ分類タスクにおけるオーディオビジュアルフュージョンのための斬新で効率的なアプローチであるAttend-Fusionを紹介します。
私たちの方法は、コンパクトなモデル アーキテクチャを維持しながら、オーディオとビジュアルの両方のモダリティを活用するという課題に対処します。
YouTube-8M データセットでの広範な実験を通じて、当社の Attend-Fusion は、大規模なベースライン モデルと比較してモデルの複雑さを大幅に軽減しながら、競争力のあるパフォーマンスを達成できることを実証しました。
要約(オリジナル)
We present Attend-Fusion, a novel and efficient approach for audio-visual fusion in video classification tasks. Our method addresses the challenge of exploiting both audio and visual modalities while maintaining a compact model architecture. Through extensive experiments on the YouTube-8M dataset, we demonstrate that our Attend-Fusion achieves competitive performance with significantly reduced model complexity compared to larger baseline models.
arxiv情報
| 著者 | Mahrukh Awan,Asmar Nadeem,Armin Mustafa |
| 発行日 | 2024-11-08 14:47:28+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google