要約
Audio-Visual Question Answering (AVQA) は、ビデオ内の聴覚情報と視覚情報の両方に基づいて質問に答えるという難しいタスクです。
重要な課題は、視覚オブジェクトと音源の両方を含む複雑なマルチモーダル シーンを解釈し、それらを所定の質問に結び付けることです。
このペーパーでは、AVQA 用に設計された新しいモデルである Source-aware Semantic Representation Network (SaSR-Net) を紹介します。
SaSR-Net は、ソースごとに学習可能なトークンを利用して、視聴覚要素を効率的にキャプチャし、対応する質問と一致させます。
空間的および時間的注意メカニズムを使用して音声情報と視覚情報の融合を合理化し、マルチモーダル シーンで答えを特定します。
Music-AVQA および AVQA-Yang データセットに関する広範な実験により、SaSR-Net が最先端の AVQA 手法よりも優れたパフォーマンスを発揮することが示されました。
要約(オリジナル)
Audio-Visual Question Answering (AVQA) is a challenging task that involves answering questions based on both auditory and visual information in videos. A significant challenge is interpreting complex multi-modal scenes, which include both visual objects and sound sources, and connecting them to the given question. In this paper, we introduce the Source-aware Semantic Representation Network (SaSR-Net), a novel model designed for AVQA. SaSR-Net utilizes source-wise learnable tokens to efficiently capture and align audio-visual elements with the corresponding question. It streamlines the fusion of audio and visual information using spatial and temporal attention mechanisms to identify answers in multi-modal scenes. Extensive experiments on the Music-AVQA and AVQA-Yang datasets show that SaSR-Net outperforms state-of-the-art AVQA methods.
arxiv情報
著者 | ianyu Yang,Yiyang Nan,Lisen Dai,Zhenwen Liang,Yapeng Tian,Xiangliang Zhang |
発行日 | 2024-11-07 18:12:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google