Audio-visual Event Localization on Portrait Mode Short Videos

要約

視聴覚イベントのローカリゼーション(AVEL)は、マルチモーダルシーンの理解において重要な役割を果たします。
Avelの既存のデータセットは、クリーンでシンプルなオーディオコンテキストを備えたランドスケープ指向の長いビデオで構成されていますが、短いビデオは、スマートフォンの拡散により、オンラインビデオコンテンツの主要な形式になりました。
短いビデオの特徴は、ポートレート指向のフレーミングと階層化されたオーディオ構成(たとえば、オーバーラップサウンドエフェクト、ナレーション、音楽など)で、従来の方法では対処されていないユニークな課題をもたらします。
この目的のために、フレームレベルの注釈を備えた86の微調整されたカテゴリにまたがる25,335のクリップで構成される、ポートレートモードの短いビデオ用に特別に設計された最初のAVELデータセットであるAVE-PMを紹介します。
データセットの作成を超えて、当社の経験的分析は、最先端のAVELメソッドがクロスモード評価中に平均18.66%のパフォーマンス低下を被ることを示しています。
さらなる分析により、さまざまなビデオ形式の2つの重要な課題が明らかになります。1)ポートレート指向のフレーミングからの空間的バイアスは、個別のドメインプリエアを導入し、2)ノイズの多いオーディオ構成は、オーディオモダリティの信頼性を損なうことを明らかにします。
これらの問題に対処するために、最適な前処理レシピと、Avelのバックグラウンドミュージックがポートレートモードのビデオに与える影響を調査します。
実験は、これらの方法が調整された前処理と特殊なモデル設計から依然として恩恵を受けることができることを示しており、パフォーマンスが向上することです。
この作業は、モバイル中心のビデオコンテンツの時代におけるAvel研究を進めるための基礎的なベンチマークと実用的な洞察の両方を提供します。
データセットとコードがリリースされます。

要約(オリジナル)

Audio-visual event localization (AVEL) plays a critical role in multimodal scene understanding. While existing datasets for AVEL predominantly comprise landscape-oriented long videos with clean and simple audio context, short videos have become the primary format of online video content due to the the proliferation of smartphones. Short videos are characterized by portrait-oriented framing and layered audio compositions (e.g., overlapping sound effects, voiceovers, and music), which brings unique challenges unaddressed by conventional methods. To this end, we introduce AVE-PM, the first AVEL dataset specifically designed for portrait mode short videos, comprising 25,335 clips that span 86 fine-grained categories with frame-level annotations. Beyond dataset creation, our empirical analysis shows that state-of-the-art AVEL methods suffer an average 18.66% performance drop during cross-mode evaluation. Further analysis reveals two key challenges of different video formats: 1) spatial bias from portrait-oriented framing introduces distinct domain priors, and 2) noisy audio composition compromise the reliability of audio modality. To address these issues, we investigate optimal preprocessing recipes and the impact of background music for AVEL on portrait mode videos. Experiments show that these methods can still benefit from tailored preprocessing and specialized model design, thus achieving improved performance. This work provides both a foundational benchmark and actionable insights for advancing AVEL research in the era of mobile-centric video content. Dataset and code will be released.

arxiv情報

著者 Wuyang Liu,Yi Chai,Yongpeng Yan,Yanzhen Ren
発行日 2025-04-09 13:38:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.MM パーマリンク