要約
高密度のローカリゼーション視聴覚イベント(Dave)は、トリミングされていないビデオで聞こえたり同時に見たりすることができるイベントの時間境界と対応するカテゴリを特定することを目的としています。
既存のDave Solutionsは、モダリティ固有のエンコーダーを介してオーディオと視覚の機能を抽出し、密集した相互通知を介して融合します。
各モダリティの独立した処理は相補性を無視し、モダリティ固有のノイズをもたらしますが、密な注意はイベントの局所的な時間的連続性を説明できず、無関係な信号の注意散漫を引き起こします。
この論文では、Daveの地域に対応するクロスモーダル通信学習フレームワークであるLocoを紹介します。
核となるアイデアは、視聴覚イベントのローカルな時間的連続性の性質を探ることです。これは、無関係な情報のフィルタリングを導くための有益でありながら自由な監督信号として機能し、非モーダル学習段階とクロスモーダル学習段階の両方で補完的なマルチモーダル情報の抽出を促します。
i)具体的には、Locoは、追加の注釈なしでクロスモーダルのローカル相関プロパティを活用することにより、ローカリティアウェア対応補正(LCC)を非モーダル機能に適用します。
これにより、Unimodalエンコーダーが実施され、オーディオと視覚的な機能が共有する同様のセマンティクスを強調します。
ii)このようなオーディオと視覚の機能をより適切に集約するために、クロスモーダル機能ピラミッドのクロスモーダル動的知覚層(CDP)をさらにカスタマイズして、データ内のマルチモーダル機能内の局所的な一貫性を課すことにより、視聴覚イベントのローカルな時間パターンを理解します。
ドライブマナー。
LCCとCDPを組み込むことにより、Locoは堅実なパフォーマンスの向上を提供し、既存のDaveメソッドよりも優れています。
要約(オリジナル)
Dense-localization Audio-Visual Events (DAVE) aims to identify time boundaries and corresponding categories for events that can be heard and seen concurrently in an untrimmed video. Existing DAVE solutions extract audio and visual features through modality-specific encoders and fuse them via dense cross-attention. The independent processing of each modality neglects their complementarity, resulting in modality-specific noise, while dense attention fails to account for local temporal continuity of events, causing irrelevant signal distractions. In this paper, we present LoCo, a Locality-aware cross-modal Correspondence learning framework for DAVE. The core idea is to explore local temporal continuity nature of audio-visual events, which serves as informative yet free supervision signals to guide the filtering of irrelevant information and inspire the extraction of complementary multimodal information during both unimodal and cross-modal learning stages. i) Specifically, LoCo applies Locality-aware Correspondence Correction (LCC) to unimodal features via leveraging cross-modal local-correlated properties without any extra annotations. This enforces unimodal encoders to highlight similar semantics shared by audio and visual features. ii) To better aggregate such audio and visual features, we further customize Cross-modal Dynamic Perception layer (CDP) in cross-modal feature pyramid to understand local temporal patterns of audio-visual events by imposing local consistency within multimodal features in a data-driven manner. By incorporating LCC and CDP, LoCo provides solid performance gains and outperforms existing DAVE methods.
arxiv情報
著者 | Ling Xing,Hongyu Qu,Rui Yan,Xiangbo Shu,Jinhui Tang |
発行日 | 2025-02-18 16:22:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google