要約
高密度ローカリゼーションの視聴覚イベント(Dave)は、イベントがさまざまな期間を採用して示す可能性のある長いビデオで聞こえると見えるイベントの時間境界と対応するカテゴリを特定することを目的としています。
ただし、複雑な視聴覚シーンには、多くの場合、モダリティ間の非同期化が含まれ、正確なローカリゼーションが困難になります。
既存のDave Solutionsは、Unimodalエンコーダーを介してオーディオと視覚の機能を抽出し、密なクロスモーダル相互作用を介してそれらを融合します。
ただし、独立した単峰性エンコーディングは、モーダルのガイダンスなしでモダリティ間の共有セマンティクスを強調するのに苦労していますが、密集したクロスモーダルの注意は、意味的に無関係な視聴覚機能に過剰に加入する可能性があります。
これらの問題に対処するために、Daveの地域に対応するクロスモーダル通信学習フレームワークであるLocoを提示します。
Locoは、視聴覚イベントの局所的な時間的連続性を、無関係なクロスモーダル信号をフィルタリングし、非モーダルエンコーディング段階とクロスモーダルエンコーディング段階の両方でクロスモーダルアライメントを強化するための重要なガイダンスとして活用します。
i)具体的には、Locoはローカル対応機能(LCF)変調を適用して、ローカルクロスモーダルコヒーレンスに基づいてオーディオと視覚機能の間の一致を変調することにより、モダリティ共有セマンティクスに焦点を当てるためにユニモーダルエンコーダを実施します。
ii)クロスモーダルに関連する機能を改善するために、データ駆動型の方法で注意領域を動的に調整するローカルアダプティブクロスモーダル(LAC)インタラクションをさらにカスタマイズします。
この適応メカニズムは、地元のイベントの境界に注意を向け、さまざまなイベントの持続時間に対応します。
LCFとLACを組み込むことにより、Locoは堅実なパフォーマンスの向上を提供し、既存のDaveメソッドを上回ります。
要約(オリジナル)
Dense-localization Audio-Visual Events (DAVE) aims to identify time boundaries and corresponding categories for events that are both audible and visible in a long video, where events may co-occur and exhibit varying durations. However, complex audio-visual scenes often involve asynchronization between modalities, making accurate localization challenging. Existing DAVE solutions extract audio and visual features through unimodal encoders, and fuse them via dense cross-modal interaction. However, independent unimodal encoding struggles to emphasize shared semantics between modalities without cross-modal guidance, while dense cross-modal attention may over-attend to semantically unrelated audio-visual features. To address these problems, we present LoCo, a Locality-aware cross-modal Correspondence learning framework for DAVE. LoCo leverages the local temporal continuity of audio-visual events as important guidance to filter irrelevant cross-modal signals and enhance cross-modal alignment throughout both unimodal and cross-modal encoding stages. i) Specifically, LoCo applies Local Correspondence Feature (LCF) Modulation to enforce unimodal encoders to focus on modality-shared semantics by modulating agreement between audio and visual features based on local cross-modal coherence. ii) To better aggregate cross-modal relevant features, we further customize Local Adaptive Cross-modal (LAC) Interaction, which dynamically adjusts attention regions in a data-driven manner. This adaptive mechanism focuses attention on local event boundaries and accommodates varying event durations. By incorporating LCF and LAC, LoCo provides solid performance gains and outperforms existing DAVE methods.
arxiv情報
著者 | Ling Xing,Hongyu Qu,Rui Yan,Xiangbo Shu,Jinhui Tang |
発行日 | 2025-05-09 12:14:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google