要約
異なるモダリティ(オーディオとビジュアル)にわたるイベントの時間的ローカリゼーションと分類に焦点を当てた視聴覚イベント認識のドメインでは、既存のアプローチは、トレーニングデータで利用可能な語彙によって制約されます。
この制限は、斬新で目に見えないイベントカテゴリに一般化する能力を大幅に妨げます。
さらに、このタスクの注釈プロセスは労働集約的であり、モダリティと時間セグメント全体の広範な手動ラベル付けが必要であり、現在の方法のスケーラビリティを制限します。
現在の最先端のモデルは、時間の経過に伴うイベント分布のシフトを無視し、ビデオダイナミクスの変化に適応する能力を低下させます。
さらに、以前の方法は、オーディオと視覚情報を組み合わせるために後期融合に依存しています。
簡単ですが、このアプローチはマルチモーダル相互作用の大幅な損失をもたらします。
これらの課題に対処するために、オーディオビジュアルアダプティブビデオ分析($ \ text {av}^2 \ text {a} $)を提案します。これは、さらなるトレーニングを必要とせず、より豊富なマルチモーダル相互作用を維持するためのスコアレベルの融合技術を統合するモデルに依存しないアプローチです。
$ \ text {av}^2 \ text {a} $には、ビデオ内のレーベルシフトアルゴリズムも含まれています。これは、以前のフレームから入力ビデオデータと予測を活用して、後続のフレームのイベント分布を動的に調整します。
さらに、オーディオビジュアルイベント認識のための最初のトレーニングフリーのオープンボキャブラリーベースラインを提示し、$ \ Text {AV}^2 \ Text {A} $が、素朴なトレーニングのないベースラインよりも実質的な改善を達成することを示しています。
ゼロショットと弱く監視されている最先端の方法の両方で、$ \ text {av}^2 \ text {a} $の有効性を実証し、既存のアプローチよりもパフォーマンスメトリックの顕著な改善を達成します。
要約(オリジナル)
In the domain of audio-visual event perception, which focuses on the temporal localization and classification of events across distinct modalities (audio and visual), existing approaches are constrained by the vocabulary available in their training data. This limitation significantly impedes their capacity to generalize to novel, unseen event categories. Furthermore, the annotation process for this task is labor-intensive, requiring extensive manual labeling across modalities and temporal segments, limiting the scalability of current methods. Current state-of-the-art models ignore the shifts in event distributions over time, reducing their ability to adjust to changing video dynamics. Additionally, previous methods rely on late fusion to combine audio and visual information. While straightforward, this approach results in a significant loss of multimodal interactions. To address these challenges, we propose Audio-Visual Adaptive Video Analysis ($\text{AV}^2\text{A}$), a model-agnostic approach that requires no further training and integrates a score-level fusion technique to retain richer multimodal interactions. $\text{AV}^2\text{A}$ also includes a within-video label shift algorithm, leveraging input video data and predictions from prior frames to dynamically adjust event distributions for subsequent frames. Moreover, we present the first training-free, open-vocabulary baseline for audio-visual event perception, demonstrating that $\text{AV}^2\text{A}$ achieves substantial improvements over naive training-free baselines. We demonstrate the effectiveness of $\text{AV}^2\text{A}$ on both zero-shot and weakly-supervised state-of-the-art methods, achieving notable improvements in performance metrics over existing approaches.
arxiv情報
著者 | Eitan Shaar,Ariel Shaulov,Gal Chechik,Lior Wolf |
発行日 | 2025-03-21 17:50:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google