要約
メトリクス学習はサンプルを埋め込み空間に投影し、そこで学習された表現に基づいて類似性と相違点が定量化されます。
ただし、既存の方法はラベルに基づく表現学習に依存することが多く、オーディオ データやビジュアル データなどのさまざまなモダリティの表現が注釈付きのラベルに基づいて調整されます。
このアプローチでは、ラベルに直接結び付けられていないオーディオおよびビジュアル データの分布に固有の潜在的な複雑な特徴や潜在的な関係が十分に活用されない傾向があり、その結果、オーディオビジュアル埋め込み学習のパフォーマンスが最適化されていません。
この問題に対処するために、クロスモーダル三重項損失と漸進的自己蒸留を統合する新しいアーキテクチャを提案します。
私たちの手法は、固有の分布を活用し、ソフトオーディオビジュアルアライメント(明示的なラベルを超えた固有の関係を捉えるオーディオデータとビジュアルデータ間の確率的アライメント)を動的に調整することで表現学習を強化します。
具体的には、このモデルは、各バッチのサブセット内の注釈付きラベルからオーディオビジュアル配信ベースの知識を抽出します。
この自己抽出された知識は、
要約(オリジナル)
Metric learning projects samples into an embedded space, where similarities and dissimilarities are quantified based on their learned representations. However, existing methods often rely on label-guided representation learning, where representations of different modalities, such as audio and visual data, are aligned based on annotated labels. This approach tends to underutilize latent complex features and potential relationships inherent in the distributions of audio and visual data that are not directly tied to the labels, resulting in suboptimal performance in audio-visual embedding learning. To address this issue, we propose a novel architecture that integrates cross-modal triplet loss with progressive self-distillation. Our method enhances representation learning by leveraging inherent distributions and dynamically refining soft audio-visual alignments — probabilistic alignments between audio and visual data that capture the inherent relationships beyond explicit labels. Specifically, the model distills audio-visual distribution-based knowledge from annotated labels in a subset of each batch. This self-distilled knowledge is used t
arxiv情報
著者 | Donghuo Zeng,Kazushi Ikeda |
発行日 | 2025-01-16 15:32:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google