Leveraging Perfect Multimodal Alignment and Gaussian Assumptions for Cross-modal Transfer

要約

Multimodal Alignmentは、同じベクトルに同じ概念マップを表す2つのモダリティを表すジョイント潜在ベクトル空間を構築することを目的としています。
これを逆の問題として定式化し、特定の条件下で完全なアライメントを達成できることを示します。
次に、クロスモーダル転送と呼ばれるアライメントの特定の応用に対処します。
監視されていないクロスモーダル転送は、1つのモダリティで訓練されたモデルを活用して、新しいモダリティにラベル付けされた微調整なしに、別のモダリティに推論を実行することを目的としています。
セマンティッククラスが潜在空間のガウスの混合物として表されていると仮定すると、表現空間からデータポイントを各モダリティを表す異なる部分空間に投影することにより、クロスモーダル転送がどのように実行できるかを示します。
合成マルチモーダルガウスデータに関する実験では、完璧なアライメントおよびクロスモーダル転送方法の有効性が検証されています。
これらの発見が、完全なアライメントの応用と、クロスモーダル学習のためのガウスモデルの使用のさらなる調査を刺激することを願っています。

要約(オリジナル)

Multimodal alignment aims to construct a joint latent vector space where two modalities representing the same concept map to the same vector. We formulate this as an inverse problem and show that under certain conditions perfect alignment can be achieved. We then address a specific application of alignment referred to as cross-modal transfer. Unsupervised cross-modal transfer aims to leverage a model trained with one modality to perform inference on another modality, without any labeled fine-tuning on the new modality. Assuming that semantic classes are represented as a mixture of Gaussians in the latent space, we show how cross-modal transfer can be performed by projecting the data points from the representation space onto different subspaces representing each modality. Our experiments on synthetic multimodal Gaussian data verify the effectiveness of our perfect alignment and cross-modal transfer method. We hope these findings inspire further exploration of the applications of perfect alignment and the use of Gaussian models for cross-modal learning.

arxiv情報

著者 Abhi Kamboj,Minh N. Do
発行日 2025-03-19 15:51:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, eess.SP パーマリンク