Unifying Visual and Semantic Feature Spaces with Diffusion Models for Enhanced Cross-Modal Alignment

要約

画像分類モデルは、対象オブジェクトの視覚的な視点の違いや照明の不一致によって引き起こされる画像情報の変動により、現実世界のアプリケーションでは不安定なパフォーマンスを示すことがよくあります。
これらの課題を軽減するために、既存の研究では一般に、視覚データに一致する追加のモーダル情報を組み込んでモデルの学習プロセスを正規化し、複雑な画像領域から高品質の視覚特徴を抽出できるようにしています。
具体的には、マルチモーダル学習の領域では、視覚的特徴と意味論的特徴のドメイン一貫性のある潜在特徴空間を学習することで、異なるモーダル情報を調和させるクロスモーダル調整が効果的な戦略として認識されています。
ただし、このアプローチは、特徴の分布や構造の違いなど、マルチモーダル情報間の異質性により制限に直面する可能性があります。
この問題に対処するために、視覚的なノイズに対するモデルの耐性を強化するように設計されたマルチモーダル アライメントおよび再構築ネットワーク (MARNet) を導入します。
重要なのは、MARNet には、さまざまなドメインにわたる情報をスムーズかつ安定して混合するためのクロスモーダル拡散再構成モジュールが含まれていることです。
Vireo-Food172 と Ingredient-101 の 2 つのベンチマーク データセットで行われた実験は、MARNet がモデルによって抽出された画像情報の品質を効果的に向上させることを示しています。
これは、さまざまな画像分類フレームワークに迅速に統合できるプラグアンドプレイ フレームワークであり、モデルのパフォーマンスを向上させます。

要約(オリジナル)

Image classification models often demonstrate unstable performance in real-world applications due to variations in image information, driven by differing visual perspectives of subject objects and lighting discrepancies. To mitigate these challenges, existing studies commonly incorporate additional modal information matching the visual data to regularize the model’s learning process, enabling the extraction of high-quality visual features from complex image regions. Specifically, in the realm of multimodal learning, cross-modal alignment is recognized as an effective strategy, harmonizing different modal information by learning a domain-consistent latent feature space for visual and semantic features. However, this approach may face limitations due to the heterogeneity between multimodal information, such as differences in feature distribution and structure. To address this issue, we introduce a Multimodal Alignment and Reconstruction Network (MARNet), designed to enhance the model’s resistance to visual noise. Importantly, MARNet includes a cross-modal diffusion reconstruction module for smoothly and stably blending information across different domains. Experiments conducted on two benchmark datasets, Vireo-Food172 and Ingredient-101, demonstrate that MARNet effectively improves the quality of image information extracted by the model. It is a plug-and-play framework that can be rapidly integrated into various image classification frameworks, boosting model performance.

arxiv情報

著者 Yuze Zheng,Zixuan Li,Xiangxian Li,Jinxing Liu,Yuqing Wang,Xiangxu Meng,Lei Meng
発行日 2024-07-26 16:30:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク