Exploring Typographic Visual Prompts Injection Threats in Cross-Modality Generation Models

要約

現在のクロスモダリティ生成モデル(GMS)は、さまざまな生成タスクで顕著な能力を示しています。
現実世界のシナリオ、クロスビジョン、ビジョン言語知覚(VLP)を含むクロスビジョン(I2I)(I2I)における視覚モダリティ入力の遍在性と情報の豊かさを考えると、タスクは大きな注目を集めています。
大規模なビジョン言語モデル(LVLMS)とI2I GMは、それぞれVLPおよびI2Iタスクを処理するために採用されています。
以前の研究では、入力画像にタイポグラフィの単語を印刷すると、LVLMSとI2I GMが大幅に誘導して、それらの単語に意味的に関連する破壊的な出力を生成することが示されています。
さらに、より洗練された形式のタイポグラフィとしての視覚プロンプトは、画像に注入されたときにVLPタスクのさまざまなアプリケーションにセキュリティリスクをもたらすことも明らかにされています。
このホワイトペーパーでは、さまざまなLVLMSおよびI2I GMのタイポグラフィ視覚迅速な促進(TVPI)によって引き起こされるパフォーマンスへの影響を包括的に調査します。
この脅威のパフォーマンスの変更と特性をよりよく観察するために、TVPIデータセットも紹介します。
広範な探求を通じて、私たちはさまざまなGMにおけるTVPIの脅威の根本的な原因の理解を深め、その潜在的な起源に関する貴重な洞察を提供します。

要約(オリジナル)

Current Cross-Modality Generation Models (GMs) demonstrate remarkable capabilities in various generative tasks. Given the ubiquity and information richness of vision modality inputs in real-world scenarios, Cross-vision, encompassing Vision-Language Perception (VLP) and Image-to-Image (I2I), tasks have attracted significant attention. Large Vision Language Models (LVLMs) and I2I GMs are employed to handle VLP and I2I tasks, respectively. Previous research indicates that printing typographic words into input images significantly induces LVLMs and I2I GMs to generate disruptive outputs semantically related to those words. Additionally, visual prompts, as a more sophisticated form of typography, are also revealed to pose security risks to various applications of VLP tasks when injected into images. In this paper, we comprehensively investigate the performance impact induced by Typographic Visual Prompt Injection (TVPI) in various LVLMs and I2I GMs. To better observe performance modifications and characteristics of this threat, we also introduce the TVPI Dataset. Through extensive explorations, we deepen the understanding of the underlying causes of the TVPI threat in various GMs and offer valuable insights into its potential origins.

arxiv情報

著者 Hao Cheng,Erjia Xiao,Yichi Wang,Kaidi Xu,Mengshu Sun,Jindong Gu,Renjing Xu
発行日 2025-03-14 15:42:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | Exploring Typographic Visual Prompts Injection Threats in Cross-Modality Generation Models はコメントを受け付けていません

AdaptGCD: Multi-Expert Adapter Tuning for Generalized Category Discovery

要約

密接な世界の仮定によって制約されている従来の半教師の学習パラダイムとは異なり、一般化されたカテゴリ発見(GCD)は、ラベル付けされたデータセットにはラベル付きセットに表示されない新しいカテゴリが含まれており、古いカテゴリを分類するだけでなく、不規則なデータで新しいカテゴリを発見することを目的としています。
GCDに関する既存の研究は、通常、部分的な調整や迅速な学習などのいくつかの微調整戦略を介して、自己監視された事前処理モデルからターゲットGCDタスクに一般的な知識を転送することに専念しています。
それにもかかわらず、これらの微調整方法は、前処理された骨格の一般化能力とGCDタスクへの適応性との間の健全なバランスをとることができません。
このギャップを埋めるために、このペーパーでは、AdaptGCDという名前の新しいアダプターチューニングベースの方法を提案します。これは、GCDタスクにアダプターのチューニングを導入する最初の作業であり、将来の研究を啓発することが期待される重要な洞察を提供します。
さらに、古いクラスと新しいクラスの間の監督情報の矛盾を考慮すると、ルート割り当ての制約を備えたマルチ専門家アダプター構造が精巧に考案されているため、古いクラスと新しいクラスからのデータが異なる専門家グループに分離されます。
広範な実験は、広く使用されている7つのデータセットで行われます。
パフォーマンスの顕著な改善は、私たちの提案の有効性を強調しています。

要約(オリジナル)

Different from the traditional semi-supervised learning paradigm that is constrained by the close-world assumption, Generalized Category Discovery (GCD) presumes that the unlabeled dataset contains new categories not appearing in the labeled set, and aims to not only classify old categories but also discover new categories in the unlabeled data. Existing studies on GCD typically devote to transferring the general knowledge from the self-supervised pretrained model to the target GCD task via some fine-tuning strategies, such as partial tuning and prompt learning. Nevertheless, these fine-tuning methods fail to make a sound balance between the generalization capacity of pretrained backbone and the adaptability to the GCD task. To fill this gap, in this paper, we propose a novel adapter-tuning-based method named AdaptGCD, which is the first work to introduce the adapter tuning into the GCD task and provides some key insights expected to enlighten future research. Furthermore, considering the discrepancy of supervision information between the old and new classes, a multi-expert adapter structure equipped with a route assignment constraint is elaborately devised, such that the data from old and new classes are separated into different expert groups. Extensive experiments are conducted on 7 widely-used datasets. The remarkable improvements in performance highlight the effectiveness of our proposals.

arxiv情報

著者 Yuxun Qu,Yongqiang Tang,Chenyang Zhang,Wensheng Zhang
発行日 2025-03-14 15:55:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | AdaptGCD: Multi-Expert Adapter Tuning for Generalized Category Discovery はコメントを受け付けていません

FLASHμ: Fast Localizing And Sizing of Holographic Microparticles

要約

回折画像からの微粒子の3D位置とサイズの再構築 – ホログラム – は、物理学ベースの再構築方法を使用して伝統的に解決されてきた計算的に高価な逆問題です。
最近では、研究者は機械学習方法を使用してプロセスを高速化しました。
ただし、大規模なサンプルボリュームの小さな粒子の場合、これらの方法の性能は標準的な物理ベースの再構成方法に及ばないものです。
ここでは、2段階のニューラルネットワークアーキテクチャであるFlash $ \ MU $を設計して、最大20cmまでの大きなサンプル深さを持つホログラムから小さな粒子(6-100 $ \ MU $ m)を検出しました。
物理ノイズが追加された合成データでのみ訓練されたこの方法は、元の解像度の4分の1で標準の再構成ベースのアプローチに匹敵し、標準の再構成ベースのアプローチに匹敵する、実際のホログラムの少なくとも9 $ \ mu $ mの粒子を確実に検出します。
非ローカルオブジェクトの検出または信号デミキシングの問題への新しいアプローチを導入することに加えて、私たちの作業は、低コストのリアルタイムホログラフィックイメージングセットアップを可能にする可能性があります。

要約(オリジナル)

Reconstructing the 3D location and size of microparticles from diffraction images – holograms – is a computationally expensive inverse problem that has traditionally been solved using physics-based reconstruction methods. More recently, researchers have used machine learning methods to speed up the process. However, for small particles in large sample volumes the performance of these methods falls short of standard physics-based reconstruction methods. Here we designed a two-stage neural network architecture, FLASH$\mu$, to detect small particles (6-100$\mu$m) from holograms with large sample depths up to 20cm. Trained only on synthetic data with added physical noise, our method reliably detects particles of at least 9$\mu$m diameter in real holograms, comparable to the standard reconstruction-based approaches while operating on smaller crops, at quarter of the original resolution and providing roughly a 600-fold speedup. In addition to introducing a novel approach to a non-local object detection or signal demixing problem, our work could enable low-cost, real-time holographic imaging setups.

arxiv情報

著者 Ayush Paliwal,Oliver Schlenczek,Birte Thiede,Manuel Santos Pereira,Katja Stieger,Eberhard Bodenschatz,Gholamhossein Bagheri,Alexander Ecker
発行日 2025-03-14 16:04:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, physics.ao-ph, physics.optics | FLASHμ: Fast Localizing And Sizing of Holographic Microparticles はコメントを受け付けていません

AugGen: Synthetic Augmentation Can Improve Discriminative Models

要約

機械学習における大規模なデータセットへの依存の増加は、大きなプライバシーと倫理的課題をもたらします。
合成データ生成は有望なソリューションを提供します。
ただし、ほとんどの現在の方法は、外部データセットまたは事前に訓練されたモデルに依存しており、複雑さを追加し、リソースの需要をエスカレートします。
この作業では、ターゲットデータセットでのみ訓練された条件付き生成モデルから戦略的にサンプルする新しい自己完結型の合成増強技術を紹介します。
このアプローチは、補助データソースの必要性を排除します。
表面認識データセットに適用されるこの方法は、IJB-CおよびIJB-Bベンチマークで1-12 \%のパフォーマンスの改善を達成します。
実際のデータのみでトレーニングされたモデルよりも優れており、最先端の合成データ生成ベースラインのパフォーマンスを超えています。
特に、これらの強化は、しばしば建築の改善を通じて達成されたものを上回り、データスカース環境での合成増強の重要な影響を強調しています。
これらの調査結果は、慎重に統合された合成データがプライバシーとリソースの制約に対処するだけでなく、モデルのパフォーマンスを大幅に向上させることを示しています。
プロジェクトページhttps://parsa-ra.github.io/auggen

要約(オリジナル)

The increasing dependence on large-scale datasets in machine learning introduces significant privacy and ethical challenges. Synthetic data generation offers a promising solution; however, most current methods rely on external datasets or pre-trained models, which add complexity and escalate resource demands. In this work, we introduce a novel self-contained synthetic augmentation technique that strategically samples from a conditional generative model trained exclusively on the target dataset. This approach eliminates the need for auxiliary data sources. Applied to face recognition datasets, our method achieves 1–12\% performance improvements on the IJB-C and IJB-B benchmarks. It outperforms models trained solely on real data and exceeds the performance of state-of-the-art synthetic data generation baselines. Notably, these enhancements often surpass those achieved through architectural improvements, underscoring the significant impact of synthetic augmentation in data-scarce environments. These findings demonstrate that carefully integrated synthetic data not only addresses privacy and resource constraints but also substantially boosts model performance. Project page https://parsa-ra.github.io/auggen

arxiv情報

著者 Parsa Rahimi,Damien Teney,Sebastien Marcel
発行日 2025-03-14 16:10:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | AugGen: Synthetic Augmentation Can Improve Discriminative Models はコメントを受け付けていません

Training Noise Token Pruning

要約

現在の作業では、視覚変圧器のトレーニングノイズトークン(TNT)剪定を提示します。
私たちの方法は、離散トークンドロップ条件を連続添加剤ノイズにリラックスさせ、トレーニングでスムーズな最適化を提供しながら、展開設定で個別のドロップする計算ゲインを保持します。
レート歪みの文献への理論的接続、および以前の剪定方法に対するTNTの利点を示すVITおよびDEITアーキテクチャを使用して、ImagENETデータセットの経験的評価を提供します。

要約(オリジナル)

In the present work we present Training Noise Token (TNT) Pruning for vision transformers. Our method relaxes the discrete token dropping condition to continuous additive noise, providing smooth optimization in training, while retaining discrete dropping computational gains in deployment settings. We provide theoretical connections to Rate-Distortion literature, and empirical evaluations on the ImageNet dataset using ViT and DeiT architectures demonstrating TNT’s advantages over previous pruning methods.

arxiv情報

著者 Mingxing Rao,Bohan Jiang,Daniel Moyer
発行日 2025-03-14 16:12:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Training Noise Token Pruning はコメントを受け付けていません

Similarity-Aware Token Pruning: Your VLM but Faster

要約

視覚変圧器(VITS)およびビジョン言語モデル(VLM)の計算需要は、自己atentionの二次複雑さのために依然として重要な課題です。
Token Pruningは有望なソリューションを提供しますが、既存の方法ではトレーニングのオーバーヘッドを導入するか、レイヤーを越えて動的に適応できないことがよくあります。
トークンの類似性とグラフベースの定式化を活用して、剪定速度と冗長性のしきい値を動的に最適化するグラフベースの定式化を活用するトレーニングフリーのトークンプルーニングフレームワークである聖人を提示します。
体系的な分析を通じて、変圧器の普遍的な3段階トークン進化プロセス(Aligner-Explorer-Aggregator)を特定し、重要な情報を犠牲にすることなく初期段階で積極的な剪定を可能にします。
VITSの場合、Saintは224pxでVIT-H/14のスループットを2倍にし、ImagENET-1Kの精度損失はわずか0.6%で、最も近い競合他社を0.8%上回ります。
VLMSの場合、VITのみ、LLMのみ、ハイブリッドの3つのモードに聖人を適用します。
SaintはLLAVA-13Bのトークンを75%減らし、LLAVA-7Bに匹敵する遅延を達成し、ベンチマーク全体でパフォーマンス損失が1%未満です。
私たちの仕事は、VITとVLMSの効率的な推論のための統一された実用的なフレームワークを確立しています。

要約(オリジナル)

The computational demands of Vision Transformers (ViTs) and Vision-Language Models (VLMs) remain a significant challenge due to the quadratic complexity of self-attention. While token pruning offers a promising solution, existing methods often introduce training overhead or fail to adapt dynamically across layers. We present SAINT, a training-free token pruning framework that leverages token similarity and a graph-based formulation to dynamically optimize pruning rates and redundancy thresholds. Through systematic analysis, we identify a universal three-stage token evolution process (aligner-explorer-aggregator) in transformers, enabling aggressive pruning in early stages without sacrificing critical information. For ViTs, SAINT doubles the throughput of ViT-H/14 at 224px with only 0.6% accuracy loss on ImageNet-1K, surpassing the closest competitor by 0.8%. For VLMs, we apply SAINT in three modes: ViT-only, LLM-only, and hybrid. SAINT reduces LLaVA-13B’s tokens by 75%, achieving latency comparable to LLaVA-7B with less than 1% performance loss across benchmarks. Our work establishes a unified, practical framework for efficient inference in ViTs and VLMs.

arxiv情報

著者 Ahmadreza Jeddi,Negin Baghbanzadeh,Elham Dolatabadi,Babak Taati
発行日 2025-03-14 16:12:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Similarity-Aware Token Pruning: Your VLM but Faster はコメントを受け付けていません

VERIFY: A Benchmark of Visual Explanation and Reasoning for Investigating Multimodal Reasoning Fidelity

要約

視覚的推論は、人間の認知の中心であり、個人が自分の環境を解釈し、抽象的に理解できるようにします。
最近のマルチモーダル大手言語モデル(MLLM)は、言語とビジョン言語のタスク全体で印象的なパフォーマンスを実証していますが、既存のベンチマークは主に認識ベースのスキルを測定し、真の視覚的推論能力を不十分に評価しています。
To bridge this critical gap, we introduce VERIFY, a benchmark explicitly designed to isolate and rigorously evaluate the visual reasoning capabilities of state-of-the-art MLLMs.
視覚情報から主に推論するモデルを強化することを検証し、ドメイン固有の知識と言語バイアスへの依存を減らすために最小限のテキストコンテキストを提供します。
それぞれの問題には、人間が解決した推論パスが伴うため、モデルの意思決定プロセスの詳細な評価を提供した最初の推論です。
さらに、単なる正確さを超えた視覚的推論の忠実度を評価する新しいメトリックを提案し、現在のモデル推論パターンの重要な不均衡を強調します。
主要なMLLMの包括的なベンチマークは、知覚と推論の両方に対するバランスのとれた全体的なアプローチの必要性を強調しており、大きな制限を明らかにしています。
ティーザーとテストの詳細については、プロジェクトページ(https://verify-eqh.pages.dev/)をご覧ください。

要約(オリジナル)

Visual reasoning is central to human cognition, enabling individuals to interpret and abstractly understand their environment. Although recent Multimodal Large Language Models (MLLMs) have demonstrated impressive performance across language and vision-language tasks, existing benchmarks primarily measure recognition-based skills and inadequately assess true visual reasoning capabilities. To bridge this critical gap, we introduce VERIFY, a benchmark explicitly designed to isolate and rigorously evaluate the visual reasoning capabilities of state-of-the-art MLLMs. VERIFY compels models to reason primarily from visual information, providing minimal textual context to reduce reliance on domain-specific knowledge and linguistic biases. Each problem is accompanied by a human-annotated reasoning path, making it the first to provide in-depth evaluation of model decision-making processes. Additionally, we propose novel metrics that assess visual reasoning fidelity beyond mere accuracy, highlighting critical imbalances in current model reasoning patterns. Our comprehensive benchmarking of leading MLLMs uncovers significant limitations, underscoring the need for a balanced and holistic approach to both perception and reasoning. For more teaser and testing, visit our project page (https://verify-eqh.pages.dev/).

arxiv情報

著者 Jing Bi,Junjia Guo,Susan Liang,Guangyu Sun,Luchuan Song,Yunlong Tang,Jinxi He,Jiarui Wu,Ali Vosoughi,Chen Chen,Chenliang Xu
発行日 2025-03-14 16:26:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | VERIFY: A Benchmark of Visual Explanation and Reasoning for Investigating Multimodal Reasoning Fidelity はコメントを受け付けていません

Disentangled Object-Centric Image Representation for Robotic Manipulation

要約

ビジョンからロボット操作スキルを学ぶことは、現実世界のシナリオに広く一般化できるロボット工学アプリケーションを開発するための有望なアプローチです。
そのため、このビジョンを有効にするための多くのアプローチは、実り多い結果で調査されています。
特に、オブジェクト中心の表現方法は、スキル学習のより良い帰納的バイアスを提供することが示されており、パフォーマンスと一般化の改善につながります。
それにもかかわらず、オブジェクト中心の方法は、マルチオブジェクト環境で簡単な操作スキルを学ぶのに苦労する可能性があることを示しています。
したがって、興味のあるオブジェクト、障害物、およびロボットの具体化のオブジェクトを導入するオブジェクト中心のフレームワークであるDocirを提案します。
このアプローチは、マルチオブジェクト環境での視覚入力からスキルを学習し、視覚的な入力からスキルを整えるための最先端のパフォーマンスにつながり、テスト時にシーンの関心のあるオブジェクトとディストラクタの変化に一般化することを示します。
さらに、シミュレーションと現実世界へのゼロショット転送の両方でその有効性を示しています。

要約(オリジナル)

Learning robotic manipulation skills from vision is a promising approach for developing robotics applications that can generalize broadly to real-world scenarios. As such, many approaches to enable this vision have been explored with fruitful results. Particularly, object-centric representation methods have been shown to provide better inductive biases for skill learning, leading to improved performance and generalization. Nonetheless, we show that object-centric methods can struggle to learn simple manipulation skills in multi-object environments. Thus, we propose DOCIR, an object-centric framework that introduces a disentangled representation for objects of interest, obstacles, and robot embodiment. We show that this approach leads to state-of-the-art performance for learning pick and place skills from visual inputs in multi-object environments and generalizes at test time to changing objects of interest and distractors in the scene. Furthermore, we show its efficacy both in simulation and zero-shot transfer to the real world.

arxiv情報

著者 David Emukpere,Romain Deffayet,Bingbing Wu,Romain Brégier,Michael Niemaz,Jean-Luc Meunier,Denys Proux,Jean-Michel Renders,Seungsu Kim
発行日 2025-03-14 16:33:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Disentangled Object-Centric Image Representation for Robotic Manipulation はコメントを受け付けていません

Affinity-VAE: incorporating prior knowledge in representation learning from scientific images

要約

データのコンパクトで解釈可能な表現を学習することは、科学的画像分析における重要な課題です。
ここでは、トレーニング中に学習した表現のデータセットのインスタンスの類似性について科学的な直観を課すことができる生成モデルであるAffinity-Vaeを紹介します。
Cryo-Electron断層撮影(CRYO-ET)の科学的領域におけるアプローチの有用性を実証します。ここでは、重要な現在の課題は、騒々しいコントラスト断層撮影画像の体積内で同様の分子を識別することです。
このタスクは、推論時に、インスタンスがトレーニングセットの一部であるかどうかは不明であるという点で分類とは異なります。
タンパク質構造の事前知識を使用して、潜在的な空間を知らせるために、アフィニティ-VAEを訓練しました。
私たちのモデルは、他のアプローチと比較してクラスター分離が改善され、潜在的な表現に回転する、形態学的に均質なクラスターを作成することができます。
オブジェクトのポーズ、構造的類似性、解釈可能な潜在表現の追加の利点により、タンパク質分類で競争力のあるパフォーマンスを達成します。
Cryo-ETデータのコンテキストでは、Affinity-Vaeは、その後の科学実験のために事前に使用できる3Dの特定されたタンパク質の方向をキャプチャします。
訓練されたネットワークから物理的原理を抽出することは、グラウンドトゥルーストレーニングセットが必ずしも実現可能ではない科学イメージングにおいて非常に重要です。

要約(オリジナル)

Learning compact and interpretable representations of data is a critical challenge in scientific image analysis. Here, we introduce Affinity-VAE, a generative model that enables us to impose our scientific intuition about the similarity of instances in the dataset on the learned representation during training. We demonstrate the utility of the approach in the scientific domain of cryo-electron tomography (cryo-ET) where a significant current challenge is to identify similar molecules within a noisy and low contrast tomographic image volume. This task is distinct from classification in that, at inference time, it is unknown whether an instance is part of the training set or not. We trained affinity-VAE using prior knowledge of protein structure to inform the latent space. Our model is able to create rotationally-invariant, morphologically homogeneous clusters in the latent representation, with improved cluster separation compared to other approaches. It achieves competitive performance on protein classification with the added benefit of disentangling object pose, structural similarity and an interpretable latent representation. In the context of cryo-ET data, affinity-VAE captures the orientation of identified proteins in 3D which can be used as a prior for subsequent scientific experiments. Extracting physical principles from a trained network is of significant importance in scientific imaging where a ground truth training set is not always feasible.

arxiv情報

著者 Marjan Famili,Jola Mirecka,Camila Rangel Smith,Anna Kotańska,Nikolai Juraschko,Beatriz Costa-Gomes,Colin M. Palmer,Jeyan Thiyagalingam,Tom Burnley,Mark Basham,Alan R. Lowe
発行日 2025-03-14 16:34:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, q-bio.QM | Affinity-VAE: incorporating prior knowledge in representation learning from scientific images はコメントを受け付けていません

Anchors Aweigh! Sail for Optimal Unified Multi-Modal Representations

要約

マルチモーダル学習の統一された表現スペースは、テキスト、画像、オーディオなどの多様なデータソースを効果的に統合して、さまざまなダウンストリームタスクの効率とパフォーマンスを向上させるために不可欠です。
ImageBind(Girdhar et al。、2023)などの最近の結合方法は、通常、マルチモーダルデータを調整するための単一の固定アンカーモダリティに依存しています。
これらの固定アンカー結合法を数学的に分析し、重要な制限を明らかにします。(1)アンカーモダリティの選択、(2)モーダル情報の不十分なキャプチャ、および(3)非アンカーモダリティ間のクロスモーダル相関を説明できない。
これらの問題に対処するために、フレームワークのCentrobindによって例示される適応アンカー結合方法の必要性を提案します。
提案された方法は、利用可能なすべてのモダリティから生成された適応的に調整可能な重心ベースのアンカーを使用し、バランスのとれた豊富な表現スペースにつながります。
私たちのアプローチは、すべてのモダリティに及ぶ統一表現を構築しながら、マルチモーダル学習の3つの重要な特性(モーダル学習、インターモーダル学習、マルチモーダルアライメント)をキャプチャすることを理論的に実証します。
合成データセットと現実世界の両方のデータセットでの実験は、Centrobindなどの適応的なアンカー方法が固定アンカー結合方法を常に上回り、分析を検証することを示しています。

要約(オリジナル)

A unified representation space in multi-modal learning is essential for effectively integrating diverse data sources, such as text, images, and audio, to enhance efficiency and performance across various downstream tasks. Recent binding methods, such as ImageBind (Girdhar et al., 2023), typically rely on a single, fixed anchor modality for aligning multi-modal data. We mathematically analyze these fixed anchor binding method and uncover significant limitations: (1) over-reliance on the choice of the anchor modality, (2) inadequate capture of intra-modal information, and (3) failure to account for cross-modal correlation among non-anchored modalities. To address these issues, we propose the need for adaptive anchor binding methods, exemplified by our framework CentroBind. The proposed method uses adaptively adjustable centroid-based anchors generated from all available modalities, leading to a balanced and rich representation space. We theoretically demonstrate that our approach captures three critical properties of multi-modal learning — intra-modal learning, inter-modal learning, and multi-modal alignment — while constructing a unified representation that spans all modalities. Experiments on both synthetic and real-world datasets show that adaptive anchor methods such as CentroBind consistently outperform fixed anchor binding methods, verifying our analysis.

arxiv情報

著者 Minoh Jeong,Min Namgung,Zae Myung Kim,Dongyeop Kang,Yao-Yi Chiang,Alfred Hero
発行日 2025-03-14 16:36:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, stat.ML | Anchors Aweigh! Sail for Optimal Unified Multi-Modal Representations はコメントを受け付けていません