Mitigating Modality Bias in Multi-modal Entity Alignment from a Causal Perspective

要約

Multi-Modal Entity Alignment(MMEA)は、重要な情報検索タスクであるさまざまなマルチモーダルナレッジグラフ(MMKG)から同等のエンティティを取得することを目的としています。
既存の研究では、さまざまな融合パラダイムと一貫性の制約を調査して、同等のエンティティの整合性を改善し、視覚的モダリティが常にプラスに貢献するとは限らないと考えています。
経験的には、類似画像が低いエンティティは通常、不十分なパフォーマンスを生成し、視覚的な機能に過度に依存することの制限を強調します。
モデルは視覚的モダリティに偏って、ショートカット画像マッチングタスクにつながると考えています。
これに対処するために、因果的な観点から視覚モダリティバイアスを調査するCDMEAと呼ばれるMMEAの反事実的な紛争フレームワークを提案します。
私たちのアプローチの目的は、視覚モダリティとグラフの両方のモダリティを活用してMMEAを強化しながら、モデル予測に対する視覚モダリティの直接的な因果効果を抑制することを目的としています。
両方のモダリティの合計効果(TE)を推定し、視覚モダリティの自然直接効果(NDE)を除外することにより、モデルが合計間接効果(TIE)に基づいて予測し、モダリティの両方を効果的に利用し、視覚モダリティバイアスの両方を低下させることを確認します。
9つのベンチマークデータセットでの広範な実験では、CDMEAが、特に類似性の低い、高ノイズ、および低リソースのデータシナリオで、14の最先端の方法を上回ることが示されています。

要約(オリジナル)

Multi-Modal Entity Alignment (MMEA) aims to retrieve equivalent entities from different Multi-Modal Knowledge Graphs (MMKGs), a critical information retrieval task. Existing studies have explored various fusion paradigms and consistency constraints to improve the alignment of equivalent entities, while overlooking that the visual modality may not always contribute positively. Empirically, entities with low-similarity images usually generate unsatisfactory performance, highlighting the limitation of overly relying on visual features. We believe the model can be biased toward the visual modality, leading to a shortcut image-matching task. To address this, we propose a counterfactual debiasing framework for MMEA, termed CDMEA, which investigates visual modality bias from a causal perspective. Our approach aims to leverage both visual and graph modalities to enhance MMEA while suppressing the direct causal effect of the visual modality on model predictions. By estimating the Total Effect (TE) of both modalities and excluding the Natural Direct Effect (NDE) of the visual modality, we ensure that the model predicts based on the Total Indirect Effect (TIE), effectively utilizing both modalities and reducing visual modality bias. Extensive experiments on 9 benchmark datasets show that CDMEA outperforms 14 state-of-the-art methods, especially in low-similarity, high-noise, and low-resource data scenarios.

arxiv情報

著者 Taoyu Su,Jiawei Sheng,Duohe Ma,Xiaodong Li,Juwei Yue,Mengxiao Song,Yingkai Tang,Tingwen Liu
発行日 2025-04-28 03:48:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR, cs.MM パーマリンク