Multiple Heads are Better than One: Mixture of Modality Knowledge Experts for Entity Representation Learning

要約

高品質のマルチモーダルエンティティ表現の学習は、MMKG完了(MMKGC)などのMMKG内の推論タスクを強化できるマルチモーダルナレッジグラフ(MMKG)表現学習の重要な目標です。
主な課題は、大規模なトリプルとエンティティのマルチモーダル機能に隠された構造情報を共同モデル化することです。
既存の方法は、エレガントなエンティティごとのマルチモーダル融合戦略の作成に焦点を当てていますが、多様なリレーショナルコンテキストの下でモダリティ内で隠されたマルチパース視点機能の利用を見落としています。
この問題に対処するために、MODALITY知識の専門家(略してMomok)の混合を備えた新しいフレームワークを紹介して、より良いMMKGCの適応的マルチモーダルエンティティ表現を学びます。
関係ガイド付きモダリティ知識の専門家を設計して、関係認識モダリティの埋め込みを取得し、多数性から予測を統合して共同決定を達成します。
さらに、専門家の相互情報を最小限に抑えることで、専門家を解くことになります。
4つのパブリックMMKGベンチマークでの実験は、複雑なシナリオでMomokの優れたパフォーマンスを示しています。

要約(オリジナル)

Learning high-quality multi-modal entity representations is an important goal of multi-modal knowledge graph (MMKG) representation learning, which can enhance reasoning tasks within the MMKGs, such as MMKG completion (MMKGC). The main challenge is to collaboratively model the structural information concealed in massive triples and the multi-modal features of the entities. Existing methods focus on crafting elegant entity-wise multi-modal fusion strategies, yet they overlook the utilization of multi-perspective features concealed within the modalities under diverse relational contexts. To address this issue, we introduce a novel framework with Mixture of Modality Knowledge experts (MoMoK for short) to learn adaptive multi-modal entity representations for better MMKGC. We design relation-guided modality knowledge experts to acquire relation-aware modality embeddings and integrate the predictions from multi-modalities to achieve joint decisions. Additionally, we disentangle the experts by minimizing their mutual information. Experiments on four public MMKG benchmarks demonstrate the outstanding performance of MoMoK under complex scenarios.

arxiv情報

著者 Yichi Zhang,Zhuo Chen,Lingbing Guo,Yajing Xu,Binbin Hu,Ziqi Liu,Wen Zhang,Huajun Chen
発行日 2025-03-14 15:37:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク