要約
マルチモーダル事前トレーニングの台頭は、統合されたマルチモーダル ナレッジ グラフ (MMKG) 表現学習フレームワークの必要性を浮き彫りにしています。
このようなフレームワークは、構造化された知識をマルチモーダル大規模言語モデルに効果的に埋め込み、知識の誤解やマルチモーダルな幻覚などの問題を軽減するために不可欠です。
この研究では、マルチモーダル ナレッジ グラフ補完 (MKGC) とマルチモーダル エンティティ アライメント (MMEA) という 2 つの重要なタスクを通じて、MMKG 内にエンティティを正確に埋め込むモデルの有効性を調査します。
この基盤に基づいて、モダリティレベルのノイズマスキングを備えたTransformerベースのアーキテクチャを利用して、KG内のマルチモーダルエンティティ機能を堅牢に統合する新しいSNAG方法を提案します。
MKGC と MMEA の両方に特定のトレーニング目標を組み込むことで、私たちのアプローチは合計 10 個のデータセットにわたって SOTA パフォーマンスを達成し、その多用途性を実証しています。
さらに、SNAG はスタンドアロン モデルとして機能するだけでなく、他の既存のメソッドを強化し、安定したパフォーマンスの向上を実現します。
コードとデータは https://github.com/zjukg/SNAG で入手できます。
要約(オリジナル)
The rise of Multi-modal Pre-training highlights the necessity for a unified Multi-Modal Knowledge Graph (MMKG) representation learning framework. Such a framework is essential for embedding structured knowledge into multi-modal Large Language Models effectively, alleviating issues like knowledge misconceptions and multi-modal hallucinations. In this work, we explore the efficacy of models in accurately embedding entities within MMKGs through two pivotal tasks: Multi-modal Knowledge Graph Completion (MKGC) and Multi-modal Entity Alignment (MMEA). Building on this foundation, we propose a novel SNAG method that utilizes a Transformer-based architecture equipped with modality-level noise masking to robustly integrate multi-modal entity features in KGs. By incorporating specific training objectives for both MKGC and MMEA, our approach achieves SOTA performance across a total of ten datasets, demonstrating its versatility. Moreover, SNAG can not only function as a standalone model but also enhance other existing methods, providing stable performance improvements. Code and data are available at https://github.com/zjukg/SNAG.
arxiv情報
著者 | Zhuo Chen,Yin Fang,Yichi Zhang,Lingbing Guo,Jiaoyan Chen,Jeff Z. Pan,Huajun Chen,Wen Zhang |
発行日 | 2025-01-15 06:30:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google