Hybrid Transformer with Multi-level Fusion for Multimodal Knowledge Graph Completion

要約

ビジュアルテキストの事実知識を整理するマルチモーダル ナレッジ グラフ (MKG) は、最近、情報検索、質問応答、推奨システムなどのタスクに適用されて成功しています。
ほとんどの MKG は完成には程遠いため、マルチモーダル エンティティ、関係抽出、リンク予測に焦点を当てた広範なナレッジ グラフ完成研究が提案されています。
ただし、さまざまなタスクやモダリティにはモデル アーキテクチャの変更が必要であり、すべての画像/オブジェクトがテキスト入力に関連しているわけではないため、現実世界の多様なシナリオへの適用が妨げられます。
本稿では、これらの問題を解決するために、多層融着を備えたハイブリッド変圧器を提案します。
具体的には、統合された入出力を備えたハイブリッド トランスフォーマー アーキテクチャを利用して、多様なマルチモーダル ナレッジ グラフ完成タスクを実現します。
さらに、粗粒度のプレフィックスガイドによる対話と粒度の細かい相関関係認識融合モジュールを介して視覚的表現とテキスト表現を統合するマルチレベル融合を提案します。
私たちは、MKGformer がマルチモーダル リンク予測、マルチモーダル RE、マルチモーダル NER の 4 つのデータセットで SOTA パフォーマンスを取得できることを検証するために広範な実験を行っています。
コードは https://github.com/zjunlp/MKGformer で入手できます。

要約(オリジナル)

Multimodal Knowledge Graphs (MKGs), which organize visual-text factual knowledge, have recently been successfully applied to tasks such as information retrieval, question answering, and recommendation system. Since most MKGs are far from complete, extensive knowledge graph completion studies have been proposed focusing on the multimodal entity, relation extraction and link prediction. However, different tasks and modalities require changes to the model architecture, and not all images/objects are relevant to text input, which hinders the applicability to diverse real-world scenarios. In this paper, we propose a hybrid transformer with multi-level fusion to address those issues. Specifically, we leverage a hybrid transformer architecture with unified input-output for diverse multimodal knowledge graph completion tasks. Moreover, we propose multi-level fusion, which integrates visual and text representation via coarse-grained prefix-guided interaction and fine-grained correlation-aware fusion modules. We conduct extensive experiments to validate that our MKGformer can obtain SOTA performance on four datasets of multimodal link prediction, multimodal RE, and multimodal NER. Code is available in https://github.com/zjunlp/MKGformer.

arxiv情報

著者 Xiang Chen,Ningyu Zhang,Lei Li,Shumin Deng,Chuanqi Tan,Changliang Xu,Fei Huang,Luo Si,Huajun Chen
発行日 2023-09-18 16:37:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM パーマリンク