Knowledge Graphs Meet Multi-Modal Learning: A Comprehensive Survey

要約

ナレッジ グラフ (KG) は、さまざまな AI アプリケーションを進歩させる上で極めて重要な役割を果たしており、セマンティック Web コミュニティによるマルチモーダルな次元の探索により、イノベーションの新たな道が開かれています。
この調査では、KG がマルチモーダル タスクをサポートする KG 主導マルチモーダル (KG4MM) 学習とマルチモーダル ナレッジ グラフ (MM4KG) という 2 つの主要な側面における KG を意識した研究に焦点を当て、300 以上の論文を注意深くレビューします。
、KG 研究を MMKG 領域に拡張します。
まず KG と MMKG を定義し、次にそれらの構築の進行状況を調べます。
私たちのレビューには、2 つの主要なタスク カテゴリが含まれています。画像分類や視覚的質問応答などの KG を意識したマルチモーダル学習タスクと、マルチモーダル ナレッジ グラフの補完やエンティティ アライメントなどの固有の MMKG タスクで、特定の研究の軌跡に焦点を当てています。
これらのタスクのほとんどについて、定義、評価ベンチマークを提供し、さらに、関連する研究を実施するための重要な洞察を概説します。
最後に、現在の課題について説明し、大規模言語モデリングやマルチモーダル事前トレーニング戦略の進歩など、新たなトレンドを特定します。
この調査は、すでに KG およびマルチモーダル学習研究に取り組んでいる、または検討している研究者にとって包括的な参考資料として機能し、MMKG 研究の進化する状況についての洞察を提供し、将来の研究をサポートすることを目的としています。

要約(オリジナル)

Knowledge Graphs (KGs) play a pivotal role in advancing various AI applications, with the semantic web community’s exploration into multi-modal dimensions unlocking new avenues for innovation. In this survey, we carefully review over 300 articles, focusing on KG-aware research in two principal aspects: KG-driven Multi-Modal (KG4MM) learning, where KGs support multi-modal tasks, and Multi-Modal Knowledge Graph (MM4KG), which extends KG studies into the MMKG realm. We begin by defining KGs and MMKGs, then explore their construction progress. Our review includes two primary task categories: KG-aware multi-modal learning tasks, such as Image Classification and Visual Question Answering, and intrinsic MMKG tasks like Multi-modal Knowledge Graph Completion and Entity Alignment, highlighting specific research trajectories. For most of these tasks, we provide definitions, evaluation benchmarks, and additionally outline essential insights for conducting relevant research. Finally, we discuss current challenges and identify emerging trends, such as progress in Large Language Modeling and Multi-modal Pre-training strategies. This survey aims to serve as a comprehensive reference for researchers already involved in or considering delving into KG and multi-modal learning research, offering insights into the evolving landscape of MMKG research and supporting future work.

arxiv情報

著者 Zhuo Chen,Yichi Zhang,Yin Fang,Yuxia Geng,Lingbing Guo,Xiang Chen,Qian Li,Wen Zhang,Jiaoyan Chen,Yushan Zhu,Jiaqi Li,Xiaoze Liu,Jeff Z. Pan,Ningyu Zhang,Huajun Chen
発行日 2024-02-09 09:00:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.IR, cs.LG パーマリンク