要約
マルチモーダル ナレッジ グラフ構築 (MMKC) とは、テキスト、画像、ビデオなどの複数のモダリティを通じてエンティティと関係の構造化された表現を作成するプロセスを指します。ただし、既存の MMKC モデルには、新しいエンティティと関係の導入の処理に制限があります。
現実世界のダイナミックな性質に。
さらに、MMKC のほとんどの最先端の研究では、テキスト データからのエンティティと関係の抽出のみが考慮されており、他のマルチモーダル ソースは無視されています。
一方、ナレッジ グラフ構築の現在の継続的な設定では、テキスト データからのエンティティと関係の抽出のみが考慮され、他のマルチモーダル ソースは無視されます。
したがって、壊滅的な忘却の現象に対処し、さまざまな形式のデータから抽出された過去の知識を確実に保持するために、継続的なマルチモーダルな知識グラフ構築の課題を検討する必要性が生じます。
この研究は、生涯にわたってマルチモーダルなベンチマーク データセットを開発することで、この複雑なトピックを調査することに焦点を当てています。
いくつかの最先端の MMKC モデルは、マルチメディア データでトレーニングされた場合、継続的な設定でテキスト リソースのみを利用するモデルと比較して予想外にパフォーマンスが低下する可能性があるという経験的発見に基づいて、私たちは生涯にわたるマルチモーダル一貫性のあるトランスフォーマー フレームワーク (LMC) を提案します。
継続的なマルチモーダルナレッジグラフ構築。
継続的な学習のコンテキスト内で一貫した KGC 戦略の利点を組み合わせることで、安定性と可塑性の間のより優れたバランスを実現します。
私たちの実験は、動的なシナリオにおける一般的な継続学習手法やマルチモーダルなアプローチよりも、私たちの方法の優れたパフォーマンスを示しています。
コードとデータセットは https://github.com/zjunlp/ContinueMKGC にあります。
要約(オリジナル)
Multimodal Knowledge Graph Construction (MMKC) refers to the process of creating a structured representation of entities and relationships through multiple modalities such as text, images, videos, etc. However, existing MMKC models have limitations in handling the introduction of new entities and relations due to the dynamic nature of the real world. Moreover, most state-of-the-art studies in MMKC only consider entity and relation extraction from text data while neglecting other multi-modal sources. Meanwhile, the current continual setting for knowledge graph construction only consider entity and relation extraction from text data while neglecting other multi-modal sources. Therefore, there arises the need to explore the challenge of continuous multimodal knowledge graph construction to address the phenomenon of catastrophic forgetting and ensure the retention of past knowledge extracted from different forms of data. This research focuses on investigating this complex topic by developing lifelong multimodal benchmark datasets. Based on the empirical findings that several state-of-the-art MMKC models, when trained on multimedia data, might unexpectedly underperform compared to those solely utilizing textual resources in a continual setting, we propose a Lifelong MultiModal Consistent Transformer Framework (LMC) for continuous multimodal knowledge graph construction. By combining the advantages of consistent KGC strategies within the context of continual learning, we achieve greater balance between stability and plasticity. Our experiments demonstrate the superior performance of our method over prevailing continual learning techniques or multimodal approaches in dynamic scenarios. Code and datasets can be found at https://github.com/zjunlp/ContinueMKGC.
arxiv情報
著者 | Xiang Chen,Jintian Zhang,Xiaohan Wang,Tongtong Wu,Shumin Deng,Yongheng Wang,Luo Si,Huajun Chen,Ningyu Zhang |
発行日 | 2023-05-15 14:58:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google