要約
マルチモーダル ナレッジ グラフ (MMKG) は、エンティティを包括的に理解するために、さまざまなモーダル データ (テキストや画像など) を組み合わせます。
最近の大規模な MMKG の進歩にもかかわらず、既存の MMKG はエンティティの多側面の性質を無視しており、さまざまな観点からエンティティを理解する能力が制限されています。
この論文では、画像をさまざまなエンティティの側面に照合することによって、アスペクト関連の画像を含む最初の MMKG である AspectMMKG を構築します。
具体的には、知識ベースからアスペクト関連画像を収集し、さらに知識ベースからアスペクト関連文をクエリとして抽出し、オンライン画像検索エンジンを介して多数のアスペクト関連画像を取得します。
最後に、AspectMMKG には、2,380 個のエンティティ、18,139 個のエンティティ アスペクト、および 645,383 個のアスペクト関連イメージが含まれています。
エンティティ アスペクト リンク (EAL) ダウンストリーム タスクにおける AspectMMKG の有用性を実証し、以前の EAL モデルが AspectMMKG の助けを借りて新しい最先端のパフォーマンスを達成することを示します。
アスペクト関連 MMKG の研究を促進するために、AspectMMKG 内のアスペクト関連画像の修正と拡張を目的としたアスペクト関連画像検索 (AIR) モデルをさらに提案します。
エンティティ画像、アスペクト、およびアスペクト画像情報を組み込むことで、エンティティ画像とエンティティのアスペクト関連画像との関係を学習するように AIR モデルをトレーニングします。
実験結果は、AIR モデルがさまざまな側面から特定のエンティティに適した画像を取得できることを示しています。
要約(オリジナル)
Multi-modal knowledge graphs (MMKGs) combine different modal data (e.g., text and image) for a comprehensive understanding of entities. Despite the recent progress of large-scale MMKGs, existing MMKGs neglect the multi-aspect nature of entities, limiting the ability to comprehend entities from various perspectives. In this paper, we construct AspectMMKG, the first MMKG with aspect-related images by matching images to different entity aspects. Specifically, we collect aspect-related images from a knowledge base, and further extract aspect-related sentences from the knowledge base as queries to retrieve a large number of aspect-related images via an online image search engine. Finally, AspectMMKG contains 2,380 entities, 18,139 entity aspects, and 645,383 aspect-related images. We demonstrate the usability of AspectMMKG in entity aspect linking (EAL) downstream task and show that previous EAL models achieve a new state-of-the-art performance with the help of AspectMMKG. To facilitate the research on aspect-related MMKG, we further propose an aspect-related image retrieval (AIR) model, that aims to correct and expand aspect-related images in AspectMMKG. We train an AIR model to learn the relationship between entity image and entity aspect-related images by incorporating entity image, aspect, and aspect image information. Experimental results indicate that the AIR model could retrieve suitable images for a given entity w.r.t different aspects.
arxiv情報
著者 | Jingdan Zhang,Jiaan Wang,Xiaodan Wang,Zhixu Li,Yanghua Xiao |
発行日 | 2023-09-18 14:51:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google