KGMEL: Knowledge Graph-Enhanced Multimodal Entity Linking

要約

エンティティリンク(EL)は、テキストの言及を知識ベースの対応するエンティティと整列させ、セマンティック検索や質問応答などのさまざまなアプリケーションを促進します。
マルチモーダルエンティティリンク(MEL)の最近の進歩は、テキストと画像を組み合わせることで曖昧さを低下させ、アライメントの精度を改善できることを示しています。
ただし、ほとんどの既存のMELメソッドは、知識グラフ(kg)トリプルの形で利用可能な豊富な構造情報を見落としています。
この論文では、KGトリプルを活用してMELを強化する新しいフレームワークであるKgmelを提案します。
具体的には、次の3つの段階で動作します。(1)世代:テキストと画像に基づいてビジョン言語モデルを採用することにより、各言及に対して高品質のトリプルを生成します。
(2)検索:対照的な学習を介して、テキスト、画像、および(生成されたまたはkg)トリプルを統合するために各言及の候補エンティティを取得する共同言及エンティティ表現を学習します。
(3)Reranking:候補エンティティのKGトリプルを洗練し、大きな言語モデルを採用して、言及に最適なエンティティを特定します。
ベンチマークデータセットでの広範な実験は、KGMELが既存の方法よりも優れていることを示しています。
コードとデータセットは、https://github.com/juyeonnn/kgmelで入手できます。

要約(オリジナル)

Entity linking (EL) aligns textual mentions with their corresponding entities in a knowledge base, facilitating various applications such as semantic search and question answering. Recent advances in multimodal entity linking (MEL) have shown that combining text and images can reduce ambiguity and improve alignment accuracy. However, most existing MEL methods overlook the rich structural information available in the form of knowledge-graph (KG) triples. In this paper, we propose KGMEL, a novel framework that leverages KG triples to enhance MEL. Specifically, it operates in three stages: (1) Generation: Produces high-quality triples for each mention by employing vision-language models based on its text and images. (2) Retrieval: Learns joint mention-entity representations, via contrastive learning, that integrate text, images, and (generated or KG) triples to retrieve candidate entities for each mention. (3) Reranking: Refines the KG triples of the candidate entities and employs large language models to identify the best-matching entity for the mention. Extensive experiments on benchmark datasets demonstrate that KGMEL outperforms existing methods. Our code and datasets are available at: https://github.com/juyeonnn/KGMEL.

arxiv情報

著者 Juyeon Kim,Geon Lee,Taeuk Kim,Kijung Shin
発行日 2025-04-21 14:38:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR パーマリンク