要約
マルチモーダル関係抽出 (MRE) は、文画像ペアのコンテキストに基づいて 2 つのエンティティ間の意味的関係を識別するタスクです。
既存の検索拡張アプローチは主に、取得されたテキスト知識のモデル化に焦点を当てていましたが、これでは複雑な関係を正確に識別できない可能性があります。
予測を改善するために、この研究では、オブジェクト、文、画像全体に基づいてテキストおよび視覚的な証拠を取得することを提案しています。
さらに、同じモダリティと異なるモダリティの間でより適切な推論を行うために、オブジェクトレベル、画像レベル、文レベルの情報を合成する新しいアプローチを開発します。
広範な実験と分析により、提案された方法がモダリティ全体で証拠を効果的に選択および比較でき、最先端のモデルを大幅に上回ることが示されています。
要約(オリジナル)
Multimodal relation extraction (MRE) is the task of identifying the semantic relationships between two entities based on the context of the sentence image pair. Existing retrieval-augmented approaches mainly focused on modeling the retrieved textual knowledge, but this may not be able to accurately identify complex relations. To improve the prediction, this research proposes to retrieve textual and visual evidence based on the object, sentence, and whole image. We further develop a novel approach to synthesize the object-level, image-level, and sentence-level information for better reasoning between the same and different modalities. Extensive experiments and analyses show that the proposed method is able to effectively select and compare evidence across modalities and significantly outperforms state-of-the-art models.
arxiv情報
著者 | Xuming Hu,Zhijiang Guo,Zhiyang Teng,Irwin King,Philip S. Yu |
発行日 | 2023-05-25 15:26:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google