要約
マルチモーダル関係抽出 (MMRE) は、画像情報を利用してテキスト内のエンティティ間の関係を識別することを目的とした難しいタスクです。
既存の方法は、非常に類似したコンテキスト情報 (つまり、同じテキストと画像) を共有する 1 つの文内の複数のエンティティのペアを無視することによって制限され、その結果、MMRE タスクの難易度が増加します。
この制限に対処するために、マルチモーダル関係抽出のための変分マルチモーダル ハイパーグラフ アテンション ネットワーク (VM-HAN) を提案します。
具体的には、まず、対応する画像を含む各文のマルチモーダル ハイパーグラフを構築し、各文の異なるエンティティ ペアに対して異なる高次のモーダル内/モーダル間相関を確立します。
さらに、変分ハイパーグラフ アテンション ネットワーク (V-HAN) を設計し、ガウス分布を使用して異なるエンティティ ペア間の表現の多様性を取得し、変分注意を通じてより良いハイパーグラフ構造を学習します。
VM-HAN は、マルチモーダル関係抽出タスクで最先端のパフォーマンスを実現し、精度と効率の点で既存の方法を上回ります。
要約(オリジナル)
Multi-modal relation extraction (MMRE) is a challenging task that aims to identify relations between entities in text leveraging image information. Existing methods are limited by their neglect of the multiple entity pairs in one sentence sharing very similar contextual information (ie, the same text and image), resulting in increased difficulty in the MMRE task. To address this limitation, we propose the Variational Multi-Modal Hypergraph Attention Network (VM-HAN) for multi-modal relation extraction. Specifically, we first construct a multi-modal hypergraph for each sentence with the corresponding image, to establish different high-order intra-/inter-modal correlations for different entity pairs in each sentence. We further design the Variational Hypergraph Attention Networks (V-HAN) to obtain representational diversity among different entity pairs using Gaussian distribution and learn a better hypergraph structure via variational attention. VM-HAN achieves state-of-the-art performance on the multi-modal relation extraction task, outperforming existing methods in terms of accuracy and efficiency.
arxiv情報
著者 | Qian Li,Cheng Ji,Shu Guo,Yong Zhao,Qianren Mao,Shangguang Wang,Yuntao Wei,Jianxin Li |
発行日 | 2024-04-18 08:56:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google