要約
マルチモーダル関係抽出 (MRE) に関する既存の研究は、内部情報の過剰利用と外部情報の活用不足という 2 つの共存する課題に直面しています。
これに対抗するために、私たちは内部情報のスクリーニングと外部情報の活用のアイデアを同時に実装する新しいフレームワークを提案します。
まず、入力画像とテキストのきめの細かい意味構造を視覚的シーン グラフとテキスト シーン グラフで表現し、さらに統合クロスモーダル グラフ (CMG) に融合します。
CMG に基づいて、グラフ情報のボトルネック原理に基づいて構造の改良を実行し、情報量の少ない特徴を積極的にノイズ除去します。
次に、入力画像とテキストに対してトピック モデリングを実行し、潜在的なマルチモーダル トピック機能を組み込んでコンテキストを強化します。
ベンチマーク MRE データセットでは、私たちのシステムは現在の最良のモデルを大幅に上回っています。
さらに詳細な分析により、MRE タスクに対するこの手法の大きな可能性が明らかになります。
私たちのコードは https://github.com/ChocoWu/MRE-ISE で公開されています。
要約(オリジナル)
Existing research on multimodal relation extraction (MRE) faces two co-existing challenges, internal-information over-utilization and external-information under-exploitation. To combat that, we propose a novel framework that simultaneously implements the idea of internal-information screening and external-information exploiting. First, we represent the fine-grained semantic structures of the input image and text with the visual and textual scene graphs, which are further fused into a unified cross-modal graph (CMG). Based on CMG, we perform structure refinement with the guidance of the graph information bottleneck principle, actively denoising the less-informative features. Next, we perform topic modeling over the input image and text, incorporating latent multimodal topic features to enrich the contexts. On the benchmark MRE dataset, our system outperforms the current best model significantly. With further in-depth analyses, we reveal the great potential of our method for the MRE task. Our codes are open at https://github.com/ChocoWu/MRE-ISE.
arxiv情報
著者 | Shengqiong Wu,Hao Fei,Yixin Cao,Lidong Bing,Tat-Seng Chua |
発行日 | 2023-05-19 14:56:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google