要約
マルチモーダル情報抽出 (IE) タスクは、マルチモーダル情報がテキスト情報抽出に有益であることが多くの研究で示されているため、ますます注目を集めています。
しかし、既存のマルチモーダル IE データセットは、主に英語テキストの文レベルの画像促進型 IE に焦点を当てており、ビデオベースのマルチモーダル IE やきめ細かい視覚的根拠にはほとんど注意を払っていません。
そこで、マルチモーダル IE の開発を促進するために、M$^{3}$D という名前のマルチモーダルな多言語マルチタスク データセットを構築しました。このデータセットには、次の特徴があります。 (1) 強化するためのドキュメント レベルのテキストとビデオのペアが含まれています。
多峰性の情報。
(2) 広く使用されている 2 つの言語、つまり英語と中国語をサポートしています。
(3) エンティティ認識、エンティティ チェーン抽出、関係抽出、ビジュアル グラウンディングなど、よりマルチモーダルな IE タスクが含まれます。
さらに、私たちのデータセットは未踏のテーマ、つまり伝記を導入し、マルチモーダル IE リソースのドメインを充実させます。
データセットのベンチマークを確立するために、革新的な階層型マルチモーダル IE モデルを提案します。
このモデルは、ノイズ除去機能融合モジュール (DFFM) を通じてマルチモーダル情報を効果的に活用し、統合します。
さらに、理想的でないシナリオでは、モーダル情報が不完全であることがよくあります。
したがって、モダリティの欠落によって引き起こされる問題を軽減するために、欠落モダリティ構築モジュール (MMCM) を設計しました。
私たちのモデルは、英語と中国語のデータセットの 4 つのタスクでそれぞれ 53.80% と 53.77% の平均パフォーマンスを達成し、その後の研究に妥当な基準を設定しました。
さらに、提案したモジュールの有効性を検証するために、さらに分析実験を実施しました。
私たちの取り組みがマルチモーダルIE分野の発展を促進できると信じています。
要約(オリジナル)
Multimodal information extraction (IE) tasks have attracted increasing attention because many studies have shown that multimodal information benefits text information extraction. However, existing multimodal IE datasets mainly focus on sentence-level image-facilitated IE in English text, and pay little attention to video-based multimodal IE and fine-grained visual grounding. Therefore, in order to promote the development of multimodal IE, we constructed a multimodal multilingual multitask dataset, named M$^{3}$D, which has the following features: (1) It contains paired document-level text and video to enrich multimodal information; (2) It supports two widely-used languages, namely English and Chinese; (3) It includes more multimodal IE tasks such as entity recognition, entity chain extraction, relation extraction and visual grounding. In addition, our dataset introduces an unexplored theme, i.e., biography, enriching the domains of multimodal IE resources. To establish a benchmark for our dataset, we propose an innovative hierarchical multimodal IE model. This model effectively leverages and integrates multimodal information through a Denoised Feature Fusion Module (DFFM). Furthermore, in non-ideal scenarios, modal information is often incomplete. Thus, we designed a Missing Modality Construction Module (MMCM) to alleviate the issues caused by missing modalities. Our model achieved an average performance of 53.80% and 53.77% on four tasks in English and Chinese datasets, respectively, which set a reasonable standard for subsequent research. In addition, we conducted more analytical experiments to verify the effectiveness of our proposed module. We believe that our work can promote the development of the field of multimodal IE.
arxiv情報
著者 | Jiang Liu,Bobo Li,Xinran Yang,Na Yang,Hao Fei,Mingyao Zhang,Fei Li,Donghong Ji |
発行日 | 2024-12-05 10:00:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google