2M-NER: Contrastive Learning for Multilingual and Multimodal NER with Language and Modal Fusion

要約

固有表現認識 (NER) は、文内のエンティティを識別して事前定義されたタイプに分類する、自然言語処理の基本的なタスクです。
エンティティのリンク、質問応答、オンライン製品の推奨など、さまざまな研究分野で重要な役割を果たします。
最近の研究では、多言語およびマルチモーダルなデータセットを組み込むことで NER の有効性が向上することが示されています。
これは、言語伝達学習と、さまざまなモダリティ間で共有される暗黙の特徴の存在によるものです。
しかし、多言語主義とマルチモダリティを組み合わせたデータセットの欠如は、マルチモダリティが複数の言語で同時に NER に役立つ可能性があるため、これら 2 つの側面の組み合わせを探る研究を妨げています。
このペーパーでは、潜在的な価値と影響を考慮しながら、より困難なタスクである多言語およびマルチモーダルの固有表現認識 (MMNER) に取り組むことを目指しています。
具体的には、4 つの言語 (英語、フランス語、ドイツ語、スペイン語) と 2 つのモダリティ (テキストと画像) を含む大規模な MMNER データセットを構築します。
データセットに対するこの困難な MMNER タスクに取り組むために、2M-NER と呼ばれる新しいモデルを導入します。このモデルは、対照学習を使用してテキストと画像表現を位置合わせし、マルチモーダル コラボレーション モジュールを統合して 2 つのモダリティ間の相互作用を効果的に描写します。
広範な実験結果は、いくつかの比較および代表的なベースラインと比較して、私たちのモデルが多言語およびマルチモーダルな NER タスクで最高の F1 スコアを達成することを示しています。
さらに、挑戦的な分析では、文レベルのアライメントが NER モデルに大きく干渉することがわかり、これはデータセットの難易度が高いことを示しています。

要約(オリジナル)

Named entity recognition (NER) is a fundamental task in natural language processing that involves identifying and classifying entities in sentences into pre-defined types. It plays a crucial role in various research fields, including entity linking, question answering, and online product recommendation. Recent studies have shown that incorporating multilingual and multimodal datasets can enhance the effectiveness of NER. This is due to language transfer learning and the presence of shared implicit features across different modalities. However, the lack of a dataset that combines multilingualism and multimodality has hindered research exploring the combination of these two aspects, as multimodality can help NER in multiple languages simultaneously. In this paper, we aim to address a more challenging task: multilingual and multimodal named entity recognition (MMNER), considering its potential value and influence. Specifically, we construct a large-scale MMNER dataset with four languages (English, French, German and Spanish) and two modalities (text and image). To tackle this challenging MMNER task on the dataset, we introduce a new model called 2M-NER, which aligns the text and image representations using contrastive learning and integrates a multimodal collaboration module to effectively depict the interactions between the two modalities. Extensive experimental results demonstrate that our model achieves the highest F1 score in multilingual and multimodal NER tasks compared to some comparative and representative baselines. Additionally, in a challenging analysis, we discovered that sentence-level alignment interferes a lot with NER models, indicating the higher level of difficulty in our dataset.

arxiv情報

著者 Dongsheng Wang,Xiaoqin Feng,Zeming Liu,Chuan Wang
発行日 2024-04-26 02:34:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク