Hierarchical Aligned Multimodal Learning for NER on Tweet Posts

要約

名前付きエンティティ認識(NER)を用いてツイートから構造化された知識をマイニングすることは、レコメンデーションや意図の理解など、多くのダウンストリーム・アプリケーションに有益である。ツイートの投稿がマルチモーダルである傾向があるため、マルチモーダル名前付きエンティティ認識(MNER)が注目されている。本論文では、画像とテキストの並びを動的に整列させ、マルチレベルのクロスモーダル学習を実現することで、MNER向上のためのテキスト単語表現を補強する新しいアプローチを提案する。具体的には、我々のフレームワークは3つの主要な段階に分けることができる。第1段階は、各モダリティの暗黙の大域的・局所的知識を導出するためのモダリティ内表現学習に焦点を当て、第2段階は、テキストとそれに付随する画像との関連性を評価し、関連性に基づいて異なる粒度の視覚情報を統合し、第3段階は、反復的なクロスモダルの相互作用と共同注意によって意味的洗練を強制する。我々は2つのオープンデータセットで実験を行い、その結果と詳細な分析から我々のモデルの優位性を実証する。

要約(オリジナル)

Mining structured knowledge from tweets using named entity recognition (NER) can be beneficial for many down stream applications such as recommendation and intention understanding. With tweet posts tending to be multimodal, multimodal named entity recognition (MNER) has attracted more attention. In this paper, we propose a novel approach, which can dynamically align the image and text sequence and achieve the multi-level cross-modal learning to augment textual word representation for MNER improvement. To be specific, our framework can be split into three main stages: the first stage focuses on intra-modality representation learning to derive the implicit global and local knowledge of each modality, the second evaluates the relevance between the text and its accompanying image and integrates different grained visual information based on the relevance, the third enforces semantic refinement via iterative cross-modal interactions and co-attention. We conduct experiments on two open datasets, and the results and detailed analysis demonstrate the advantage of our model.

arxiv情報

著者 Peipei Liu,Hong Li,Yimo Ren,Jie Liu,Shuaizong Si,Hongsong Zhu,Limin Sun
発行日 2024-01-04 10:15:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.MM パーマリンク