Integrating Large Pre-trained Models into Multimodal Named Entity Recognition with Evidential Fusion

要約

マルチモーダル固有表現認識 (MNER) は、Twitter などのソーシャル メディア プラットフォームから情報を抽出するための重要なタスクです。
現在のほとんどの方法は、注意の重みに依存してテキストと画像の両方から情報を抽出しますが、多くの場合、信頼性が低く、解釈可能性に欠けています。
この問題に対処するために、MNER タスクに不確実性の推定を組み込み、信頼できる予測を生成することを提案します。
私たちが提案するアルゴリズムは、各モダリティの分布を正規-逆ガンマ分布としてモデル化し、証拠融合メカニズムを使用してそれらを統一分布に融合することで、不確実性の階層的特徴付けと予測精度と信頼性の向上を可能にします。
さらに、MNER で事前にトレーニングされた大規模な基礎モデルの可能性を調査し、その堅牢な特徴表現を活用する効率的な融合アプローチを提案します。
2 つのデータセットでの実験により、提案された手法がベースラインを上回り、新たな最先端のパフォーマンスを達成することが実証されました。

要約(オリジナル)

Multimodal Named Entity Recognition (MNER) is a crucial task for information extraction from social media platforms such as Twitter. Most current methods rely on attention weights to extract information from both text and images but are often unreliable and lack interpretability. To address this problem, we propose incorporating uncertainty estimation into the MNER task, producing trustworthy predictions. Our proposed algorithm models the distribution of each modality as a Normal-inverse Gamma distribution, and fuses them into a unified distribution with an evidential fusion mechanism, enabling hierarchical characterization of uncertainties and promotion of prediction accuracy and trustworthiness. Additionally, we explore the potential of pre-trained large foundation models in MNER and propose an efficient fusion approach that leverages their robust feature representations. Experiments on two datasets demonstrate that our proposed method outperforms the baselines and achieves new state-of-the-art performance.

arxiv情報

著者 Weide Liu,Xiaoyang Zhong,Jingwen Hou,Shaohua Li,Haozhe Huang,Yuming Fang
発行日 2023-06-29 14:50:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク