要約
Grounded Multimodal Named Entity Recognition (GMNER) は、新しい情報抽出 (IE) タスクであり、与えられた文と画像のペアのデータからエンティティの範囲、タイプ、および対応するエンティティの視覚領域を同時に抽出することを目的としています。
機械による読解やシーケンス生成ベースのフレームワークを採用した最近の統一手法では、この困難なタスクには限界があります。
前者は人間が設計したクエリを利用しており、ジョーダン (人) やオフホワイト x ジョーダン (靴) などのあいまいなエンティティを区別するのに苦労しています。
後者は、1 対 1 のデコード順序に従い、露出バイアスの問題に悩まされます。
私たちは、これらの作品が多様な実体の関係を誤解していると主張します。
これらに取り組むために、エンティティ内およびエンティティ間のレベルで適切な関係を学習するための、マルチグレイン クエリガイド付きセット予測ネットワーク (MQSPN) という名前の新しい統合フレームワークを提案します。
具体的には、MQSPN は、マルチグレイン クエリ セット (MQS) とマルチモーダル セット予測ネットワーク (MSP) で構成されます。
MQS は、学習可能なクエリのセットを使用して、エンティティ内の接続を強化することにより、エンティティ領域をエンティティ スパンと明示的に調整します。
MSP は、個別のエンティティ内モデリングに基づいて、GMNER を集合予測として再定式化し、グローバル マッチングの観点から適切なエンティティ間の関係を確立するようにモデルを導きます。
さらに、MQS と MSP の間の接着ネットワークとして機能するクエリガイド付き Fusion Net (QFNet) を組み込みます。
広範な実験により、私たちのアプローチが広く使用されているベンチマークで最先端のパフォーマンスを達成できることが実証されています。
要約(オリジナル)
Grounded Multimodal Named Entity Recognition (GMNER) is an emerging information extraction (IE) task, aiming to simultaneously extract entity spans, types, and corresponding visual regions of entities from given sentence-image pairs data. Recent unified methods employing machine reading comprehension or sequence generation-based frameworks show limitations in this difficult task. The former, utilizing human-designed queries, struggles to differentiate ambiguous entities, such as Jordan (Person) and off-White x Jordan (Shoes). The latter, following the one-by-one decoding order, suffers from exposure bias issues. We maintain that these works misunderstand the relationships of multimodal entities. To tackle these, we propose a novel unified framework named Multi-grained Query-guided Set Prediction Network (MQSPN) to learn appropriate relationships at intra-entity and inter-entity levels. Specifically, MQSPN consists of a Multi-grained Query Set (MQS) and a Multimodal Set Prediction Network (MSP). MQS explicitly aligns entity regions with entity spans by employing a set of learnable queries to strengthen intra-entity connections. Based on distinct intra-entity modeling, MSP reformulates GMNER as a set prediction, guiding models to establish appropriate inter-entity relationships from a global matching perspective. Additionally, we incorporate a query-guided Fusion Net (QFNet) to work as a glue network between MQS and MSP. Extensive experiments demonstrate that our approach achieves state-of-the-art performances in widely used benchmarks.
arxiv情報
著者 | Jielong Tang,Zhenxing Wang,Ziyang Gong,Jianxing Yu,Xiangwei Zhu,Jian Yin |
発行日 | 2024-08-21 13:09:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google