MESED: A Multi-modal Entity Set Expansion Dataset with Fine-grained Semantic Classes and Hard Negative Entities

要約

エンティティ セット拡張 (ESE) タスクは、同じセマンティック クラスに属する新しいエンティティを使用して、少数のシード エンティティを拡張することを目的としています。
従来の ESE 手法は単一モダリティ (つまり、文字通りのモダリティ) に基づいており、次のような現実世界の複雑なエンティティを処理するのに苦労しています。 (1) きめの細かい意味論的な違いを持つ否定的なエンティティ。
(2) 同義の実体。
(3) 多義的なエンティティ。
(4) 尾の長い実体。
これらの課題を解決するために、モデルが複数のモダリティからの情報を統合してエンティティを表現する、マルチモーダル エンティティ セット拡張 (MESE) を提案するようになりました。
直感的には、ESE に対するマルチモーダル情報の利点は 3 つあります。 (1) さまざまなモダリティが補完的な情報を提供できます。
(2) マルチモーダル情報は、同じ意味クラスまたはエンティティの共通の視覚プロパティを介して統一された信号を提供します。
(3) マルチモーダル情報は、同義のエンティティに対する堅牢なアライメント信号を提供します。
MESE のモデルのパフォーマンスを評価し、さらなる研究を促進するために、大規模かつ精緻な手動キャリブレーションを備えた ESE 用の初のマルチモーダル データセットである MESED データセットを構築しました。
4 つのマルチモーダル事前トレーニング タスクで事前トレーニングされた強力なマルチモーダル モデル MultiExpan が提案されています。
MESED に関する広範な実験と分析は、データセットの高品質と MultiExpan の有効性を実証するとともに、将来の研究の方向性を示しています。

要約(オリジナル)

The Entity Set Expansion (ESE) task aims to expand a handful of seed entities with new entities belonging to the same semantic class. Conventional ESE methods are based on mono-modality (i.e., literal modality), which struggle to deal with complex entities in the real world such as: (1) Negative entities with fine-grained semantic differences. (2) Synonymous entities. (3) Polysemous entities. (4) Long-tailed entities. These challenges prompt us to propose Multi-modal Entity Set Expansion (MESE), where models integrate information from multiple modalities to represent entities. Intuitively, the benefits of multi-modal information for ESE are threefold: (1) Different modalities can provide complementary information. (2) Multi-modal information provides a unified signal via common visual properties for the same semantic class or entity. (3) Multi-modal information offers robust alignment signal for synonymous entities. To assess the performance of model in MESE and facilitate further research, we constructed the MESED dataset which is the first multi-modal dataset for ESE with large-scale and elaborate manual calibration. A powerful multi-modal model MultiExpan is proposed which is pre-trained on four multimodal pre-training tasks. The extensive experiments and analyses on MESED demonstrate the high quality of the dataset and the effectiveness of our MultiExpan, as well as pointing the direction for future research.

arxiv情報

著者 Yangning Li,Tingwei Lu,Yinghui Li,Tianyu Yu,Shulin Huang,Hai-Tao Zheng,Rui Zhang,Jun Yuan
発行日 2023-07-27 14:09:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク