USTC-NELSLIP at SemEval-2023 Task 2: Statistical Construction and Dual Adaptation of Gazetteer for Multilingual Complex NER

要約

タイトル:USTC-NELSLIPがSemEval-2023のタスク2で取り組む:多言語複雑なNamed Entity Recognitionのためのガゼットの統計的構築と双方向適応

要約:

– 本論文は、USTC-NELSLIPチームがSemEval-2023 Task 2 Multilingual Complex Named Entity Recognition (MultiCoNER II)のために開発したシステムについて説明している。
– Statistical Construction and Dual Adaptation of Gazetteer(SCDAG)という方法が提案されており、Multilingual Complex NERに使用される。
– この方法では、まず統計に基づく手法を使用してガゼットを構築する。次に、ガゼットネットワークと言語モデルの表現を、文レベルとエンティティレベルの両方でKLダイバージェンスを最小限に抑えて適応する。最後に、これら2つのネットワークを統合して、教師付きのNamed Entity Recognition(NER)トレーニングに適用する。
– 提案された方法は、Wikidataから構築されたガゼットを持つXLM-Rに適用され、異なるトラック間で優れた汎化能力を示している。実験結果と詳細な分析により、提案された方法の有効性が確認された。
– 公式の結果によると、このタスクの1つのトラック(ヒンディー語)で、当システムは1位にランクインした。

要約(オリジナル)

This paper describes the system developed by the USTC-NELSLIP team for SemEval-2023 Task 2 Multilingual Complex Named Entity Recognition (MultiCoNER II). A method named Statistical Construction and Dual Adaptation of Gazetteer (SCDAG) is proposed for Multilingual Complex NER. The method first utilizes a statistics-based approach to construct a gazetteer. Secondly, the representations of gazetteer networks and language models are adapted by minimizing the KL divergence between them at both the sentence-level and entity-level. Finally, these two networks are then integrated for supervised named entity recognition (NER) training. The proposed method is applied to XLM-R with a gazetteer built from Wikidata, and shows great generalization ability across different tracks. Experimental results and detailed analysis verify the effectiveness of the proposed method. The official results show that our system ranked 1st on one track (Hindi) in this task.

arxiv情報

著者 Jun-Yu Ma,Jia-Chen Gu,Jiajun Qi,Zhen-Hua Ling,Quan Liu,Xiaoyi Zhao
発行日 2023-05-04 03:00:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク