DAMO-NLP at SemEval-2023 Task 2: A Unified Retrieval-augmented System for Multilingual Named Entity Recognition

要約

タイトル:DAMO-NLPがSemEval-2023タスク2で取り組んだこと:多言語固有表現認識のための統合型検索補完システム

要約:

– MultiCoNER \RNum{2}共有タスクは、細かい目的の多言語固有表現認識(NER)を扱うことを目的としており、多くの場合精度が低く、Semantic Ambiguityと低文脈の継承をしています。
– DAMO-NLPチームは、単一の取り出し戦略、不十分な知識、および制限された文脈長に苦しみながら、先行研究のボトルネックを識別し、多言語NERに対する統合型検索補完システム(U-RaNER)を提案しました。
– 特に、Wikidata知識ベースを組み込んだ類推アプローチを使用し、検索コンテキストを拡大しました。多様な検索ストラテジーを探索して、検索知識の品質を高め、13種類のトラックのうち9種類でMultiCoNER \RNum{2}共有タスクを勝ち取りました。
– ChatGPTと比較した結果、多くのタスクで優れた能力を発揮しているものの、抽出タスクにおいてはまだ改善の余地があります。

要約(オリジナル)

The MultiCoNER \RNum{2} shared task aims to tackle multilingual named entity recognition (NER) in fine-grained and noisy scenarios, and it inherits the semantic ambiguity and low-context setting of the MultiCoNER \RNum{1} task. To cope with these problems, the previous top systems in the MultiCoNER \RNum{1} either incorporate the knowledge bases or gazetteers. However, they still suffer from insufficient knowledge, limited context length, single retrieval strategy. In this paper, our team \textbf{DAMO-NLP} proposes a unified retrieval-augmented system (U-RaNER) for fine-grained multilingual NER. We perform error analysis on the previous top systems and reveal that their performance bottleneck lies in insufficient knowledge. Also, we discover that the limited context length causes the retrieval knowledge to be invisible to the model. To enhance the retrieval context, we incorporate the entity-centric Wikidata knowledge base, while utilizing the infusion approach to broaden the contextual scope of the model. Also, we explore various search strategies and refine the quality of retrieval knowledge. Our system\footnote{We will release the dataset, code, and scripts of our system at {\small \url{https://github.com/modelscope/AdaSeq/tree/master/examples/U-RaNER}}.} wins 9 out of 13 tracks in the MultiCoNER \RNum{2} shared task. Additionally, we compared our system with ChatGPT, one of the large language models which have unlocked strong capabilities on many tasks. The results show that there is still much room for improvement for ChatGPT on the extraction task.

arxiv情報

著者 Zeqi Tan,Shen Huang,Zixia Jia,Jiong Cai,Yinghui Li,Weiming Lu,Yueting Zhuang,Kewei Tu,Pengjun Xie,Fei Huang,Yong Jiang
発行日 2023-05-05 16:59:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク