DAMO-NLP at SemEval-2023 Task 2: A Unified Retrieval-augmented System for Multilingual Named Entity Recognition

要約

タイトル:SemEval-2023タスク2におけるDAMO-NLP:多言語名前付きエンティティ認識のための一元化されたリトリーバル拡張システム

要約:
– MultiCoNER \ RNum {2}共有タスクは、細分化された騒々しいシナリオでの多言語名前付きエンティティ認識(NER)に取り組むことを目的としており、MultiCoNER \ RNum {1}タスクの意味的な曖昧さと低コンテキスト設定を受け継いでいます。
– DAMO-NLPチームは、不十分な知識、限られた文脈長、単一のリトリーバル戦略に苦しんでいるMultiCoNER \ RNum {1}での以前のトップシステムに対処するため、精緻な多言語NERのための一元化されたリトリーバル拡張システム(U-RaNER)を提案しています。
– 以前のトップシステムのエラー分析を実行し、そのパフォーマンスボトルネックは不十分な知識にあることが判明しました。また、限られた文脈長がリトリーバル知識をモデルに見えなくしていることがわかりました。
– 我々は、エンティティ中心のWikidata知識ベースを取り込んで、モデルの文脈を広げるインフューションアプローチを利用して、リトリーバルコンテキストを強化します。また、さまざまな検索戦略を探索し、リトリーバル知識の品質を改善します。
– 我々のシステムは、MultiCoNER \ RNum {2}共有タスクで13トラック中9つを獲得しています。また、多くのタスクで強力な能力を発揮している大規模言語モデルの1つであるChatGPTと、我々のシステムを比較しました。結果は、抽出タスクでChatGPTの改善の余地がまだ多くあることを示しています。

要約(オリジナル)

The MultiCoNER \RNum{2} shared task aims to tackle multilingual named entity recognition (NER) in fine-grained and noisy scenarios, and it inherits the semantic ambiguity and low-context setting of the MultiCoNER \RNum{1} task. To cope with these problems, the previous top systems in the MultiCoNER \RNum{1} either incorporate the knowledge bases or gazetteers. However, they still suffer from insufficient knowledge, limited context length, single retrieval strategy. In this paper, our team \textbf{DAMO-NLP} proposes a unified retrieval-augmented system (U-RaNER) for fine-grained multilingual NER. We perform error analysis on the previous top systems and reveal that their performance bottleneck lies in insufficient knowledge. Also, we discover that the limited context length causes the retrieval knowledge to be invisible to the model. To enhance the retrieval context, we incorporate the entity-centric Wikidata knowledge base, while utilizing the infusion approach to broaden the contextual scope of the model. Also, we explore various search strategies and refine the quality of retrieval knowledge. Our system\footnote{We will release the dataset, code, and scripts of our system at {\small \url{https://github.com/modelscope/AdaSeq/tree/master/examples/U-RaNER}}.} wins 9 out of 13 tracks in the MultiCoNER \RNum{2} shared task. Additionally, we compared our system with ChatGPT, one of the large language models which have unlocked strong capabilities on many tasks. The results show that there is still much room for improvement for ChatGPT on the extraction task.

arxiv情報

著者 Zeqi Tan,Shen Huang,Zixia Jia,Jiong Cai,Yinghui Li,Weiming Lu,Yueting Zhuang,Kewei Tu,Pengjun Xie,Fei Huang,Yong Jiang
発行日 2023-05-09 03:43:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク