Dataset and Baseline System for Multi-lingual Extraction and Normalization of Temporal and Numerical Expressions

要約

タイトル:時制と数字表現の多言語抽出と正規化のためのデータセットとベースラインシステム
要約:
– 時制と数字の理解は、多数の自然言語処理(NLP)や情報検索(IR)のタスクにおいて非常に重要である。しかしながら、以前の研究はほんの一部のサブタイプしか扱わず、エンティティ抽出のみに焦点を当て、そのメンションの有用性を制限したため、実際に応用できるようにするには、サブタイプのカバレッジと粒度、そして具体的に操作可能な値への解決が重要である。
– さらに、以前の研究のほとんどはわずか数言語にしか対応していない。本研究では、多言語評価データセットであるNTXを紹介し、14の言語にわたる多様な時制と数字表現をカバーした抽出、正規化、解決を提供する。データとコードは\url{https://aka.ms/NTX}から入手可能であり、堅牢なルールベースシステムも提供しているため、他のモデルとの比較について評価するための強力なベースラインとして使うことができる。

要約(オリジナル)

Temporal and numerical expression understanding is of great importance in many downstream Natural Language Processing (NLP) and Information Retrieval (IR) tasks. However, much previous work covers only a few sub-types and focuses only on entity extraction, which severely limits the usability of identified mentions. In order for such entities to be useful in downstream scenarios, coverage and granularity of sub-types are important; and, even more so, providing resolution into concrete values that can be manipulated. Furthermore, most previous work addresses only a handful of languages. Here we describe a multi-lingual evaluation dataset – NTX – covering diverse temporal and numerical expressions across 14 languages and covering extraction, normalization, and resolution. Along with the dataset we provide a robust rule-based system as a strong baseline for comparisons against other models to be evaluated in this dataset. Data and code are available at \url{https://aka.ms/NTX}.

arxiv情報

著者 Sanxing Chen,Yongqiang Chen,Börje F. Karlsson
発行日 2023-03-31 14:49:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CL パーマリンク