A Modular Approach for Multilingual Timex Detection and Normalization using Deep Learning and Grammar-based methods




– 時制表現の検出と正規化は、多くの自然言語処理タスクにおいて重要なステップである。
– 検出にはさまざまな手法が提案されているが、最適な正規化手法は手作業によるルールに依存している。
– また、これまでの多くの手法は英語に特化している。
– 本論文では、検出にファインチューニングされたマスク言語モデルを組み合わせ、文法ベースの正規化器を使用した、モジュール化された多言語時制処理システムを提案する。
– スペイン語と英語で実験し、多言語時制処理の最先端であるHeidelTimeと比較する。
– 正規化されたtimex、timex検出、タイプ認識で最良の結果を得ることができ、結合されたTempEval-3緩和値メトリックでは競争力のある性能を発揮した。
– 詳細なエラー分析により、正規化ルールを提供することが容易なtimexのみを検出することが最後のメトリックで非常に有利であることが示された。
– これは、timex処理の最適な戦略は、正規化ルールを提供することが難しいtimexを検出せずに残すこと、または広範囲なカバレッジを目指すことであるか、という問題を提起する。


Detecting and normalizing temporal expressions is an essential step for many NLP tasks. While a variety of methods have been proposed for detection, best normalization approaches rely on hand-crafted rules. Furthermore, most of them have been designed only for English. In this paper we present a modular multilingual temporal processing system combining a fine-tuned Masked Language Model for detection, and a grammar-based normalizer. We experiment in Spanish and English and compare with HeidelTime, the state-of-the-art in multilingual temporal processing. We obtain best results in gold timex normalization, timex detection and type recognition, and competitive performance in the combined TempEval-3 relaxed value metric. A detailed error analysis shows that detecting only those timexes for which it is feasible to provide a normalization is highly beneficial in this last metric. This raises the question of which is the best strategy for timex processing, namely, leaving undetected those timexes for which is not easy to provide normalization rules or aiming for high coverage.


著者 Nayla Escribano,German Rigau,Rodrigo Agerri
発行日 2023-04-27 14:32:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク