Low-Resource Named Entity Recognition with Cross-Lingual, Character-Level Neural Conditional Random Fields

要約

低リソースの固有表現認識は、NLP において依然として未解決の問題です。
最先端のシステムのほとんどは、高いパフォーマンスを得るために何万もの注釈付きの文を必要とします。
ただし、世界のほとんどの言語では、そのような注釈を取得することは不可能です。
この論文では、高リソース言語と低リソース言語の両方の名前付きエンティティを共同で予測するために文字レベルのニューラル CRF を訓練する転移学習スキームを紹介します。
関連する複数の言語の文字表現を学習すると、言語間の移行が可能になり、F1 が対数線形 CRF ベースラインよりも最大 9.8 ポイント向上します。

要約(オリジナル)

Low-resource named entity recognition is still an open problem in NLP. Most state-of-the-art systems require tens of thousands of annotated sentences in order to obtain high performance. However, for most of the world’s languages, it is unfeasible to obtain such annotation. In this paper, we present a transfer learning scheme, whereby we train character-level neural CRFs to predict named entities for both high-resource languages and low resource languages jointly. Learning character representations for multiple related languages allows transfer among the languages, improving F1 by up to 9.8 points over a loglinear CRF baseline.

arxiv情報

著者 Ryan Cotterell,Kevin Duh
発行日 2024-04-14 23:44:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク