要約
我々は、見出し語化とタグ付けを共同でモデル化し、任意のグローバル機能の統合をサポートするモジュール式対数線形モデルである LEMMING を紹介します。
これは、ゴールドスタンダードタグと補題で注釈が付けられたコーパスでトレーニング可能であり、形態素辞書やアナライザーに依存しません。
LEMMING は、6 つの言語でトークンベースの統計的見出し語化の新しい最先端技術を確立しました。
たとえば、チェコ語の見出し語化の場合、誤差は 4.05 から 1.58 に 60% 減少します。
また、形態学的タグと補題を共同モデリングすることが相互に有益であるという経験的証拠も示します。
要約(オリジナル)
We present LEMMING, a modular log-linear model that jointly models lemmatization and tagging and supports the integration of arbitrary global features. It is trainable on corpora annotated with gold standard tags and lemmata and does not rely on morphological dictionaries or analyzers. LEMMING sets the new state of the art in token-based statistical lemmatization on six languages; e.g., for Czech lemmatization, we reduce the error by 60%, from 4.05 to 1.58. We also give empirical evidence that jointly modeling morphological tags and lemmata is mutually beneficial.
arxiv情報
著者 | Thomas Muller,Ryan Cotterell,Alexander Fraser,Hinrich Schütze |
発行日 | 2024-05-28 16:01:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google