要約
【タイトル】Cross-Domain Evaluation of POS Taggers: From Wall Street Journal to Fandom Wiki
【要約】
– POSタガーの評価には、Wall Street JournalセクションのPenn Treebankが長い間デファクトスタンダードとされており、97%以上の正確性が報告されている。
– ただし、ドメイン外のタガーパフォーマンスについて、特に細かいラベルセットを使用している場合についてはあまり知られていない。
– Elder Scrolls Fandomという、Elder Scrollsビデオゲームの世界に関するwikiからデータを使用し、StanfordタガーやBiltyなど、両方がWSJでトレーニングされた2つのPOSタガーのドメイン間パフォーマンスを定性的に評価するための控えめなデータセットを作成した。
– 分析の結果、トレーニング中に出現したトークンのパフォーマンスはドメイン内のパフォーマンスとほぼ同じであるが、未知のトークンの正確さは、Stanfordが90.37%から78.37%、Biltyが87.84%から80.41%に減少することがわかった。
– 両方のタガーは固有名詞や一貫性のない大文字表記に苦労している。
要約(オリジナル)
The Wall Street Journal section of the Penn Treebank has been the de-facto standard for evaluating POS taggers for a long time, and accuracies over 97\% have been reported. However, less is known about out-of-domain tagger performance, especially with fine-grained label sets. Using data from Elder Scrolls Fandom, a wiki about the \textit{Elder Scrolls} video game universe, we create a modest dataset for qualitatively evaluating the cross-domain performance of two POS taggers: the Stanford tagger (Toutanova et al. 2003) and Bilty (Plank et al. 2016), both trained on WSJ. Our analyses show that performance on tokens seen during training is almost as good as in-domain performance, but accuracy on unknown tokens decreases from 90.37% to 78.37% (Stanford) and 87.84\% to 80.41\% (Bilty) across domains. Both taggers struggle with proper nouns and inconsistent capitalization.
arxiv情報
著者 | Kia Kirstein Hansen,Rob van der Goot |
発行日 | 2023-04-27 07:24:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI