Revisiting Supertagging for HPSG

要約

HPSG ベースのツリーバンクで訓練された新しいスーパータガーを紹介します。
これらのツリーバンクは、よく開発された言語理論に基づいた高品質の注釈を特徴としており、通常の WSJ セクション 23 や Wikipedia のデータを超える、多様で挑戦的なテスト データセットが含まれています。
HPSG スーパータグ付けは、以前は MaxEnt ベースのモデルに依存していました。
我々は、SVM とニューラル CRF および BERT ベースの手法を使用し、SVM とニューラル スーパータガーの両方がベースラインと比較してかなり高い精度を達成することを示しました。
当社の微調整された BERT ベースのタガーは、WSJ23 の 1000 文で 97.26% の精度を達成し、完全にドメイン外の The Cathedral and the Bazaar (cb)) で 93.88% の精度を達成しました。
したがって、これらの新しいスーパータガーを最新の HPSG パーサーに統合することは理にかなっていると結論付けます。また、ここで使用した多様で困難なデータセットがこの分野でさらに普及することを期待しています。
私たちは、トークン分類用に再フォーマットされた完全なデータセットを提供します。

要約(オリジナル)

We present new supertaggers trained on HPSG-based treebanks. These treebanks feature high-quality annotation based on a well-developed linguistic theory and include diverse and challenging test datasets, beyond the usual WSJ section 23 and Wikipedia data. HPSG supertagging has previously relied on MaxEnt-based models. We use SVM and neural CRF- and BERT-based methods and show that both SVM and neural supertaggers achieve considerably higher accuracy compared to the baseline. Our fine-tuned BERT-based tagger achieves 97.26% accuracy on 1000 sentences from WSJ23 and 93.88% on the completely out-of-domain The Cathedral and the Bazaar (cb)). We conclude that it therefore makes sense to integrate these new supertaggers into modern HPSG parsers, and we also hope that the diverse and difficult datasets we used here will gain more popularity in the field. We contribute the complete dataset reformatted for token classification.

arxiv情報

著者 Olga Zamaraeva,Carlos Gómez-Rodríguez
発行日 2023-09-14 10:49:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク