Recipe for Zero-shot POS Tagging: Is It Useful in Realistic Scenarios?

要約

POS タグ付けは、多くのアプリケーションで基本的な役割を果たします。
POS タガーは、リソースが十分にある環境では非常に正確ですが、トレーニング データが限られている場合やトレーニング データが不足している場合には遅れが生じます。
このペーパーでは、データが限られている言語の POS タグ付けに焦点を当てます。
私たちは、ターゲット言語からのラベル付きトレーニング データを使用せずに、POS タグ付けモデルのトレーニングに適したデータセットの特性を特定することを目指しています。
これはゼロショットアプローチです。
ターゲット言語に関連する 1 つ以上の言語で微調整された多言語大規模言語モデル (mBERT) の精度を比較します。
さらに、これらの結果をターゲット言語自体で直接トレーニングされたモデルと比較します。
これを 3 つのターゲットの低リソース言語に対して行います。
私たちの調査では、効果的なゼロショット POS タグ付けには正確なデータセット選択の重要性が強調されています。
特に、強力な言語関係と高品質のデータセットにより、最適な結果が保証されます。
リソースが非常に少ない言語の場合、ゼロショット モデルが実行可能なオプションであることがわかります。

要約(オリジナル)

POS tagging plays a fundamental role in numerous applications. While POS taggers are highly accurate in well-resourced settings, they lag behind in cases of limited or missing training data. This paper focuses on POS tagging for languages with limited data. We seek to identify the characteristics of datasets that make them favourable for training POS tagging models without using any labelled training data from the target language. This is a zero-shot approach. We compare the accuracies of a multilingual large language model (mBERT) fine-tuned on one or more languages related to the target language. Additionally, we compare these results with models trained directly on the target language itself. We do this for three target low-resource languages. Our research highlights the importance of accurate dataset selection for effective zero-shot POS tagging. Particularly, a strong linguistic relationship and high-quality datasets ensure optimal results. For extremely low-resource languages, zero-shot models prove to be a viable option.

arxiv情報

著者 Zeno Vandenbulcke,Lukas Vermeire,Miryam de Lhoneux
発行日 2024-10-14 14:51:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク