要約
中国古代の単語分割(WSG)と品詞タグ付け(POS)は、中国古代の研究にとって重要であるが、中国古代のWSGとPOSタグ付けデータの量は、まだまれである。本論文では、並列コーパスに対する遠隔監視を利用した、中国古代のWSGとPOSタグ付けデータの新しい増強方法を提案する。しかし、遠隔監視ではどうしても誤ラベルや未ラベルの古文単語が残ってしまう。この問題を解決するために、ディープニューラルネットワークの記憶効果と少量のアノテーションデータを利用して、多くの知識と少しのノイズを持つモデルを得、このモデルを使って並列コーパスの古代中国語文の再ラベル化を行う。実験によると、再ラベル化されたデータに対して学習したモデルは、遠隔監視から生成されたデータと注釈付きデータに対して学習したモデルよりも優れていることが示された。コードは https://github.com/farlit/ACDS で公開されています。
要約(オリジナル)
Ancient Chinese word segmentation (WSG) and part-of-speech tagging (POS) are important to study ancient Chinese, but the amount of ancient Chinese WSG and POS tagging data is still rare. In this paper, we propose a novel augmentation method of ancient Chinese WSG and POS tagging data using distant supervision over parallel corpus. However, there are still mislabeled and unlabeled ancient Chinese words inevitably in distant supervision. To address this problem, we take advantage of the memorization effects of deep neural networks and a small amount of annotated data to get a model with much knowledge and a little noise, and then we use this model to relabel the ancient Chinese sentences in parallel corpus. Experiments show that the model trained over the relabeled data outperforms the model trained over the data generated from distant supervision and the annotated data. Our code is available at https://github.com/farlit/ACDS.
arxiv情報
著者 | Shuo Feng,Piji Li |
発行日 | 2023-03-03 13:24:17+00:00 |
arxivサイト | arxiv_id(pdf) |