An Attempt to Develop a Neural Parser based on Simplified Head-Driven Phrase Structure Grammar on Vietnamese

要約

この論文では、単純化されたヘッド駆動型フレーズ構造文法(HPSG)に基づいて、ベトナムのニューラルパーサーを開発することを目指しました。
既存のコーパスであるVietTreeBankとVNDTには、単純化されたHPSGルールに準拠していない選挙区と依存のツリーペアの約15%がありました。
単純化されたHPSGルールを順守していないコーパラの問題に対処しようとするために、トレーニングと開発セットからサンプルをランダムに順応させて、それらを単純化したHPSGに準拠させました。
次に、ベトナムのテキストをエンコードできるPhobertまたはXLM-Robertaモデルに置き換えることにより、Penn TreeBankの最初の単純化されたHPSGニューラルパーサーを変更しました。
修正されたVietTreeBankとVNDT Corporaで実験を実施しました。
私たちの広範な実験は、単純化されたHPSGニューラルパーサーが、同じ予測された部分的な部分(POS)タグを自己攻撃的構成団として使用する場合、選挙区の解析のために82%の新しい最先端のFスコアを達成したことを示しました。
さらに、より高いラベル付けされたアタッチメントスコア(UAS)で依存関係解析に関する以前の研究よりも優れていました。
ただし、言語の専門家と相談しなかったため、パーサーは、元のラベルを変更せずにARC順列に焦点を当てているために、おそらくより低いラベル付きアタッチメントスコア(LAS)スコアを取得しました。
最後に、このペーパーの調査結果は、ベトナムの自然言語処理のために樹木が開発する際に、単純化されたHPSGが言語専門家により多くの注意を払うべきであることを示唆しています。

要約(オリジナル)

In this paper, we aimed to develop a neural parser for Vietnamese based on simplified Head-Driven Phrase Structure Grammar (HPSG). The existing corpora, VietTreebank and VnDT, had around 15% of constituency and dependency tree pairs that did not adhere to simplified HPSG rules. To attempt to address the issue of the corpora not adhering to simplified HPSG rules, we randomly permuted samples from the training and development sets to make them compliant with simplified HPSG. We then modified the first simplified HPSG Neural Parser for the Penn Treebank by replacing it with the PhoBERT or XLM-RoBERTa models, which can encode Vietnamese texts. We conducted experiments on our modified VietTreebank and VnDT corpora. Our extensive experiments showed that the simplified HPSG Neural Parser achieved a new state-of-the-art F-score of 82% for constituency parsing when using the same predicted part-of-speech (POS) tags as the self-attentive constituency parser. Additionally, it outperformed previous studies in dependency parsing with a higher Unlabeled Attachment Score (UAS). However, our parser obtained lower Labeled Attachment Score (LAS) scores likely due to our focus on arc permutation without changing the original labels, as we did not consult with a linguistic expert. Lastly, the research findings of this paper suggest that simplified HPSG should be given more attention to linguistic expert when developing treebanks for Vietnamese natural language processing.

arxiv情報

著者 Duc-Vu Nguyen,Thang Chau Phan,Quoc-Nam Nguyen,Kiet Van Nguyen,Ngan Luu-Thuy Nguyen
発行日 2025-04-28 08:35:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク