An Attempt to Develop a Neural Parser based on Simplified Head-Driven Phrase Structure Grammar on Vietnamese

要約

この論文では、簡略化された頭部駆動句構造文法 (HPSG) に基づいたベトナム語用のニューラル パーサーを開発することを目的としました。
既存のコーパスである VietTreebank と VnDT には、簡素化された HPSG ルールに準拠していない構成要素と依存関係ツリーのペアが約 15% ありました。
コーパスが簡素化された HPSG ルールに準拠していないという問題に対処するために、トレーニング セットと開発セットのサンプルをランダムに並べ替えて、簡略化された HPSG に準拠させました。
次に、Penn Treebank 用の最初の簡略化された HPSG ニューラル パーサーを修正し、ベトナム語テキストをエンコードできる PhoBERT または XLM-RoBERTa モデルに置き換えました。
私たちは、修正した VietTreebank と VnDT コーパスで実験を実施しました。
私たちの広範な実験により、簡素化された HPSG ニューラル パーサーは、自己注意型の構成パーサーと同じ予測品詞 (POS) タグを使用した場合に、構成構文解析で 82% という新しい最先端の F スコアを達成したことがわかりました。

さらに、依存関係解析において以前の研究よりも優れたパフォーマンスを示し、Unlabeled Attachment Score (UAS) が高くなりました。
ただし、言語専門家に相談しなかったため、元のラベルを変更せずにアーク順列に重点を置いたためと思われますが、パーサーが取得したラベル付きアタッチメント スコア (LAS) スコアは低くなりました。
最後に、この論文の研究結果は、ベトナム語の自然言語処理用のツリーバンクを開発する際に、言語専門家に簡素化された HPSG にもっと注意を払う必要があることを示唆しています。

要約(オリジナル)

In this paper, we aimed to develop a neural parser for Vietnamese based on simplified Head-Driven Phrase Structure Grammar (HPSG). The existing corpora, VietTreebank and VnDT, had around 15% of constituency and dependency tree pairs that did not adhere to simplified HPSG rules. To attempt to address the issue of the corpora not adhering to simplified HPSG rules, we randomly permuted samples from the training and development sets to make them compliant with simplified HPSG. We then modified the first simplified HPSG Neural Parser for the Penn Treebank by replacing it with the PhoBERT or XLM-RoBERTa models, which can encode Vietnamese texts. We conducted experiments on our modified VietTreebank and VnDT corpora. Our extensive experiments showed that the simplified HPSG Neural Parser achieved a new state-of-the-art F-score of 82% for constituency parsing when using the same predicted part-of-speech (POS) tags as the self-attentive constituency parser. Additionally, it outperformed previous studies in dependency parsing with a higher Unlabeled Attachment Score (UAS). However, our parser obtained lower Labeled Attachment Score (LAS) scores likely due to our focus on arc permutation without changing the original labels, as we did not consult with a linguistic expert. Lastly, the research findings of this paper suggest that simplified HPSG should be given more attention to linguistic expert when developing treebanks for Vietnamese natural language processing.

arxiv情報

著者 Duc-Vu Nguyen,Thang Chau Phan,Quoc-Nam Nguyen,Kiet Van Nguyen,Ngan Luu-Thuy Nguyen
発行日 2024-11-26 09:46:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク