要約
タイ語文の自動依存関係解析は、完全な依存関係構造を備えた大規模なタイ語依存関係ツリーバンクの欠如と、最先端のモデル、特にトランスフォーマーベースのパーサーの体系的な評価が公開されていないことから明らかなように、十分に研究されていません。
この研究では、ユニバーサル ディペンデンシー (UD) フレームワークに従って注釈が付けられた 3,627 のツリーで構成される新しい最大のタイのツリーバンクであるタイ ユニバーサル ディペンデンシー ツリーバンク (TUD) を導入することで、これらの問題に対処します。
次に、事前トレーニング済みのトランスフォーマーをエンコーダーとして組み込んだ依存関係解析モデルのベンチマークを行い、Thai-PUD と TUD でトレーニングします。
評価結果は、私たちのモデルのほとんどが以前の論文で報告された他のモデルよりも優れたパフォーマンスを示し、タイの依存関係パーサーに含めるコンポーネントの最適な選択についての洞察を提供することを示しています。
新しいツリーバンクと実験で生成されたすべてのモデルの完全な予測は、さらなる研究のために GitHub リポジトリで利用可能です。
要約(オリジナル)
Automatic dependency parsing of Thai sentences has been underexplored, as evidenced by the lack of large Thai dependency treebanks with complete dependency structures and the lack of a published systematic evaluation of state-of-the-art models, especially transformer-based parsers. In this work, we address these problems by introducing Thai Universal Dependency Treebank (TUD), a new largest Thai treebank consisting of 3,627 trees annotated in accordance with the Universal Dependencies (UD) framework. We then benchmark dependency parsing models that incorporate pretrained transformers as encoders and train them on Thai-PUD and our TUD. The evaluation results show that most of our models can outperform other models reported in previous papers and provide insight into the optimal choices of components to include in Thai dependency parsers. The new treebank and every model’s full prediction generated in our experiment are made available on a GitHub repository for further study.
arxiv情報
著者 | Panyur Sriwirote,Wei Qi Leong,Charin Polpanumas,Santhawat Thanyawong,William Chandra Tjhi,Wirote Aroonmanakun,Attapol T. Rutherford |
発行日 | 2024-05-13 09:48:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google