要約
現在の多言語係り受け解析器は多様な言語を解析することができるが、形態論的に豊かな言語(Morphologically Rich Languages:MRL)については、他の言語よりも性能が低いことが証明されている。主な課題は、形態素の複雑性が高く、空間的に区切られた入力トークンの曖昧性が高いため、ツリーのノードとして機能する言語ユニットが事前にわからないことです。MRL 用のニューラル係り受け解析器は、形態論的セグメンテーションと統語的構文解析を、セグメンテーションが構文解析に先行するパイプラインとしてではなく、共同で解決すべきであるという、形態論的・統語論的共同仮説を支持していた。しかし、現在までのニューラル最新パーサーは、厳密なパイプラインを使用している。本論文では、入力のすべての形態論的曖昧性を保存する格子ベースの表現をアーク因子モデルに提供し、形態素分割と構文解析のタスクを一度に解決するジョイントニューラルアーキテクチャを紹介する。豊富で曖昧性の高いMRLであるヘブライ語を用いた実験により、UDのヘブライ語セクションの構文解析、タグ付け、セグメンテーションにおいて、単一のモデルを用いて最先端の性能が実証された。提案するアーキテクチャはLLMベースであり、言語に依存しないため、MRLの更なる性能向上と他言語とのギャップを埋めるための強固な基盤となる。
要約(オリジナル)
Contemporary multilingual dependency parsers can parse a diverse set of languages, but for Morphologically Rich Languages (MRLs), performance is attested to be lower than other languages. The key challenge is that, due to high morphological complexity and ambiguity of the space-delimited input tokens, the linguistic units that act as nodes in the tree are not known in advance. Pre-neural dependency parsers for MRLs subscribed to the joint morpho-syntactic hypothesis, stating that morphological segmentation and syntactic parsing should be solved jointly, rather than as a pipeline where segmentation precedes parsing. However, neural state-of-the-art parsers to date use a strict pipeline. In this paper we introduce a joint neural architecture where a lattice-based representation preserving all morphological ambiguity of the input is provided to an arc-factored model, which then solves the morphological segmentation and syntactic parsing tasks at once. Our experiments on Hebrew, a rich and highly ambiguous MRL, demonstrate state-of-the-art performance on parsing, tagging and segmentation of the Hebrew section of UD, using a single model. This proposed architecture is LLM-based and language agnostic, providing a solid foundation for MRLs to obtain further performance improvements and bridge the gap with other languages.
arxiv情報
著者 | Danit Yshaayahu Levi,Reut Tsarfaty |
発行日 | 2024-03-02 16:33:32+00:00 |
arxivサイト | arxiv_id(pdf) |