要約
我々は、多言語大規模言語モデル (LLM) がマルチフォーマリズム構文構造の観点から構文をどのように学習するかを評価するためのアプローチを紹介します。
私たちは、解析をシーケンスのラベル付けとしてキャストすることで、構成要素と依存関係の構造を回復することを目指しています。
そのために、いくつかの LLM を選択し、依存関係解析用に 13 の多様な UD ツリーバンク、構成要素解析用に 10 個のツリーバンクでそれらを研究します。
私たちの結果は次のことを示しています: (i) フレームワークはエンコーディング間で一貫している、(ii) 事前トレーニングされた単語ベクトルは依存関係よりも構文の構成要素表現を優先しない、(iii) 文字とは対照的に、構文を表現するにはサブワードのトークン化が必要である
(iv) 単語ベクトルから構文を回復する場合、事前トレーニング データ内の言語の出現はタスク データの量よりも重要です。
要約(オリジナル)
We present an approach for assessing how multilingual large language models (LLMs) learn syntax in terms of multi-formalism syntactic structures. We aim to recover constituent and dependency structures by casting parsing as sequence labeling. To do so, we select a few LLMs and study them on 13 diverse UD treebanks for dependency parsing and 10 treebanks for constituent parsing. Our results show that: (i) the framework is consistent across encodings, (ii) pre-trained word vectors do not favor constituency representations of syntax over dependencies, (iii) sub-word tokenization is needed to represent syntax, in contrast to character-based models, and (iv) occurrence of a language in the pretraining data is more important than the amount of task data when recovering syntax from the word vectors.
arxiv情報
著者 | Alberto Muñoz-Ortiz,David Vilares,Carlos Gómez-Rodríguez |
発行日 | 2023-09-20 09:23:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google