Contextual Distortion Reveals Constituency: Masked Language Models are Implicit Parsers

要約

事前トレーニング済み言語モデル (PLM) の最近の進歩により、これらのモデルがある程度の構文認識を備えていることが実証されました。
この知識を活用するために、個別のパーサーをトレーニングする必要なく、マスクされた言語モデル (LM) から解析ツリーを抽出するための新しいチャートベースの方法を提案します。
私たちの方法は、言語の摂動から生じる文脈表現の歪みに基づいて、各スパンのスコアを計算します。
構成要素テストの言語概念に基づいて一連の摂動を設計し、これらを使用して歪みスコアを集計することで各スパンをスコア付けします。
解析ツリーを生成するには、チャート解析を使用して最小スコアを持つツリーを見つけます。
私たちの手法は、マスクされた LM を使用した英語に関するこれまでの最先端の手法を常に上回っており、多言語設定でも優れたパフォーマンスを示し、8 言語中 6 言語で最先端の手法を上回っています。
特に、私たちの方法にはパラメータの更新や広範なハイパーパラメータ検索が含まれていませんが、そのパフォーマンスは微調整が必​​要な一部の教師なし解析方法をも上回る可能性があります。
私たちの分析は、構文の乱れによって生じる文脈表現の歪みが、言語間の構成要素を示す効果的な指標として機能する可能性があることを強調しています。

要約(オリジナル)

Recent advancements in pre-trained language models (PLMs) have demonstrated that these models possess some degree of syntactic awareness. To leverage this knowledge, we propose a novel chart-based method for extracting parse trees from masked language models (LMs) without the need to train separate parsers. Our method computes a score for each span based on the distortion of contextual representations resulting from linguistic perturbations. We design a set of perturbations motivated by the linguistic concept of constituency tests, and use these to score each span by aggregating the distortion scores. To produce a parse tree, we use chart parsing to find the tree with the minimum score. Our method consistently outperforms previous state-of-the-art methods on English with masked LMs, and also demonstrates superior performance in a multilingual setting, outperforming the state of the art in 6 out of 8 languages. Notably, although our method does not involve parameter updates or extensive hyperparameter search, its performance can even surpass some unsupervised parsing methods that require fine-tuning. Our analysis highlights that the distortion of contextual representation resulting from syntactic perturbation can serve as an effective indicator of constituency across languages.

arxiv情報

著者 Jiaxi Li,Wei Lu
発行日 2023-06-01 13:10:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク