Exploring syntactic information in sentence embeddings through multilingual subject-verb agreement

要約

この論文では、私たちの目標は、多言語の事前トレーニング済み言語モデルが、言語を越えて有効な抽象言語表現をどの程度捉えているかを調査することです。
私たちは、特定の特性を備えた大規模な厳選された合成データを開発し、それらを使用して、事前トレーニングされた言語モデルを使用して構築された文表現を研究するというアプローチを採用しています。
私たちは、新しい多肢選択タスクとデータセットである Blackbird Language Matrices (BLM) を使用して、いくつかの言語における特定の文法構造現象 (さまざまな文構造にわたる主語と動詞の一致) に焦点を当てます。
この課題の解決策を見つけるには、テキスト表現の複雑な言語パターンとパラダイムを検出するシステムが必要です。
問題を 2 つのステップで解決する 2 レベルのアーキテクチャを使用する (個々の文の構文オブジェクトとそのプロパティを検出し、入力された文のシーケンス全体でパターンを見つける) ことにより、一貫した方法で多言語テキストのトレーニングを受けているにもかかわらず、
、多言語の事前トレーニング済み言語モデルには言語固有の違いがあり、密接に関連する言語間であっても構文構造は共有されません。

要約(オリジナル)

In this paper, our goal is to investigate to what degree multilingual pretrained language models capture cross-linguistically valid abstract linguistic representations. We take the approach of developing curated synthetic data on a large scale, with specific properties, and using them to study sentence representations built using pretrained language models. We use a new multiple-choice task and datasets, Blackbird Language Matrices (BLMs), to focus on a specific grammatical structural phenomenon — subject-verb agreement across a variety of sentence structures — in several languages. Finding a solution to this task requires a system detecting complex linguistic patterns and paradigms in text representations. Using a two-level architecture that solves the problem in two steps — detect syntactic objects and their properties in individual sentences, and find patterns across an input sequence of sentences — we show that despite having been trained on multilingual texts in a consistent manner, multilingual pretrained language models have language-specific differences, and syntactic structure is not shared, even across closely related languages.

arxiv情報

著者 Vivi Nastase,Chunyang Jiang,Giuseppe Samo,Paola Merlo
発行日 2024-09-10 14:58:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T50, cs.CL, I.2.7 パーマリンク