UCxn: Typologically Informed Annotation of Constructions Atop Universal Dependencies

要約

ユニバーサル ディペンデンシーズ (UD) プロジェクトは、140 を超える言語で貢献されたツリーバンクの貴重なコレクションを作成しました。
ただし、UD 注釈はすべてを伝えているわけではありません。
いくつかの形態構文要素の特定の組み合わせによって意味を伝える文法構造 (たとえば、特別なマーカーや語順を備えた疑問文など) は、全体的なラベルが付けられません。
我々は、(i) そのような意味を持つ文法構造に対して「UCxn」アノテーション層を使用して UD アノテーションを強化すること、(ii) 形態構文戦略を言語間で比較できるように、類型論に基づいた方法でこれにアプローチすることを主張します。
ケーススタディとして、10 言語の 5 つの構文ファミリーを検討し、形態構文パターンを使用して UD ツリーバンク内の各構文のインスタンスを識別します。
これらの特定の構造に関する発見に加えて、私たちの研究は、言語一般および言語固有の方法で構造を記述および識別するための方法論に関する重要な洞察をもたらし、将来の UD ツリーバンクの構造を強化するための基礎を築きます。

要約(オリジナル)

The Universal Dependencies (UD) project has created an invaluable collection of treebanks with contributions in over 140 languages. However, the UD annotations do not tell the full story. Grammatical constructions that convey meaning through a particular combination of several morphosyntactic elements — for example, interrogative sentences with special markers and/or word orders — are not labeled holistically. We argue for (i) augmenting UD annotations with a ‘UCxn’ annotation layer for such meaning-bearing grammatical constructions, and (ii) approaching this in a typologically informed way so that morphosyntactic strategies can be compared across languages. As a case study, we consider five construction families in ten languages, identifying instances of each construction in UD treebanks through the use of morphosyntactic patterns. In addition to findings regarding these particular constructions, our study yields important insights on methodology for describing and identifying constructions in language-general and language-particular ways, and lays the foundation for future constructional enrichment of UD treebanks.

arxiv情報

著者 Leonie Weissweiler,Nina Böbel,Kirian Guiller,Santiago Herrera,Wesley Scivetti,Arthur Lorenzi,Nurit Melnik,Archna Bhatia,Hinrich Schütze,Lori Levin,Amir Zeldes,Joakim Nivre,William Croft,Nathan Schneider
発行日 2024-03-26 14:40:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク