SpaDeLeF: A Dataset for Hierarchical Classification of Lexical Functions for Collocations in Spanish

要約

自然言語処理 (NLP) における語彙関数は、最初に意味テキスト理論で作成されたテキスト内の単語やフレーズの意味論的および構文的特徴を明確に表す概念です。
語彙関数の階層的分類には、これらの特徴をカテゴリまたはラベルのツリー状の階層に編成することが含まれます。
これは、文脈やテキスト内の単語やフレーズ間の関係をよく理解する必要があるため、難しい作業です。
また、言語モデルを効果的にトレーニングするには、大量のラベル付きデータも必要です。
この論文では、最も頻繁に使用されるスペイン語の動詞と名詞の連語とそれらが出現する文のデータセットを提示します。各連語は、階層分類タスクのクラスとして定義された 37 の語彙関数の 1 つに割り当てられます。
各クラスは、意味論的および構文的特徴を伴う連語における名詞と動詞の間の関係を表します。
ツリーベースの構造でクラスを結合し、構造の各レベルに分類目標を導入します。
このデータセットは、依存関係ツリーの解析とスペイン語のニュースのフレーズの照合によって作成されました。
目標ごとにベースラインとデータ分割を提供します。

要約(オリジナル)

In natural language processing (NLP), lexical function is a concept to unambiguously represent semantic and syntactic features of words and phrases in text first crafted in the Meaning-Text Theory. Hierarchical classification of lexical functions involves organizing these features into a tree-like hierarchy of categories or labels. This is a challenging task as it requires a good understanding of the context and the relationships among words and phrases in text. It also needs large amounts of labeled data to train language models effectively. In this paper, we present a dataset of most frequent Spanish verb-noun collocations and sentences where they occur, each collocation is assigned to one of 37 lexical functions defined as classes for a hierarchical classification task. Each class represents a relation between the noun and the verb in a collocation involving their semantic and syntactic features. We combine the classes in a tree-based structure, and introduce classification objectives for each level of the structure. The dataset was created by dependency tree parsing and matching of the phrases in Spanish news. We provide baselines and data splits for each objective.

arxiv情報

著者 Yevhen Kostiuk,Grigori Sidorov,Olga Kolesnikova
発行日 2023-11-07 18:32:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク