Bridging Natural Language Processing and Psycholinguistics: computationally grounded semantic similarity datasets for Basque and Spanish

要約

【タイトル】自然言語処理と心理言語学の懸け橋:バスク語とスペイン語のための計算に基づく意味の類似性データセット

【要約】
– 本論文では、テキストコーパスと知識データベースという2つの自然言語処理リソースに基づく計算に基づく単語類似性データセットを紹介する。
– このデータセットは、意味処理の重要な役割を果たす変数によって制御された広範な名詞のセットにおいて、意味類似性のさまざまな量化を提供することによって、心理言語学研究における欠落を埋めることを目的としている。
– データセットの作成には、3つのステップがあった。1) 各名詞について4つの心理言語学的特徴を計算すること、具体性、頻度、意味的近傍密度、音韻的近傍密度;2) これらの4つの変数を越えて名詞をペアリングすること;3) 各名詞ペアについて、テキスト、Wordnet、ハイブリッド埋め込みから計算された3つの種類の単語類似性測定値を割り当てること。
– このデータセットは、バスク語と欧州スペイン語の名詞ペア情報を含んでいるが、今後の研究ではより多くの言語に拡張する予定である。
【要点】
– 本研究は、自然言語処理と心理言語学の懸け橋として、バスク語とスペイン語のための計算に基づく意味類似性データセットを提供する。
– データセットは、心理言語学的特徴に基づき、広範な名詞のペアに対して意味類似性の量化を提供することを目的としている。
– データセットは、テキスト、Wordnet、ハイブリッド埋め込みから計算された3種類の単語類似性測定値を含む。
– バスク語と欧州スペイン語の名詞ペア情報を含み、今後はより多くの言語に拡張する予定である。

要約(オリジナル)

We present a computationally-grounded word similarity dataset based on two well-known Natural Language Processing resources; text corpora and knowledge bases. This dataset aims to fulfil a gap in psycholinguistic research by providing a variety of quantifications of semantic similarity in an extensive set of noun pairs controlled by variables that play a significant role in lexical processing. The dataset creation has consisted in three steps, 1) computing four key psycholinguistic features for each noun; concreteness, frequency, semantic and phonological neighbourhood density; 2) pairing nouns across these four variables; 3) for each noun pair, assigning three types of word similarity measurements, computed out of text, Wordnet and hybrid embeddings. The present dataset includes noun pairs’ information in Basque and European Spanish, but further work intends to extend it to more languages.

arxiv情報

著者 J. Goikoetxea,M. Arantzeta,I. San Martin
発行日 2023-04-20 08:23:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク