要約
タイトル:バスク語とスペイン語の自然言語処理と心理言語学の架け橋:コンピューターに基づく意味の類似性と関連性のデータセット
要約:
– 自然言語処理のリソースであるテキストコーパスと知識ベースを基に、計算に基づく単語の類似性のデータセットを提供することで心理言語学の研究の未開拓領域を埋めることを目的としている。
– データセットの作成は以下の3つのステップで行われた。1)各名詞について4つの心理言語学的特徴(具体性、頻度、意味および音韻的近傍密度)を計算する。2)これらの4つの変数を基に名詞をペアリングする。3)各名詞のペアに対し、テキスト、Wordnet、ハイブリッド埋め込みから計算された3種類の単語の類似度を割り当てる。
– 現在のデータセットには、バスク語とヨーロッパスペイン語の名詞ペア情報が含まれているが、今後は他の言語にも拡張する予定である。
要約(オリジナル)
We present a computationally-grounded word similarity dataset based on two well-known Natural Language Processing resources; text corpora and knowledge bases. This dataset aims to fulfil a gap in psycholinguistic research by providing a variety of quantifications of semantic similarity in an extensive set of noun pairs controlled by variables that play a significant role in lexical processing. The dataset creation has consisted in three steps, 1) computing four key psycholinguistic features for each noun; concreteness, frequency, semantic and phonological neighbourhood density; 2) pairing nouns across these four variables; 3) for each noun pair, assigning three types of word similarity measurements, computed out of text, Wordnet and hybrid embeddings. The present dataset includes noun pairs’ information in Basque and European Spanish, but further work intends to extend it to more languages.
arxiv情報
著者 | J. Goikoetxea,M. Arantzeta,I. San Martin |
発行日 | 2023-04-19 12:47:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI