要約
語彙リソースは、言語間分析に不可欠であり、自然言語学習のための計算モデルに関する新しい洞察を提供できます。
ここでは、複数の意味を持つ単語の比較研究のための高度なデータベースを提示します。
新しいバージョンには、データの取り扱い、選択、プレゼンテーションの改善が含まれます。
新しいデータベースを以前のバージョンと比較して、私たちの改善は、すべての単語形式が音声転写で提供されていることを考えると、世界中でより多くの言語ファミリをカバーするよりバランスのとれたサンプルを提供することを発見します。
言語間の総合的な新しいデータベースは、言語間データを言語学、歴史的言語学、心理言語学、および計算言語学の疑問を開くように結びつけるエキサイティングな新しい研究を刺激する可能性があると結論付けています。
要約(オリジナル)
Lexical resources are crucial for cross-linguistic analysis and can provide new insights into computational models for natural language learning. Here, we present an advanced database for comparative studies of words with multiple meanings, a phenomenon known as colexification. The new version includes improvements in the handling, selection and presentation of the data. We compare the new database with previous versions and find that our improvements provide a more balanced sample covering more language families worldwide, with an enhanced data quality, given that all word forms are provided in phonetic transcription. We conclude that the new Database of Cross-Linguistic Colexifications has the potential to inspire exciting new studies that link cross-linguistic data to open questions in linguistic typology, historical linguistics, psycholinguistics, and computational linguistics.
arxiv情報
著者 | Annika Tjuka,Robert Forkel,Christoph Rzymski,Johann-Mattis List |
発行日 | 2025-03-14 13:22:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google