PWESuite: Phonetic Word Embeddings and Tasks They Facilitate

要約

【タイトル】 PWESuite:音素的単語エンベッディングとその促進するタスク

【要約】
– 現代のNLPのバックボーンである単語を固定次元のベクトル空間にマッピングする単語エンベッディングは、ほとんどの単語エンベッディング法が意味情報をエンコードする一方で、重要な音韻情報はしばしば無視される。
– この研究では、語言運動学的な特徴を活用して音韻情報を利用した単語エンベッディングを構築するためのいくつかの新しい方法を開発し、音素的な単語エンベッディングのコミュニティ開発、評価、および使用を奨励するセットの音素的な単語エンベッディングを提供します。
– 音素的な単語エンベッディングを学習するためのいくつかの方法がすでに存在していますが、その有効性を評価する方法の一貫性に欠けることがあります。そのため、単語の取得や音韻類似性との相関などの音素的な単語エンベッディングの本質的な側面と、韻やコーニング検出といった外的なパフォーマンス、および音の類推の両方を評価するいくつかの方法を提案します。
– 私たちは、タスクのスイートが再現性を促進し、音素的な単語エンベッディングの将来の研究に方向性を提供することを望んでいます。

要約(オリジナル)

Word embeddings that map words into a fixed-dimensional vector space are the backbone of modern NLP. Most word embedding methods encode semantic information. However, phonetic information, which is important for some tasks, is often overlooked. In this work, we develop several novel methods which leverage articulatory features to build phonetically informed word embeddings, and present a set of phonetic word embeddings to encourage their community development, evaluation and use. While several methods for learning phonetic word embeddings already exist, there is a lack of consistency in evaluating their effectiveness. Thus, we also proposes several ways to evaluate both intrinsic aspects of phonetic word embeddings, such as word retrieval and correlation with sound similarity, and extrinsic performances, such as rhyme and cognate detection and sound analogies. We hope that our suite of tasks will promote reproducibility and provide direction for future research on phonetic word embeddings.

arxiv情報

著者 Vilém Zouhar,Kalvin Chang,Chenxuan Cui,Nathaniel Carlson,Nathaniel Robinson,Mrinmaya Sachan,David Mortensen
発行日 2023-04-05 16:03:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク