要約
URIEL は、7970 言語の地理的、系統学的、類型的なベクトル表現を提供する知識ベースです。
これには、4005 言語のこれらのベクトル間の距離の測定値が含まれており、lang2vec ツールを介してアクセスできます。
URIEL は頻繁に引用されているにもかかわらず、言語の包含性と全体的な使いやすさの点で制限されています。
これらの課題に取り組むために、これらの制限に対処する URIEL と lang2vec の拡張バージョンである URIEL+ を導入します。
URIEL+ は、2898 言語の類型特徴のカバー範囲を拡大することに加えて、ユーザーのニーズに合わせて堅牢でカスタマイズ可能な距離計算によりユーザー エクスペリエンスを向上させます。
これらのアップグレードは、下流のタスクでも競争力のあるパフォーマンスを提供し、言語距離の研究とより適切に一致する距離を提供します。
要約(オリジナル)
URIEL is a knowledge base offering geographical, phylogenetic, and typological vector representations for 7970 languages. It includes distance measures between these vectors for 4005 languages, which are accessible via the lang2vec tool. Despite being frequently cited, URIEL is limited in terms of linguistic inclusion and overall usability. To tackle these challenges, we introduce URIEL+, an enhanced version of URIEL and lang2vec that addresses these limitations. In addition to expanding typological feature coverage for 2898 languages, URIEL+ improves the user experience with robust, customizable distance calculations to better suit the needs of users. These upgrades also offer competitive performance on downstream tasks and provide distances that better align with linguistic distance studies.
arxiv情報
著者 | Aditya Khan,Mason Shipton,David Anugraha,Kaiyao Duan,Phuong H. Hoang,Eric Khiu,A. Seza Doğruöz,En-Shiun Annie Lee |
発行日 | 2024-12-19 17:57:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google