ParaNames 1.0: Creating an Entity Name Corpus for 400+ Languages using Wikidata

要約

ParaNames は、400 を超える言語にわたる 1 億 4,000 万の名前で構成される大規模な多言語並列名前リソースです。
1,680 万のエンティティに名前が提供され、各エンティティは複合タイプの階層から標準タイプ (PER/LOC/ORG) にマッピングされます。
ウィキデータをソースとして使用して、このタイプのこれまでで最大のリソースを作成します。
可能な限り最高の品質を提供するためにデータをフィルタリングおよび標準化するためのアプローチについて説明します。
ParaNames は、名前の翻訳/音訳のタスクを定義する場合と、名前付きエンティティの認識やリンクなどのタスクの補足データとして、多言語言語処理に役立ちます。
2 つのタスクで ParaNames の有用性を示します。
まず、英語と他の 17 言語の間で正規名の翻訳を実行します。
次に、多言語の固有表現認識のための地名辞典として使用し、評価された 10 言語すべてでパフォーマンスの向上が得られました。

要約(オリジナル)

We introduce ParaNames, a massively multilingual parallel name resource consisting of 140 million names spanning over 400 languages. Names are provided for 16.8 million entities, and each entity is mapped from a complex type hierarchy to a standard type (PER/LOC/ORG). Using Wikidata as a source, we create the largest resource of this type to date. We describe our approach to filtering and standardizing the data to provide the best quality possible. ParaNames is useful for multilingual language processing, both in defining tasks for name translation/transliteration and as supplementary data for tasks such as named entity recognition and linking. We demonstrate the usefulness of ParaNames on two tasks. First, we perform canonical name translation between English and 17 other languages. Second, we use it as a gazetteer for multilingual named entity recognition, obtaining performance improvements on all 10 languages evaluated.

arxiv情報

著者 Jonne Sälevä,Constantine Lignos
発行日 2024-05-15 16:44:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク