Exploring the Potential of Machine Translation for Generating Named Entity Datasets: A Case Study between Persian and English

要約

この研究では、英語のデータセットに機械翻訳を適用して、ペルシャ語の名前付きエンティティ データセットを生成することに焦点を当てています。
生成されたデータセットは、1 つの単一言語変換モデルと 1 つの多言語変換モデルで実験することによって評価されました。
特に、CoNLL 2003 データセットは 85.11% という最高の F1 スコアを達成しています。
対照的に、WNUT 2017 データセットの F1 スコアは 40.02% と最低でした。
この研究の結果は、ペルシア語のようなリソースの少ない言語用の高品質の名前付きエンティティ認識データセットを作成する際の機械翻訳の可能性を浮き彫りにしています。
この調査では、これらの生成されたデータセットのパフォーマンスを英語の固有表現認識システムと比較し、このタスクに対する機械翻訳の有効性に関する洞察を提供します。
さらに、このアプローチを使用して、リソースの少ない言語でデータを拡張したり、ノイズの多いデータを作成して名前付きエンティティ システムをより堅牢にしたり、それらを改善したりすることができます。

要約(オリジナル)

This study focuses on the generation of Persian named entity datasets through the application of machine translation on English datasets. The generated datasets were evaluated by experimenting with one monolingual and one multilingual transformer model. Notably, the CoNLL 2003 dataset has achieved the highest F1 score of 85.11%. In contrast, the WNUT 2017 dataset yielded the lowest F1 score of 40.02%. The results of this study highlight the potential of machine translation in creating high-quality named entity recognition datasets for low-resource languages like Persian. The study compares the performance of these generated datasets with English named entity recognition systems and provides insights into the effectiveness of machine translation for this task. Additionally, this approach could be used to augment data in low-resource language or create noisy data to make named entity systems more robust and improve them.

arxiv情報

著者 Amir Sartipi,Afsaneh Fatemi
発行日 2023-02-19 16:12:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク