Robust Guidance for Unsupervised Data Selection: Capturing Perplexing Named Entities for Domain-Specific Machine Translation

要約

リソースが少ないデータは、ニューラル機械翻訳にとって大きな課題となります。
ほとんどの場合、リソース不足の環境は、ドメインの専門家が必要か、言語の専門家が不足しているため、コストが高くなることが原因で発生します。
したがって、教師なし設定内で最もトレーニング効率の高いデータを特定することが現実的な戦略として浮上します。
最近の研究では、そのような効果的なデータは、その量に基づいて「適切に複雑なデータ」を選択することで特定できることが示唆されており、教師なしデータの選択に強力な直観が提供されます。
ただし、「適切な難易度」はデータドメインによって異なる可能性があるため、教師なしデータ選択の基準を確立することが依然として課題であることがわかりました。
我々は、翻訳された名前付きエンティティの最大推論エントロピーを選択の指標として活用する、「複雑な名前付きエンティティのキ​​ャプチャ」という名前の新しい教師なしデータ選択方法を導入します。
「専門領域の韓国語と英語の対訳コーパス」を使用してテストした場合、既存の方法とは対照的に、私たちの方法は、さまざまな領域にわたってトレーニング効率の高いデータを特定するための強力なガイダンスとして機能しました。

要約(オリジナル)

Low-resourced data presents a significant challenge for neural machine translation. In most cases, the low-resourced environment is caused by high costs due to the need for domain experts or the lack of language experts. Therefore, identifying the most training-efficient data within an unsupervised setting emerges as a practical strategy. Recent research suggests that such effective data can be identified by selecting ‘appropriately complex data’ based on its volume, providing strong intuition for unsupervised data selection. However, we have discovered that establishing criteria for unsupervised data selection remains a challenge, as the ‘appropriate level of difficulty’ may vary depending on the data domain. We introduce a novel unsupervised data selection method named ‘Capturing Perplexing Named Entities,’ which leverages the maximum inference entropy in translated named entities as a metric for selection. When tested with the ‘Korean-English Parallel Corpus of Specialized Domains,’ our method served as robust guidance for identifying training-efficient data across different domains, in contrast to existing methods.

arxiv情報

著者 Seunghyun Ji,Hagai Raja Sinulingga,Darongsae Kwon
発行日 2024-05-21 17:19:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク