Robust Guidance for Unsupervised Data Selection: Capturing Perplexing Named Entities for Domain-Specific Machine Translation

要約

広範なデータセットを使用することで、多言語機械翻訳モデルのトレーニングが可能になります。
ただし、これらのモデルは、特殊なドメイン内の文を正確に翻訳できないことがよくあります。
ドメイン固有のデータの取得と翻訳には高額なコストがかかりますが、高品質の翻訳には避けられません。
したがって、教師なし設定で最も「効果的な」データを見つけることが、ラベル付けコストを削減するための現実的な戦略になります。
最近の研究では、この効果的なデータは、その量に基づいて「適切に困難なデータ」を選択することで見つけられる可能性があることが示されています。
これは、特にデータ量が限られている場合、データが過度に困難であったり、過度に単純化したりすべきではないことを意味します。
ただし、「適切な難易度」はトレーニング対象のデータ ドメインに応じて異なる可能性があるため、教師なしデータ選択の基準を確立することは依然として困難であることがわかりました。
我々は、翻訳された名前付きエンティティの最大推論エントロピーを選択基準として採用する、新しい教師なしデータ選択方法「複雑な名前付きエンティティのキ​​ャプチャ」を導入します。
その動機は、ドメイン固有データ内の名前付きエンティティはデータの最も複雑な部分とみなされ、高い信頼性を持って予測されるべきであるということでした。
「専門領域の韓国語-英語対訳コーパス」で検証すると、既存の方法とは対照的に、私たちの方法は教師なしデータ選択の強力なガイダンスとして機能しました。

要約(オリジナル)

Employing extensive datasets enables the training of multilingual machine translation models; however, these models often fail to accurately translate sentences within specialized domains. Although obtaining and translating domain-specific data incurs high costs, it is inevitable for high-quality translations. Hence, finding the most ‘effective’ data with an unsupervised setting becomes a practical strategy for reducing labeling costs. Recent research indicates that this effective data could be found by selecting ‘properly difficult data’ based on its volume. This means the data should not be excessively challenging or overly simplistic, especially if the amount of data is limited. However, we found that establishing a criterion for unsupervised data selection remains challenging, as the ‘proper difficulty’ might vary based on the data domain being trained on. We introduce a novel unsupervised data selection method, ‘Capturing Perplexing Named Entities’, which adopts the maximum inference entropy in translated named entities as a selection measure. The motivation was that named entities in domain-specific data are considered the most complex portion of the data and should be predicted with high confidence. When verified with the ‘Korean-English Parallel Corpus of Specialized Domains,’ our method served as a robust guidance for unsupervised data selection, in contrast to existing methods.

arxiv情報

著者 Seunghyun Ji,Hagai Raja Sinulingga,Darongsae Kwon
発行日 2024-02-29 15:38:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク