Neural Machine Translation Data Generation and Augmentation using ChatGPT


ニューラル モデルは機械翻訳の分野に革命をもたらしましたが、並列コーパスの作成には費用と時間がかかります。
私たちの実験では、2 つの重要な発見が明らかになりました。出力に多様性がないにもかかわらず、ドメインが元のデータセットと衝突する場合でも、幻覚データは翻訳信号を改善します。


Neural models have revolutionized the field of machine translation, but creating parallel corpora is expensive and time-consuming. We investigate an alternative to manual parallel corpora – hallucinated parallel corpora created by generative language models. Although these models are themselves trained on parallel data, they can leverage a multilingual vector space to create data, and may be able to supplement small manually-procured corpora. Our experiments highlight two key findings – despite a lack of diversity in their output, the hallucinated data improves the translation signal, even when the domain clashes with the original dataset.


著者 Wayne Yang,Garrett Nicolai
発行日 2023-07-11 20:15:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CL パーマリンク