Neural Machine Translation Data Generation and Augmentation using ChatGPT

要約

ニューラル モデルは機械翻訳の分野に革命をもたらしましたが、並列コーパスの作成には費用と時間がかかります。
私たちは、手動の並列コーパスに代わる、生成言語モデルによって作成された幻覚並列コーパスを調査します。
これらのモデル自体は並列データでトレーニングされていますが、多言語ベクトル空間を活用してデータを作成でき、手動で取得した小さなコーパスを補完できる可能性があります。
私たちの実験では、2 つの重要な発見が明らかになりました。出力に多様性がないにもかかわらず、ドメインが元のデータセットと衝突する場合でも、幻覚データは翻訳信号を改善します。

要約(オリジナル)

Neural models have revolutionized the field of machine translation, but creating parallel corpora is expensive and time-consuming. We investigate an alternative to manual parallel corpora – hallucinated parallel corpora created by generative language models. Although these models are themselves trained on parallel data, they can leverage a multilingual vector space to create data, and may be able to supplement small manually-procured corpora. Our experiments highlight two key findings – despite a lack of diversity in their output, the hallucinated data improves the translation signal, even when the domain clashes with the original dataset.

arxiv情報

著者 Wayne Yang,Garrett Nicolai
発行日 2023-07-11 20:15:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク