要約
ニューラル モデルは機械翻訳の分野に革命をもたらしましたが、並列コーパスの作成には費用と時間がかかります。
私たちは、手動の並列コーパスに代わる、生成言語モデルによって作成された幻覚並列コーパスを調査します。
これらのモデル自体は並列データでトレーニングされていますが、多言語ベクトル空間を活用してデータを作成でき、手動で取得した小さなコーパスを補完できる可能性があります。
私たちの実験では、2 つの重要な発見が明らかになりました。出力に多様性がないにもかかわらず、ドメインが元のデータセットと衝突する場合でも、幻覚データは翻訳信号を改善します。
要約(オリジナル)
Neural models have revolutionized the field of machine translation, but creating parallel corpora is expensive and time-consuming. We investigate an alternative to manual parallel corpora – hallucinated parallel corpora created by generative language models. Although these models are themselves trained on parallel data, they can leverage a multilingual vector space to create data, and may be able to supplement small manually-procured corpora. Our experiments highlight two key findings – despite a lack of diversity in their output, the hallucinated data improves the translation signal, even when the domain clashes with the original dataset.
arxiv情報
著者 | Wayne Yang,Garrett Nicolai |
発行日 | 2023-07-11 20:15:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google