Data Augmentation for Neural Machine Translation using Generative Language Model

要約

モデル アーキテクチャの急速な成長にもかかわらず、大規模な並列コーパスの不足が依然としてニューラル機械翻訳の主なボトルネックとなっています。
データ拡張は、新しいデータを収集する代わりに合成データを生成することによって、データを大量に消費するモデルのパフォーマンスを向上させる手法です。
ChatGPT などの大規模言語モデルを活用した、プロンプトベースのデータ拡張アプローチを検討します。
合成対訳コーパスを作成するために、異なるプロンプトを使用する 3 つの方法を比較します。
生成された合成データの多様性を測定するために 2 つの評価指標を採用します。
このアプローチでは、逆変換などの他の拡張方法では必須となる、さらなるモデルのトレーニング コストは必要ありません。
提案された方法は、拡張されていないベースラインを BLEU スコア 0.68 改善します。

要約(オリジナル)

Despite the rapid growth in model architecture, the scarcity of large parallel corpora remains the main bottleneck in Neural Machine Translation. Data augmentation is a technique that enhances the performance of data-hungry models by generating synthetic data instead of collecting new ones. We explore prompt-based data augmentation approaches that leverage large-scale language models such as ChatGPT. To create a synthetic parallel corpus, we compare 3 methods using different prompts. We employ two assessment metrics to measure the diversity of the generated synthetic data. This approach requires no further model training cost, which is mandatory in other augmentation methods like back-translation. The proposed method improves the unaugmented baseline by 0.68 BLEU score.

arxiv情報

著者 Seokjin Oh,Su Ah Lee,Woohwan Jung
発行日 2023-11-13 13:17:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク