要約
自然言語生成 (NLG) タスクのデコード方法に関する最近の研究では、モデルの確率が人間の好みと必ずしも一致しないため、MAP デコードが最適ではないことが示されています。
その後、モデルの複雑性と品質の不一致を軽減するために、品質推定 (QE) 再ランキングや最小ベイズ リスク (MBR) デコードなどのより強力なデコード方法が提案されています。
これらのデコード方法は最先端のパフォーマンスを実現しますが、計算コストが法外に高くなります。
この研究では、推論時に効率的な復号アルゴリズムを使用しながら、トレーニング時にこれらの復号方法から品質の向上を抽出する、MBR 微調整と QE 微調整を提案します。
ニューラル機械翻訳 (NMT) の標準的な NLG タスクを使用して、自己トレーニングを行った場合でも、これらの微調整手法が基本モデルよりも大幅に優れたパフォーマンスを発揮することを示します。
さらに、外部 LLM を教師モデルとして使用する場合、これらの微調整方法は、人間が生成した参照での微調整よりも優れたパフォーマンスを発揮します。
これらの発見は、デコード中に最大の効率を維持しながら、単一言語データを活用して、人間が厳選したデータによる改善と同等、またはそれを超えるモデル品質の改善を達成するための新しい方法を示唆しています。
要約(オリジナル)
Recent research in decoding methods for Natural Language Generation (NLG) tasks has shown that MAP decoding is not optimal, because model probabilities do not always align with human preferences. Stronger decoding methods, including Quality Estimation (QE) reranking and Minimum Bayes’ Risk (MBR) decoding, have since been proposed to mitigate the model-perplexity-vs-quality mismatch. While these decoding methods achieve state-of-the-art performance, they are prohibitively expensive to compute. In this work, we propose MBR finetuning and QE finetuning which distill the quality gains from these decoding methods at training time, while using an efficient decoding algorithm at inference time. Using the canonical NLG task of Neural Machine Translation (NMT), we show that even with self-training, these finetuning methods significantly outperform the base model. Moreover, when using an external LLM as a teacher model, these finetuning methods outperform finetuning on human-generated references. These findings suggest new ways to leverage monolingual data to achieve improvements in model quality that are on par with, or even exceed, improvements from human-curated data, while maintaining maximum efficiency during decoding.
arxiv情報
著者 | Mara Finkelstein,Markus Freitag |
発行日 | 2023-09-27 16:53:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google