要約
非自己回帰 (NAR) 言語モデルは、ニューラル機械翻訳 (NMT) の待ち時間が短いことで知られています。
ただし、デコード空間が大きいことと、ターゲット単語間の依存関係を正確に捕捉することが難しいため、NAR モデルと自己回帰モデルの間にはパフォーマンスのギャップが存在します。
これに加えて、NAR モデルに適切なトレーニング データを準備することは簡単な作業ではなく、暴露バイアスを悪化させることがよくあります。
これらの課題に対処するために、代表的な編集ベースの NAR モデルであるレーベンシュタイン変換に強化学習 (RL) を適用し、自己生成データを使用した RL が編集ベースの NAR モデルのパフォーマンスを向上できることを実証しました。
段階的報酬の最大化とエピソード的報酬の最大化という 2 つの RL アプローチを検討します。
これら 2 つのアプローチのそれぞれの長所と短所を議論し、経験的に検証します。
さらに、温度設定がパフォーマンスに与える影響を実験的に調査し、NAR モデルのトレーニングにおける適切な温度設定の重要性を確認しました。
要約(オリジナル)
Non-autoregressive (NAR) language models are known for their low latency in neural machine translation (NMT). However, a performance gap exists between NAR and autoregressive models due to the large decoding space and difficulty in capturing dependency between target words accurately. Compounding this, preparing appropriate training data for NAR models is a non-trivial task, often exacerbating exposure bias. To address these challenges, we apply reinforcement learning (RL) to Levenshtein Transformer, a representative edit-based NAR model, demonstrating that RL with self-generated data can enhance the performance of edit-based NAR models. We explore two RL approaches: stepwise reward maximization and episodic reward maximization. We discuss the respective pros and cons of these two approaches and empirically verify them. Moreover, we experimentally investigate the impact of temperature setting on performance, confirming the importance of proper temperature setting for NAR models’ training.
arxiv情報
著者 | Hao Wang,Tetsuro Morimura,Ukyo Honda,Daisuke Kawahara |
発行日 | 2024-07-02 13:41:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google