Improving Machine Translation with Human Feedback: An Exploration of Quality Estimation as a Reward Model

要約

報酬モデル内の人間の好みのモデリングが不十分であることは、人間のフィードバックを活用して翻訳品質を向上させる際の大きな障害となります。
幸いなことに、参照なしで特定の翻訳の品質を予測する品質評価 (QE) は、過去 2 年間で人間による評価と見事な一致を達成しました。
この研究では、フィードバック トレーニングに対する人間の好みを予測するための報酬モデル (QE ベースの報酬モデル) として QE モデルを採用する可能性を調査します。
まず、QE ベースのフィードバック トレーニング中に過剰最適化の問題を特定します。これは、翻訳品質が低下する一方で報酬が増加するという形で現れます。
私たちはこの問題を検討し、QE モデルの脆弱性が誤った翻訳に対して高額な報酬をもたらし、その結果過剰な最適化とエラーの伝播を引き起こす可能性があると主張します。
この問題に対処するために、ヒューリスティック ルールを使用して誤った翻訳を検出し、検出された誤った翻訳に対する QE ベースの報酬にペナルティ項を割り当てる、シンプルかつ効果的な方法を採用します。
実験結果は、提案された QE ベースのフィードバック トレーニングがさまざまな設定にわたって一貫した大幅な改善を達成することを示しており、人間の好みの研究を通じてさらに検証されています。
その後の分析では、提案された QE ベースのフィードバック トレーニングの高いデータ効率が実証されました。少量の単言語データを使用する提案されたアプローチは、より大きな並列コーパスを使用するシステムよりも優れたパフォーマンスを発揮できます。

要約(オリジナル)

Insufficient modeling of human preferences within the reward model is a major obstacle for leveraging human feedback to improve translation quality. Fortunately, quality estimation (QE), which predicts the quality of a given translation without reference, has achieved impressive alignment with human evaluations in the last two years. In this work, we investigate the potential of employing the QE model as the reward model (the QE-based reward model) to predict human preferences for feedback training. We first identify the overoptimization problem during QE-based feedback training, manifested as an increase in reward while translation quality declines. We examine the problem and argue that the vulnerability of the QE model might lead to high rewards for incorrect translations, resulting in overoptimization and error propagation. To address the problem, we adopt a simple yet effective method that uses heuristic rules to detect the incorrect translations and assigns a penalty term to the QE-based rewards for the detected incorrect translations. Experimental results show that the proposed QE-based feedback training achieves consistent and significant improvements across various settings, further verified through human preference studies. Our subsequent analysis demonstrates the high data efficiency of the proposed QE-based feedback training: the proposed approach using a small amount of monolingual data can outperform systems using larger parallel corpora.

arxiv情報

著者 Zhiwei He,Xing Wang,Wenxiang Jiao,Zhuosheng Zhang,Rui Wang,Shuming Shi,Zhaopeng Tu
発行日 2024-01-23 16:07:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク