Unlikelihood Tuning on Negative Samples Amazingly Improves Zero-Shot Translation

要約

ゼロショット翻訳 (ZST) は、一般的に多言語ニューラル機械翻訳モデルに基づいており、トレーニング データ内の目に見えない言語ペア間で翻訳することを目的としています。
推論中にゼロショット言語マッピングをガイドする一般的な方法は、ソース言語 ID とターゲット言語 ID (英語の場合は 、ドイツ語の場合は ) を意図的に挿入することです。
最近の研究では、言語 ID が ZST タスクのナビゲートに失敗することがあり、ターゲット外の問題 (生成された翻訳にターゲット言語以外の単語が存在する) に悩まされるため、現在の多言語翻訳モデルを翻訳に適用することが困難であることが示されています。
幅広いゼロショット言語シナリオ。
言語 ID のナビゲーション機能がいつ、そしてなぜ弱まるのかを理解するために、ZST 方向の 2 つの極端なデコーダー入力ケース、つまりオフターゲット (OFF) とオンターゲット (ON) のケースを比較します。
教師強制を使用したこれらのケースの文脈単語表現 (CWR) を対照的に視覚化することにより、1) 文と ID が一致する (オン設定) 場合、異なる言語の CWR が別々の領域に効果的に分散されること、および 2)
文とIDが一致しない(OFF設定)場合、異なる言語のCWRが無秩序に分散されます。
私たちの分析によると、言語 ID は理想的な ON 設定ではうまく機能しますが、ターゲット外のトークンに直面すると脆弱になり、ナビゲーション能力を失います。ターゲット外のトークンは推論中に一般的に存在しますが、トレーニング シナリオではまれです。
これに応じて、言語 ID がトレーニング中にターゲット内トークンとターゲット外トークンを区別できるように、ネガティブ (OFF) サンプルに対して尤度調整を使用して確率を最小限に抑えます。
40 の ZST 方向にわたる実験では、私たちの方法がオフターゲット率を平均 -48.0% 削減し、+0.3% の追加調整コストのみで +9.1 BLEU の改善につながることが示されています。

要約(オリジナル)

Zero-shot translation (ZST), which is generally based on a multilingual neural machine translation model, aims to translate between unseen language pairs in training data. The common practice to guide the zero-shot language mapping during inference is to deliberately insert the source and target language IDs, e.g., for English and for German. Recent studies have shown that language IDs sometimes fail to navigate the ZST task, making them suffer from the off-target problem (non-target language words exist in the generated translation) and, therefore, difficult to apply the current multilingual translation model to a broad range of zero-shot language scenarios. To understand when and why the navigation capabilities of language IDs are weakened, we compare two extreme decoder input cases in the ZST directions: Off-Target (OFF) and On-Target (ON) cases. By contrastively visualizing the contextual word representations (CWRs) of these cases with teacher forcing, we show that 1) the CWRs of different languages are effectively distributed in separate regions when the sentence and ID are matched (ON setting), and 2) if the sentence and ID are unmatched (OFF setting), the CWRs of different languages are chaotically distributed. Our analyses suggest that although they work well in ideal ON settings, language IDs become fragile and lose their navigation ability when faced with off-target tokens, which commonly exist during inference but are rare in training scenarios. In response, we employ unlikelihood tuning on the negative (OFF) samples to minimize their probability such that the language IDs can discriminate between the on- and off-target tokens during training. Experiments spanning 40 ZST directions show that our method reduces the off-target ratio by -48.0% on average, leading to a +9.1 BLEU improvement with only an extra +0.3% tuning cost.

arxiv情報

著者 Changtong Zan,Liang Ding,Li Shen,Yibin Lei,Yibing Zhan,Weifeng Liu,Dacheng Tao
発行日 2023-09-28 17:02:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク