要約
非自己回帰変換 (NAT) は、デコードの待ち時間を短縮しますが、マルチモダリティの問題によりパフォーマンスが低下します。
最近、有向非巡回グラフの構造は、NAT で大きな成功を収めました。NAT は、頂点間に依存関係を導入することでマルチモダリティの問題に取り組みます。
ただし、負の対数尤度損失でトレーニングするには、暗黙的に参照トークンと頂点の間の厳密な位置合わせが必要であり、複数の変換モダリティを処理する能力が弱まります。
この論文では、グラフ内のすべてのパスが参照文とあいまいに整列しているという見解を保持しています。
正確なアラインメントは必要ありませんが、モデルをトレーニングして、グラフと参照の間のファジー アラインメント スコアを最大化します。これにより、すべてのモダリティでキャプチャされた翻訳が考慮されます。
主要な WMT ベンチマークでの広範な実験は、私たちの方法が翻訳パフォーマンスを大幅に改善し、予測の信頼性を高め、生のトレーニング データに対する NAT の新しい最先端技術を設定することを示しています。
要約(オリジナル)
Non-autoregressive translation (NAT) reduces the decoding latency but suffers from performance degradation due to the multi-modality problem. Recently, the structure of directed acyclic graph has achieved great success in NAT, which tackles the multi-modality problem by introducing dependency between vertices. However, training it with negative log-likelihood loss implicitly requires a strict alignment between reference tokens and vertices, weakening its ability to handle multiple translation modalities. In this paper, we hold the view that all paths in the graph are fuzzily aligned with the reference sentence. We do not require the exact alignment but train the model to maximize a fuzzy alignment score between the graph and reference, which takes captured translations in all modalities into account. Extensive experiments on major WMT benchmarks show that our method substantially improves translation performance and increases prediction confidence, setting a new state of the art for NAT on the raw training data.
arxiv情報
著者 | Zhengrui Ma,Chenze Shao,Shangtong Gui,Min Zhang,Yang Feng |
発行日 | 2023-03-12 13:51:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google