Hidden Markov Transformer for Simultaneous Machine Translation

要約

同時機械翻訳 (SiMT) は、ソース シーケンスを受け取りながらターゲット シーケンスを出力するため、各ターゲット トークンの翻訳をいつ開始するかを学習することが、SiMT タスクの主要な課題です。
ただし、翻訳を開始する多くの可能な瞬間の中から最適な瞬間を学習することは自明ではありません。翻訳を開始する瞬間は常にモデル内に隠れており、観測されたターゲット シーケンスでのみ監視できるからです。
この論文では、翻訳を開始する瞬間を隠れイベントとして扱い、ターゲットシーケンスを対応する観測イベントとして扱い、それによってそれらを隠れマルコフモデルとして整理する隠れマルコフ変換器 (HMT) を提案します。
HMT は、翻訳を開始する複数の瞬間を候補の隠しイベントとして明示的にモデル化し、次にその 1 つを選択してターゲット トークンを生成します。
トレーニング中、翻訳を開始する複数の瞬間にわたってターゲット シーケンスの限界尤度を最大化することにより、HMT は、ターゲット トークンをより正確に生成できる瞬間に翻訳を開始することを学習します。
複数の SiMT ベンチマークでの実験は、HMT が強力なベースラインを上回り、最先端のパフォーマンスを達成することを示しています。

要約(オリジナル)

Simultaneous machine translation (SiMT) outputs the target sequence while receiving the source sequence, and hence learning when to start translating each target token is the core challenge for SiMT task. However, it is non-trivial to learn the optimal moment among many possible moments of starting translating, as the moments of starting translating always hide inside the model and can only be supervised with the observed target sequence. In this paper, we propose a Hidden Markov Transformer (HMT), which treats the moments of starting translating as hidden events and the target sequence as the corresponding observed events, thereby organizing them as a hidden Markov model. HMT explicitly models multiple moments of starting translating as the candidate hidden events, and then selects one to generate the target token. During training, by maximizing the marginal likelihood of the target sequence over multiple moments of starting translating, HMT learns to start translating at the moments that target tokens can be generated more accurately. Experiments on multiple SiMT benchmarks show that HMT outperforms strong baselines and achieves state-of-the-art performance.

arxiv情報

著者 Shaolei Zhang,Yang Feng
発行日 2023-03-01 06:28:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク