Incremental Blockwise Beam Search for Simultaneous Speech Translation with Controllable Quality-Latency Tradeoff

要約

ブロック単位のセルフアテンション エンコーダ モデルは、同時音声翻訳に対する有望なエンドツーエンド アプローチの 1 つとして最近登場しました。
これらのモデルは、仮説信頼性スコアリングを備えたブロックごとのビーム検索を採用して、さらに翻訳する前にさらなる入力音声を待機するタイミングを決定します。
ただし、この方法では、音声入力全体が消費されるまで複数の仮説が維持されます。このスキームでは、単一の \textit{incremental} 翻訳をユーザーに直接示すことはできません。
さらに、この方法には、品質と遅延のトレードオフを \textit{制御}するためのメカニズムが欠けています。
品質遅延制御のためのローカル合意またはホールド $n$ ポリシーを組み込んだ、修正されたブロック単位のビーム探索を提案します。
オンラインまたはオフライン翻訳用にトレーニングされたモデルにフレームワークを適用し、両方のタイプがオンライン モードで効果的に使用できることを実証します。
MuST-C の実験結果では、遅延を変えずに 0.6 ~ 3.6 BLEU の改善、または品質を変えずに 0.8 ~ 1.4 秒の遅延の改善が示されています。

要約(オリジナル)

Blockwise self-attentional encoder models have recently emerged as one promising end-to-end approach to simultaneous speech translation. These models employ a blockwise beam search with hypothesis reliability scoring to determine when to wait for more input speech before translating further. However, this method maintains multiple hypotheses until the entire speech input is consumed — this scheme cannot directly show a single \textit{incremental} translation to users. Further, this method lacks mechanisms for \textit{controlling} the quality vs. latency tradeoff. We propose a modified incremental blockwise beam search incorporating local agreement or hold-$n$ policies for quality-latency control. We apply our framework to models trained for online or offline translation and demonstrate that both types can be effectively used in online mode. Experimental results on MuST-C show 0.6-3.6 BLEU improvement without changing latency or 0.8-1.4 s latency improvement without changing quality.

arxiv情報

著者 Peter Polák,Brian Yan,Shinji Watanabe,Alex Waibel,Ondřej Bojar
発行日 2023-09-20 14:59:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS パーマリンク