要約
注意メカニズムの研究は、言語モデリングや機械翻訳など、多くの分野で関心を呼んでいる。そのパターンは、ニューラルネットワークの理解からテキストアライメントまで、様々なタスクの実行に利用されてきたが、音声翻訳(ST)におけるエンコーダ・デコーダの注意動作を分析し、特定のタスクでSTを改善するために利用した先行研究はない。本論文では、音声入力とテキスト出力の間に存在する注意関係の分析によって動機づけられた同時通訳(SimulST)のための注意に基づく方針(EDAtt)を提案することによって、このギャップを埋める。その目的は、エンコーダとデコーダの注目度スコアを活用して、リアルタイムで推論を導くことである。en->{de,es}の結果は、EDAttポリシーがSimulSTの現状と比較して、特に計算を意識したレイテンシの点で全体的に良い結果を達成することを示している。
要約(オリジナル)
The study of the attention mechanism has sparked interest in many fields, such as language modeling and machine translation. Although its patterns have been exploited to perform different tasks, from neural network understanding to textual alignment, no previous work has analysed the encoder-decoder attention behavior in speech translation (ST) nor used it to improve ST on a specific task. In this paper, we fill this gap by proposing an attention-based policy (EDAtt) for simultaneous ST (SimulST) that is motivated by an analysis of the existing attention relations between audio input and textual output. Its goal is to leverage the encoder-decoder attention scores to guide inference in real time. Results on en->{de, es} show that the EDAtt policy achieves overall better results compared to the SimulST state of the art, especially in terms of computational-aware latency.
arxiv情報
| 著者 | Sara Papi,Matteo Negri,Marco Turchi | 
| 発行日 | 2023-05-11 10:15:18+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
