Enhancing End-to-End Conversational Speech Translation Through Target Language Context Utilization

要約

より長いコンテキストを組み込むことは機械翻訳に利点があることが示されていますが、エンドツーエンドの音声翻訳 (E2E-ST) にコンテキストを組み込むことについては依然として研究が不十分です。
このギャップを埋めるために、E2E-ST にターゲット言語コンテキストを導入し、一貫性を強化し、拡張オーディオ セグメントのメモリ制約を克服します。
さらに、コンテキストの欠如に対する堅牢性を確保するためにコンテキスト ドロップアウトを提案し、話者情報を追加することでパフォーマンスをさらに向上させます。
私たちが提案するコンテキスト E2E-ST は、孤立した発話ベースの E2E-ST アプローチよりも優れています。
最後に、会話音声では、コンテキスト情報が主にコンテキスト スタイルの捕捉、および照応や固有表現の解決に貢献することを示します。

要約(オリジナル)

Incorporating longer context has been shown to benefit machine translation, but the inclusion of context in end-to-end speech translation (E2E-ST) remains under-studied. To bridge this gap, we introduce target language context in E2E-ST, enhancing coherence and overcoming memory constraints of extended audio segments. Additionally, we propose context dropout to ensure robustness to the absence of context, and further improve performance by adding speaker information. Our proposed contextual E2E-ST outperforms the isolated utterance-based E2E-ST approach. Lastly, we demonstrate that in conversational speech, contextual information primarily contributes to capturing context style, as well as resolving anaphora and named entities.

arxiv情報

著者 Amir Hussein,Brian Yan,Antonios Anastasopoulos,Shinji Watanabe,Sanjeev Khudanpur
発行日 2023-09-27 14:32:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク