Recent Advances in Direct Speech-to-text Translation

要約

最近、音声からテキストへの翻訳がますます注目を集めており、多くの研究が急速に登場しています。
この論文では、現在の最先端技術を要約することを目的として、直接音声翻訳に関する包括的な調査を紹介します。
まず、モデリングの負担、データの不足、アプリケーションの問題という主要な課題に基づいて、既存の研究作業を 3 つの方向に分類します。
モデリングの負担の問題に取り組むために、エンコーダ/デコーダ フレームワーク (Transformer およびそのバリアント) とマルチタスク フレームワークという 2 つの主要な構造が提案されています。
データ不足という課題に対処するために、最近の研究では、データ拡張、事前トレーニング、知識の蒸留、多言語モデリングなどの多くの高度な技術に頼っています。
リアルタイム、セグメンテーション、名前付きエンティティ、ジェンダーバイアス、コードスイッチングなどのアプリケーションの問題を分析して要約します。
最後に、将来の取り組みのいくつかの有望な方向性について説明します。

要約(オリジナル)

Recently, speech-to-text translation has attracted more and more attention and many studies have emerged rapidly. In this paper, we present a comprehensive survey on direct speech translation aiming to summarize the current state-of-the-art techniques. First, we categorize the existing research work into three directions based on the main challenges — modeling burden, data scarcity, and application issues. To tackle the problem of modeling burden, two main structures have been proposed, encoder-decoder framework (Transformer and the variants) and multitask frameworks. For the challenge of data scarcity, recent work resorts to many sophisticated techniques, such as data augmentation, pre-training, knowledge distillation, and multilingual modeling. We analyze and summarize the application issues, which include real-time, segmentation, named entity, gender bias, and code-switching. Finally, we discuss some promising directions for future work.

arxiv情報

著者 Chen Xu,Rong Ye,Qianqian Dong,Chengqi Zhao,Tom Ko,Mingxuan Wang,Tong Xiao,Jingbo Zhu
発行日 2023-06-20 16:14:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, eess.AS パーマリンク