要約
同時音声翻訳のためのデコーダーのみのモデルであるHibikiを紹介します。
Hibikiは、マルチストリーム言語モデルを活用して、ソースとターゲットの音声を同期させ、テキストとオーディオトークンを共同で作成して、音声からテキストと音声までの翻訳を実行します。
さらに、同時解釈の基本的な課題に対処します。これは、ソース発話の終わりが翻訳を開始するのを待つ連続したカウンターパートとは異なり、リアルタイムで正しい翻訳を生成するのに十分なコンテキストを蓄積するためにその流れを適応させます。
かたまり。
そのために、既製のテキスト翻訳システムの困惑を活用して、単語ごとに最適な遅延を識別し、アラインドされた合成データを作成する弱く監視された方法を導入します。
監視されたトレーニングの後、ヒビキはバニラ温度サンプリングを使用した適応的で同時の音声翻訳を実行します。
フランス語と英語の同時の音声翻訳タスクでは、hibikiは翻訳品質、スピーカーの忠実度、自然さの最先端のパフォーマンスを示しています。
さらに、その推論プロセスのシンプルさにより、バッチングされた翻訳やリアルタイムのオンデバイス展開と互換性があります。
例とモデルと推論コードを提供します。
要約(オリジナル)
We introduce Hibiki, a decoder-only model for simultaneous speech translation. Hibiki leverages a multistream language model to synchronously process source and target speech, and jointly produces text and audio tokens to perform speech-to-text and speech-to-speech translation. We furthermore address the fundamental challenge of simultaneous interpretation, which unlike its consecutive counterpart, where one waits for the end of the source utterance to start translating, adapts its flow to accumulate just enough context to produce a correct translation in real-time, chunk by chunk. To do so, we introduce a weakly-supervised method that leverages the perplexity of an off-the-shelf text translation system to identify optimal delays on a per-word basis and create aligned synthetic data. After supervised training, Hibiki performs adaptive, simultaneous speech translation with vanilla temperature sampling. On a French-English simultaneous speech translation task, Hibiki demonstrates state-of-the-art performance in translation quality, speaker fidelity and naturalness. Moreover, the simplicity of its inference process makes it compatible with batched translation and even real-time on-device deployment. We provide examples as well as models and inference code.
arxiv情報
著者 | Tom Labiausse,Laurent Mazaré,Edouard Grave,Patrick Pérez,Alexandre Défossez,Neil Zeghidour |
発行日 | 2025-02-05 17:18:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google