要約
さまざまなタスクにわたる大規模言語モデル (LLM) が大きな成功を収めていることを考慮して、この論文では、事前トレーニングされた LLM に基づいて構築された新規で効果的な音声翻訳モデルである LLM-ST を紹介します。
大規模言語モデル (LLM) を音声エンコーダと統合し、マルチタスク命令チューニングを採用することにより、LLM-ST は、長い音声入力からでも正確なタイムスタンプ付きの文字起こしと翻訳を生成できます。
さらに、我々の調査結果は、思考連鎖 (CoT) プロンプトの実装が LLM-ST のコンテキストで利点を生み出す可能性があることを示しています。
英語と中国語のデータセットに対する厳密な実験を通じて、LLM-ST の卓越したパフォーマンスを実証し、音声翻訳の分野における新しいベンチマークを確立しました。
デモ: https://speechtranslation.github.io/llm-st/。
要約(オリジナル)
Given the great success of large language models (LLMs) across various tasks, in this paper, we introduce LLM-ST, a novel and effective speech translation model constructed upon a pre-trained LLM. By integrating the large language model (LLM) with a speech encoder and employing multi-task instruction tuning, LLM-ST can produce accurate timestamped transcriptions and translations, even from long audio inputs. Furthermore, our findings indicate that the implementation of Chain-of-Thought (CoT) prompting can yield advantages in the context of LLM-ST. Through rigorous experimentation on English and Chinese datasets, we showcase the exceptional performance of LLM-ST, establishing a new benchmark in the field of speech translation. Demo: https://speechtranslation.github.io/llm-st/.
arxiv情報
著者 | Zhichao Huang,Rong Ye,Tom Ko,Qianqian Dong,Shanbo Cheng,Mingxuan Wang,Hang Li |
発行日 | 2023-12-21 05:32:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google