Blending LLMs into Cascaded Speech Translation: KIT’s Offline Speech Translation System for IWSLT 2024

要約

大規模言語モデル (LLM) は現在、自動音声認識 (ASR)、機械翻訳 (MT)、さらにはエンドツーエンドの音声翻訳 (ST) など、さまざまなタスクのために研究されています。
この論文では、カスケード音声翻訳に追加できる最近提案された技術を組み込むことにより、制約付き + LLM トラックでの KIT のオフライン送信を紹介します。
具体的には、Mistral-7B\footnote{mistralai/Mistral-7B-Instruct-v0.1} をシステムに統合し、2 つの方法で機能を強化します。
まず、システムによって生成された N ベスト リストを利用し、トランスクリプトを正確に予測するために LLM を微調整することにより、ASR 出力を改良します。
次に、ASR 予測と MT 予測の両方を活用して LLM を微調整することで、ドキュメント レベルで MT 出力を調整し、翻訳品質を向上させます。
LLM を ASR および MT システムに統合すると、tst2019 テスト セットのワード エラー率で $0.3\%$、COMET で $0.65\%$ の絶対的な改善が見られることがわかりました。
スピーカーが重なり合って背景ノイズが発生する困難なテスト セットでは、ASR パフォーマンスが低下するため、LLM を統合することは有益ではないことがわかりました。
ここでは、ASR とチャンク化された長い形式のデコードを使用して、音声アクティビティ検出セグメンテーションのみで文字起こしする場合には利用できない可能性があるコンテキストの使用を改善します。

要約(オリジナル)

Large Language Models (LLMs) are currently under exploration for various tasks, including Automatic Speech Recognition (ASR), Machine Translation (MT), and even End-to-End Speech Translation (ST). In this paper, we present KIT’s offline submission in the constrained + LLM track by incorporating recently proposed techniques that can be added to any cascaded speech translation. Specifically, we integrate Mistral-7B\footnote{mistralai/Mistral-7B-Instruct-v0.1} into our system to enhance it in two ways. Firstly, we refine the ASR outputs by utilizing the N-best lists generated by our system and fine-tuning the LLM to predict the transcript accurately. Secondly, we refine the MT outputs at the document level by fine-tuning the LLM, leveraging both ASR and MT predictions to improve translation quality. We find that integrating the LLM into the ASR and MT systems results in an absolute improvement of $0.3\%$ in Word Error Rate and $0.65\%$ in COMET for tst2019 test set. In challenging test sets with overlapping speakers and background noise, we find that integrating LLM is not beneficial due to poor ASR performance. Here, we use ASR with chunked long-form decoding to improve context usage that may be unavailable when transcribing with Voice Activity Detection segmentation alone.

arxiv情報

著者 Sai Koneru,Thai-Binh Nguyen,Ngoc-Quan Pham,Danni Liu,Zhaolin Li,Alexander Waibel,Jan Niehues
発行日 2024-06-24 16:38:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク