Long-Form Speech Translation through Segmentation with Finite-State Decoding Constraints on Large Language Models

要約

音声翻訳における課題の 1 つは、多くの音声コンテンツが長文であるにもかかわらず、高品質の翻訳を得るには短い単位が必要であることです。
この不一致に対処するために、当社では大規模言語モデル (LLM) を適応させて、長い ASR トランスクリプトを独立して翻訳できるセグメントに分割し、全体的な翻訳品質を最大化します。
私たちは、デコード中に有限状態制約を組み込むことで、LLM における幻覚の傾向を克服しました。
これらにより、追加のトレーニングを必要とせずに無効な出力が排除されます。
私たちは、LLM がプロンプトチューニングまたはファインチューニングを通じて、ASR エラーを含むトランスクリプトに適応できることを発見しました。
最先端の自動句読点ベースラインと比較して、当社の最高の LLM は、セグメンテーションを改善するだけで、9 つのテスト セットにおける英語-ドイツ語、英語-スペイン語、英語-アラビア語の TED トーク翻訳の平均 BLEU を 2.9 ポイント改善しました。

要約(オリジナル)

One challenge in speech translation is that plenty of spoken content is long-form, but short units are necessary for obtaining high-quality translations. To address this mismatch, we adapt large language models (LLMs) to split long ASR transcripts into segments that can be independently translated so as to maximize the overall translation quality. We overcome the tendency of hallucination in LLMs by incorporating finite-state constraints during decoding; these eliminate invalid outputs without requiring additional training. We discover that LLMs are adaptable to transcripts containing ASR errors through prompt-tuning or fine-tuning. Relative to a state-of-the-art automatic punctuation baseline, our best LLM improves the average BLEU by 2.9 points for English-German, English-Spanish, and English-Arabic TED talk translation in 9 test sets, just by improving segmentation.

arxiv情報

著者 Arya D. McCarthy,Hao Zhang,Shankar Kumar,Felix Stahlberg,Ke Wu
発行日 2023-10-23 15:25:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク