Improving Long-form Speech Translation through Segmentation with Large Language Models and Finite State Decoding Constraints

要約

音声言語の翻訳における課題の 1 つは、音声コンテンツの多くは長い形式であるが、高品質の翻訳を得るには短い単位が必要であることです。
この不一致に対処するために、当社では大規模言語モデル (LLM) を適応させて、長い ASR トランスクリプトを独立して翻訳できるセグメントに分割し、全体的な翻訳品質を最大化します。
LLM による幻覚の傾向に対抗するために、デコード中に有限状態制約を組み込み、無効な出力を排除します。
私たちは、LLM がプロンプトチューニングまたはファインチューニングを通じて、ASR エラーを含むトランスクリプトに適応できることを発見しました。
最先端の自動句読点ベースラインと比較して、当社の最高の LLM は、セグメンテーションを改善するだけで、9 つのテスト セットにおける英語 – ドイツ語、英語 – スペイン語、英語 – アラビア語の TED トーク翻訳の平均 BLEU を 2.9 ポイント改善しました。

要約(オリジナル)

One challenge in spoken language translation is that plenty of spoken content is long-form, but short units are necessary for obtaining high-quality translations. To address this mismatch, we adapt large language models (LLM) to split long ASR transcripts into segments that can be independently translated so as to maximize the overall translation quality. To combat the tendency of hallucination by LLMs, we incorporate finite-state constraints during decoding to eliminate invalid outputs. We discover that LLMs are adaptable to transcripts containing ASR errors through prompt-tuning or fine-tuning. In comparison to a state-of-the-art automatic punctuation baseline, our best LLM improves the average BLEU for English-German, English-Spanish, and English-Arabic TED talk translation in 9 test sets by 2.9 points, just by improving segmentation.

arxiv情報

著者 Arya D. McCarthy,Hao Zhang,Shankar Kumar,Felix Stahlberg,Ke Wu
発行日 2023-10-20 17:31:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク