要約
この論文では、エストニアの TV コンテンツ向けに高品質の同じ言語の字幕を生成するアプローチを紹介します。
人間が生成したエストニア語の字幕に基づいて Whisper モデルを微調整し、反復的な擬似ラベル付けとラージ言語モデル (LLM) ベースのポストエディットによって強化します。
私たちの実験では、ラベルのないデータセットを使用した疑似ラベル付けによる顕著な字幕品質の向上が実証されました。
テスト時に LLM ベースの編集を適用すると字幕の精度が向上しますが、トレーニング中に使用してもそれ以上の向上は得られないことがわかりました。
このアプローチは、人間の標準に近い字幕品質を作成できる可能性があり、リアルタイム アプリケーションに拡張できる可能性があります。
要約(オリジナル)
This paper presents an approach for generating high-quality, same-language subtitles for Estonian TV content. We fine-tune the Whisper model on human-generated Estonian subtitles and enhance it with iterative pseudo-labeling and large language model (LLM) based post-editing. Our experiments demonstrate notable subtitle quality improvement through pseudo-labeling with an unlabeled dataset. We find that applying LLM-based editing at test time enhances subtitle accuracy, while its use during training does not yield further gains. This approach holds promise for creating subtitle quality close to human standard and could be extended to real-time applications.
arxiv情報
| 著者 | Artem Fedorchenko,Tanel Alumäe | 
| 発行日 | 2025-01-09 13:41:37+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
