Fine-tuning Whisper on Low-Resource Languages for Real-World Applications

要約

この論文では、スイスドイツ語をケーススタディとして使用し、文レベルのデータを長文コーパスに変換する新しいデータ生成方法を導入することにより、低リソース言語向けに OpenAI の Whisper モデルを微調整する新しいアプローチを紹介します。
長い形式のオーディオのパフォーマンスを向上させる可能性がある非文レベルのデータは入手が難しく、著作権法によって制限されることがよくあります。
私たちの方法は、よりアクセスしやすい文レベルのデータを、非文レベルのデータを必要とせずに長文オーディオを処理しセグメンテーションを実行するモデルの機能を維持する形式に変換することで、このギャップを埋めます。
当社のデータ生成プロセスは、いくつかの実世界のアプリケーションのパフォーマンスを向上させ、スイスドイツ語用の新しい最先端の音声テキスト変換 (STT) モデルの開発につながります。
私たちのモデルを、微調整されていない Whisper および以前の最先端のスイスドイツ STT モデルと比較し、新しいモデルがより高い BLEU スコアを達成しています。
また、私たちの結果は、提案された方法が他の低リソース言語にも適応可能であり、書面によるガイダンスと、微調整されたウィスパー モデルの作成を可能にするコードによってサポートされており、セグメンテーション機能を維持し、センテンスのみを使用して長い音声ファイルの転写を可能にすることも示しています。
高品質なレベルデータ。

要約(オリジナル)

This paper presents a new approach to fine-tuning OpenAI’s Whisper model for low-resource languages by introducing a novel data generation method that converts sentence-level data into a long-form corpus, using Swiss German as a case study. Non-sentence-level data, which could improve the performance of long-form audio, is difficult to obtain and often restricted by copyright laws. Our method bridges this gap by transforming more accessible sentence-level data into a format that preserves the model’s ability to handle long-form audio and perform segmentation without requiring non-sentence-level data. Our data generation process improves performance in several real-world applications and leads to the development of a new state-of-the-art speech-to-text (STT) model for Swiss German. We compare our model with a non-fine-tuned Whisper and our previous state-of-the-art Swiss German STT models, where our new model achieves higher BLEU scores. Our results also indicate that the proposed method is adaptable to other low-resource languages, supported by written guidance and code that allows the creation of fine-tuned Whisper models, which keep segmentation capabilities and allow the transcription of longer audio files using only sentence-level data with high quality.

arxiv情報

著者 Vincenzo Timmel,Claudio Paonessa,Reza Kakooee,Manfred Vogel,Daniel Perruchoud
発行日 2024-12-20 09:49:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, eess.AS パーマリンク