Connecting Voices: LoReSpeech as a Low-Resource Speech Parallel Corpus

要約

アラインドされたオーディオコーパスは、ASRや音声翻訳などのNLPテクノロジーの基本ですが、技術的統合を妨げて、過小評価された言語では依然として不足しています。
このペーパーでは、低リソースのスピーチからスピーチへの翻訳翻訳コーパスであるLorespeechを構築するための方法論を紹介します。
私たちのアプローチは、コラボレーションプラットフォームを介して作成された、転写に合わせた短いオーディオのサブコルパスであるLoreasrから始まります。
聖書のテキストなど、ロレアスに基づいて、聖書のテキストなどの長型のオーディオ録音は、MFAなどのツールを使用して整列しています。
Lorespeechは、言語内および言語間の両方のアラインメントを提供し、多言語ASRシステムの進歩、直接的なスピーチへの翻訳モデル、および言語保存の取り組みを可能にしながら、デジタル包括性を促進します。
この作業は、Tutlayt AIプロジェクト(https://tutlayt.fr)内で実施されます。

要約(オリジナル)

Aligned audio corpora are fundamental to NLP technologies such as ASR and speech translation, yet they remain scarce for underrepresented languages, hindering their technological integration. This paper introduces a methodology for constructing LoReSpeech, a low-resource speech-to-speech translation corpus. Our approach begins with LoReASR, a sub-corpus of short audios aligned with their transcriptions, created through a collaborative platform. Building on LoReASR, long-form audio recordings, such as biblical texts, are aligned using tools like the MFA. LoReSpeech delivers both intra- and inter-language alignments, enabling advancements in multilingual ASR systems, direct speech-to-speech translation models, and linguistic preservation efforts, while fostering digital inclusivity. This work is conducted within Tutlayt AI project (https://tutlayt.fr).

arxiv情報

著者 Samy Ouzerrout
発行日 2025-02-25 14:00:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク