要約
アラインドされたオーディオコーパスは、ASRや音声翻訳などのNLPテクノロジーの基本ですが、技術的統合を妨げて、過小評価された言語では依然として不足しています。
このペーパーでは、低リソースのスピーチからスピーチへの翻訳翻訳コーパスであるLorespeechを構築するための方法論を紹介します。
私たちのアプローチは、コラボレーションプラットフォームを介して作成された、転写に合わせた短いオーディオのサブコルパスであるLoreasrから始まります。
聖書のテキストなど、ロレアスに基づいて、聖書のテキストなどの長型のオーディオ録音は、MFAなどのツールを使用して整列しています。
Lorespeechは、言語内および言語間の両方のアラインメントを提供し、多言語ASRシステムの進歩、直接的なスピーチへの翻訳モデル、および言語保存の取り組みを可能にしながら、デジタル包括性を促進します。
この作業は、Tutlayt AIプロジェクト(https://tutlayt.fr)内で実施されます。
要約(オリジナル)
Aligned audio corpora are fundamental to NLP technologies such as ASR and speech translation, yet they remain scarce for underrepresented languages, hindering their technological integration. This paper introduces a methodology for constructing LoReSpeech, a low-resource speech-to-speech translation corpus. Our approach begins with LoReASR, a sub-corpus of short audios aligned with their transcriptions, created through a collaborative platform. Building on LoReASR, long-form audio recordings, such as biblical texts, are aligned using tools like the MFA. LoReSpeech delivers both intra- and inter-language alignments, enabling advancements in multilingual ASR systems, direct speech-to-speech translation models, and linguistic preservation efforts, while fostering digital inclusivity. This work is conducted within Tutlayt AI project (https://tutlayt.fr).
arxiv情報
著者 | Samy Ouzerrout |
発行日 | 2025-02-25 14:00:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google