要約
音声および言語テクノロジにおける最近の大幅な改善は、生の言語データに対する自己監視型アプローチと、さまざまなタイプの明示的な監視の両方によってもたらされています。
音声データの高品質な処理を保証するために、最も有用な種類の明示的な監視は、依然として音声信号とそれに対応するテキスト トランスクリプト間の位置合わせです。これは多くの言語では利用できないデータ タイプです。
この論文では、議会議事録とその録音の記録に基づいて、リソースの少ない言語の大規模でオープンな音声とテキストが整列されたデータセットを構築するアプローチを紹介します。
私たちの出発点は、欧州 26 か国議会の議会議事録の ParlaMint の比較可能なコーパスです。
公開されている録音を調整して ParlaMint コーパスを拡張する試験運用では、クロアチア語、ポーランド語、セルビア語という 3 つのスラブ言語に焦点を当てています。
私たちのアプローチの主な課題は、ParlaMint のテキストと利用可能な録音の間にグローバルな調整が欠如していることと、各モダリティでデータの順序が異なる場合があり、テキストと音声の長いシーケンスを調整する新しいアプローチが必要であることです。
広い探索空間。
このパイロット実行の結果は、5,000 時間以上のスピーチとそれに付随するテキストのトランスクリプトに及ぶ 3 つの高品質のデータセットです。
これらのデータセットは、3 つの言語の音声データとテキスト データの利用可能性にすでに大きな違いをもたらしていますが、さらに多くの言語で同様のデータセットを構築する際に、提示されたアプローチの可能性を強調したいと考えています。
要約(オリジナル)
Recent significant improvements in speech and language technologies come both from self-supervised approaches over raw language data as well as various types of explicit supervision. To ensure high-quality processing of spoken data, the most useful type of explicit supervision is still the alignment between the speech signal and its corresponding text transcript, which is a data type that is not available for many languages. In this paper, we present our approach to building large and open speech-and-text-aligned datasets of less-resourced languages based on transcripts of parliamentary proceedings and their recordings. Our starting point are the ParlaMint comparable corpora of transcripts of parliamentary proceedings of 26 national European parliaments. In the pilot run on expanding the ParlaMint corpora with aligned publicly available recordings, we focus on three Slavic languages, namely Croatian, Polish, and Serbian. The main challenge of our approach is the lack of any global alignment between the ParlaMint texts and the available recordings, as well as the sometimes varying data order in each of the modalities, which requires a novel approach in aligning long sequences of text and audio in a large search space. The results of this pilot run are three high-quality datasets that span more than 5,000 hours of speech and accompanying text transcripts. Although these datasets already make a huge difference in the availability of spoken and textual data for the three languages, we want to emphasize the potential of the presented approach in building similar datasets for many more languages.
arxiv情報
著者 | Nikola Ljubešić,Peter Rupnik,Danijel Koržinek |
発行日 | 2024-11-26 12:50:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google