要約
マルチタスクと多言語のアプローチは大規模なモデルに利益をもたらしますが、低リソース言語の音声処理は、データ不足のために露出不足のままです。
これに対処するために、25のヨーロッパ言語にわたる認識と翻訳のための音声データセットの大規模なコレクションであるGranaryを提示します。
これは、転写と翻訳の両方のためのこの規模での最初のオープンソースの取り組みです。
セグメンテーション、2つのパス推論、幻覚フィルタリング、および句読点の回復を伴う擬似ラベルパイプラインを使用して、データの品質を向上させます。
さらに、Eurollmを使用して擬似標識転写から翻訳ペアを生成し、その後にデータろ過パイプラインを使用します。
効率のために設計されたパイプラインは、数時間以内に膨大な量のデータを処理します。
高品質と低リソース言語の両方で、以前にキュレーションされたデータセットのパフォーマンスを比較することにより、処理されたデータでトレーニングされたモデルを評価します。
私たちの調査結果は、これらのモデルが約を使用して同様のパフォーマンスを達成することを示しています。
50%少ないデータ。
データセットはhttps://hf.co/datasets/nvidia/granaryで利用可能になります
要約(オリジナル)
Multi-task and multilingual approaches benefit large models, yet speech processing for low-resource languages remains underexplored due to data scarcity. To address this, we present Granary, a large-scale collection of speech datasets for recognition and translation across 25 European languages. This is the first open-source effort at this scale for both transcription and translation. We enhance data quality using a pseudo-labeling pipeline with segmentation, two-pass inference, hallucination filtering, and punctuation restoration. We further generate translation pairs from pseudo-labeled transcriptions using EuroLLM, followed by a data filtration pipeline. Designed for efficiency, our pipeline processes vast amount of data within hours. We assess models trained on processed data by comparing their performance on previously curated datasets for both high- and low-resource languages. Our findings show that these models achieve similar performance using approx. 50% less data. Dataset will be made available at https://hf.co/datasets/nvidia/Granary
arxiv情報
著者 | Nithin Rao Koluguri,Monica Sekoyan,George Zelenfroynd,Sasha Meister,Shuoyang Ding,Sofia Kostandian,He Huang,Nikolay Karpov,Jagadeesh Balam,Vitaly Lavrukhin,Yifan Peng,Sara Papi,Marco Gaido,Alessio Brutti,Boris Ginsburg |
発行日 | 2025-05-21 17:00:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google