SIFT-50M: A Large-Scale Multilingual Dataset for Speech Instruction Fine-Tuning

要約

Sift(音声指導の微調整)、音声テキスト大規模言語モデル(LLM)の指示の微調整と事前トレーニングのために設計された50mの例データセットを紹介します。
Sift-50mは、14k時間の音声を集合的に含む公開されている音声コーパスから構築され、既製の専門モデルとともにLLMを活用しています。
データセットは5つの言語にまたがり、多様な範囲の音声理解と制御可能な音声生成命令を網羅しています。
Sift-50mを使用して、Sift-LLMを訓練します。これは、基礎となる音声タスクで競争力のあるパフォーマンスを達成しながら、既存の音声テキストLLMを指導ベンチマークで上回ることを訓練します。
さらなる研究をサポートするために、Speech-Text LLMSの命令に従う機能を評価するために特別に設計されたベンチマークデータセットであるEvalsiftも紹介します。

要約(オリジナル)

We introduce SIFT (Speech Instruction Fine-Tuning), a 50M-example dataset designed for instruction fine-tuning and pre-training of speech-text large language models (LLMs). SIFT-50M is built from publicly available speech corpora, which collectively contain 14K hours of speech, and leverages LLMs along with off-the-shelf expert models. The dataset spans five languages, encompassing a diverse range of speech understanding as well as controllable speech generation instructions. Using SIFT-50M, we train SIFT-LLM, which outperforms existing speech-text LLMs on instruction-following benchmarks while achieving competitive performance on foundational speech tasks. To support further research, we also introduce EvalSIFT, a benchmark dataset specifically designed to evaluate the instruction-following capabilities of speech-text LLMs.

arxiv情報

著者 Prabhat Pandey,Rupak Vignesh Swaminathan,K V Vijay Girish,Arunasish Sen,Jian Xie,Grant P. Strimel,Andreas Schwarz
発行日 2025-04-17 17:34:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, eess.AS パーマリンク