Reproducing Whisper-Style Training Using an Open-Source Toolkit and Publicly Available Data

要約

大量のデータを使用した音声モデルの事前トレーニングは、目覚ましい成功を収めました。
OpenAI Whisper は、68 万時間の教師付き音声データでトレーニングされた多言語マルチタスク モデルです。
ゼロショット設定でも、さまざまな音声認識および翻訳ベンチマークによく一般化されます。
ただし、このようなモデルを開発するための完全なパイプライン (データ収集からトレーニングまで) は一般に公開されていないため、研究者がそのパフォーマンスをさらに向上させ、効率、堅牢性、公平性、バイアスなどのトレーニング関連の問題に対処することが困難になっています。
この研究では、オープン ソース ツールキットと公開データを使用してウィスパー スタイルのトレーニングを再現する Open Whisper スタイル音声モデル (OWSM) を紹介します。
OWSMはさらに多くの翻訳方向をサポートしており、トレーニングをより効率的に行うことができます。
オープンサイエンスを促進するために、データの準備、トレーニング、推論、スコアリングに使用されるすべてのスクリプトと、事前トレーニングされたモデルとトレーニング ログを一般に公開します。

要約(オリジナル)

Pre-training speech models on large volumes of data has achieved remarkable success. OpenAI Whisper is a multilingual multitask model trained on 680k hours of supervised speech data. It generalizes well to various speech recognition and translation benchmarks even in a zero-shot setup. However, the full pipeline for developing such models (from data collection to training) is not publicly accessible, which makes it difficult for researchers to further improve its performance and address training-related issues such as efficiency, robustness, fairness, and bias. This work presents an Open Whisper-style Speech Model (OWSM), which reproduces Whisper-style training using an open-source toolkit and publicly available data. OWSM even supports more translation directions and can be more efficient to train. We will publicly release all scripts used for data preparation, training, inference, and scoring as well as pre-trained models and training logs to promote open science.

arxiv情報

著者 Yifan Peng,Jinchuan Tian,Brian Yan,Dan Berrebbi,Xuankai Chang,Xinjian Li,Jiatong Shi,Siddhant Arora,William Chen,Roshan Sharma,Wangyou Zhang,Yui Sudo,Muhammad Shakeel,Jee-weon Jung,Soumi Maiti,Shinji Watanabe
発行日 2023-09-25 05:01:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク