要約
私たちは、長文マルチメディア生成とオーディオネイティブ音声アシスタントの要件である、数分にわたる音声の生成モデリングを検討します。
しかし、現在の音声言語モデルは、一貫性の喪失を引き起こす音声トークンの高い時間分解能から、長時間シーケンスのトレーニングや外挿によるアーキテクチャの問題、推論時のメモリコストまで、数十秒を超えたもっともらしい音声を生成するのに苦労しています。
これらの考慮事項を考慮して、最近の線形時間の進歩に基づいて、テキスト中間物を使用せずに単一のデコード セッションで長い形式の音声 (たとえば、16 分間の朗読または即席の音声) から学習およびサンプリングする最初の音声言語モデルである SpeechSSM を提案します。
シーケンスモデリング。
さらに、音声言語の評価、特にこの新しい長文環境における増大する課題に対処するために、次のことを提案します。新しい埋め込みベースの LLM 判定メトリクス。
長さと時間にわたる品質測定。
そして、長い形式の音声処理と生成のための新しいベンチマーク、LibriSpeech-Long。
音声サンプルとデータセットは https://google.github.io/tacotron/publications/speechssm/ でリリースされています。
要約(オリジナル)
We consider the generative modeling of speech over multiple minutes, a requirement for long-form multimedia generation and audio-native voice assistants. However, current spoken language models struggle to generate plausible speech past tens of seconds, from high temporal resolution of speech tokens causing loss of coherence, to architectural issues with long-sequence training or extrapolation, to memory costs at inference time. With these considerations we propose SpeechSSM, the first speech language model to learn from and sample long-form spoken audio (e.g., 16 minutes of read or extemporaneous speech) in a single decoding session without text intermediates, based on recent advances in linear-time sequence modeling. Furthermore, to address growing challenges in spoken language evaluation, especially in this new long-form setting, we propose: new embedding-based and LLM-judged metrics; quality measurements over length and time; and a new benchmark for long-form speech processing and generation, LibriSpeech-Long. Speech samples and the dataset are released at https://google.github.io/tacotron/publications/speechssm/
arxiv情報
著者 | Se Jin Park,Julian Salazar,Aren Jansen,Keisuke Kinoshita,Yong Man Ro,RJ Skerry-Ryan |
発行日 | 2024-12-24 18:56:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google