Augmentation Invariant Discrete Representation for Generative Spoken Language Modeling

要約

生成音声言語モデリングの研究は、テキストによる監視にアクセスせずに生のオーディオ録音を使用して音声言語モデル (LM) を最適化することに焦点を当てています。
このような音声 LM は通常、自己教師ありモデルの内部表現を量子化することで得られる離散単位で動作します。
このようなユニットは優れたモデリング結果を示しますが、その堅牢性機能については十分に調査されていません。
この研究は、生成音声言語モデリングのための離散入力表現の堅牢性の向上に焦点を当てています。
まず、話された情報を変更しないさまざまな信号変動に対するそのような表現の堅牢性 (例: タイムストレッチ) を測定する方法を正式に定義します。
次に、現在の最先端の表現モデルがそのような変動に対してどのように堅牢性に欠けているかを経験的に示します。
これを克服するために、生成音声言語モデリングのための堅牢な離散音声表現を学習するための効果的かつ効率的な方法を提案します。
提案されたアプローチは、一連の信号変換を音声信号に適用し、反復擬似ラベル付けスキームを使用してモデルを最適化することに基づいています。
私たちの方法は、エンコードとモデリングのメトリクスを考慮する際に、評価されたベースラインよりも大幅に改善されています。
さらに、スペイン語から英語、およびフランス語から英語の翻訳を考慮して、音声から音声への翻訳タスクに関する方法を評価し、提案されたアプローチが評価されたベースラインを上回ることを示します。

要約(オリジナル)

Generative Spoken Language Modeling research focuses on optimizing speech Language Models (LMs) using raw audio recordings without accessing any textual supervision. Such speech LMs usually operate over discrete units obtained from quantizing internal representations of self-supervised models. Although such units show impressive modeling results, their robustness capabilities have not been extensively investigated. This work focuses on improving the robustness of discrete input representations for generative spoken language modeling. First, we formally define how to measure the robustness of such representations to various signal variations that do not alter the spoken information (e.g., time-stretch). Next, we empirically demonstrate how current state-of-the-art representation models lack robustness to such variations. To overcome this, we propose an effective and efficient method to learn robust discrete speech representation for generative spoken language modeling. The proposed approach is based on applying a set of signal transformations to the speech signal and optimizing the model using an iterative pseudo-labeling scheme. Our method significantly improves over the evaluated baselines when considering encoding and modeling metrics. We additionally evaluate our method on the speech-to-speech translation task, considering Spanish-English and French-English translations, and show the proposed approach outperforms the evaluated baselines.

arxiv情報

著者 Itai Gat,Felix Kreuk,Tu Anh Nguyen,Ann Lee,Jade Copet,Gabriel Synnaeve,Emmanuel Dupoux,Yossi Adi
発行日 2023-05-29 10:50:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, eess.AS パーマリンク