Understanding Shared Speech-Text Representations

要約

タイトル:共有された音声テキスト表現の理解
要約:
– テキストをエンドツーエンドモデルに取り込んで音声モデルをトレーニングする方法がいくつか開発されており、Maestroは最先端の自動音声認識(ASR)および音声翻訳(ST)の性能を向上させている。
– 本論文では、2つのタイプの分析を用いて、共有された音声テキスト表現の理解を拡張する。まず、音声フリードメイン適応の限界を調べ、音声テキストアライメントのためのコーパス特有の持続時間モデルが共有された音声テキスト表現を学習するために最も重要なコンポーネントであることを発見した。次に、単一モダル(音声またはテキスト)のエンコーダの活性化と共有エンコーダの活性化の類似性を調べる。共有エンコーダは、単一モダルエンコーダよりもよりコンパクトで重なり合った音声テキスト表現を学習することがわかった。これがMaestro共有音声テキスト表現の効果の一部を説明することを仮説として提示する。

要約(オリジナル)

Recently, a number of approaches to train speech models by incorpo-rating text into end-to-end models have been developed, with Mae-stro advancing state-of-the-art automatic speech recognition (ASR)and Speech Translation (ST) performance. In this paper, we expandour understanding of the resulting shared speech-text representationswith two types of analyses. First we examine the limits of speech-free domain adaptation, finding that a corpus-specific duration modelfor speech-text alignment is the most important component for learn-ing a shared speech-text representation. Second, we inspect the sim-ilarities between activations of unimodal (speech or text) encodersas compared to the activations of a shared encoder. We find that theshared encoder learns a more compact and overlapping speech-textrepresentation than the uni-modal encoders. We hypothesize that thispartially explains the effectiveness of the Maestro shared speech-textrepresentations.

arxiv情報

著者 Gary Wang,Kyle Kastner,Ankur Bapna,Zhehuai Chen,Andrew Rosenberg,Bhuvana Ramabhadran,Yu Zhang
発行日 2023-04-27 20:05:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS パーマリンク