Adaptive Knowledge Distillation between Text and Speech Pre-trained Models

要約

大量の音声コーパスでの学習は、多くの自己教師あり音声モデルの最近の成功につながります。
知識の蒸留により、これらのモデルは、テキストの豊富なソースで事前にトレーニングされた言語モデルによってエンコードされた知識からも恩恵を受ける可能性があります。
ただし、抽出プロセスは、テキストと音声の埋め込みスペース間のモードの不一致により困難です。
この論文では、モデル構造を変更せずに、テキストと音声の埋め込みスペースを少量のデータのみで調整するためのメトリックベースの蒸留について説明します。
テキストと音声の間のセマンティックと粒度のギャップは文献では省略されており、蒸留が損なわれているため、可変粒度のテキスト/音声単位と事前分布を適応的に活用してより良いグローバルを達成する事前通知適応知識蒸留 (PAD) を提案します。
テキストと音声の事前トレーニング済みモデル間のローカル アラインメント。
3 つの音声言語理解ベンチマークを評価して、PAD が他のメトリックベースの蒸留アプローチよりも言語知識の伝達に効果的であることを示します。

要約(オリジナル)

Learning on a massive amount of speech corpus leads to the recent success of many self-supervised speech models. With knowledge distillation, these models may also benefit from the knowledge encoded by language models that are pre-trained on rich sources of texts. The distillation process, however, is challenging due to the modal disparity between textual and speech embedding spaces. This paper studies metric-based distillation to align the embedding space of text and speech with only a small amount of data without modifying the model structure. Since the semantic and granularity gap between text and speech has been omitted in literature, which impairs the distillation, we propose the Prior-informed Adaptive knowledge Distillation (PAD) that adaptively leverages text/speech units of variable granularity and prior distributions to achieve better global and local alignments between text and speech pre-trained models. We evaluate on three spoken language understanding benchmarks to show that PAD is more effective in transferring linguistic knowledge than other metric-based distillation approaches.

arxiv情報

著者 Jinjie Ni,Yukun Ma,Wen Wang,Qian Chen,Dianwen Ng,Han Lei,Trung Hieu Nguyen,Chong Zhang,Bin Ma,Erik Cambria
発行日 2023-03-07 02:31:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS パーマリンク