Instruction-Following Speech Recognition

要約

従来のエンドツーエンドの自動音声認識 (ASR) モデルは、主に正確な文字起こしタスクに焦点を当てており、微妙なユーザー インタラクションに対する柔軟性が欠けていました。
音声処理におけるラージ言語モデル (LLM) の出現により、より有機的なテキスト プロンプト ベースの対話が可能になりました。
ただし、これらのモデルの音声理解と「推論」機能の背後にあるメカニズムはまだ解明されていません。
この疑問をデータの観点から研究するために、指示に従う音声認識を導入し、自由形式のテキスト指示の多様なセットを理解して実行するように Listen-Attend-Spell モデルをトレーニングします。
これにより、事前定義されたコマンド セットに依存せずに、トランスクリプトの操作から要約に至るまでの多数の音声認識タスクが可能になります。
驚くべきことに、Librispeech でゼロからトレーニングされた私たちのモデルは、LLM や事前トレーニングされた音声モジュールを必要とせずに、単純な命令を解釈して実行します。
また、「前半を文字起こししてからリスニングをオフにする」などの指示に基づいた選択的な文字起こしオプションも提供し、既存の LLM と比較してプライバシーと安全性の追加層を提供します。
私たちの調査結果は、音声基礎モデルを進歩させるための指示に従うトレーニングの大きな可能性を強調しています。

要約(オリジナル)

Conventional end-to-end Automatic Speech Recognition (ASR) models primarily focus on exact transcription tasks, lacking flexibility for nuanced user interactions. With the advent of Large Language Models (LLMs) in speech processing, more organic, text-prompt-based interactions have become possible. However, the mechanisms behind these models’ speech understanding and ‘reasoning’ capabilities remain underexplored. To study this question from the data perspective, we introduce instruction-following speech recognition, training a Listen-Attend-Spell model to understand and execute a diverse set of free-form text instructions. This enables a multitude of speech recognition tasks — ranging from transcript manipulation to summarization — without relying on predefined command sets. Remarkably, our model, trained from scratch on Librispeech, interprets and executes simple instructions without requiring LLMs or pre-trained speech modules. It also offers selective transcription options based on instructions like ‘transcribe first half and then turn off listening,’ providing an additional layer of privacy and safety compared to existing LLMs. Our findings highlight the significant potential of instruction-following training to advance speech foundation models.

arxiv情報

著者 Cheng-I Jeff Lai,Zhiyun Lu,Liangliang Cao,Ruoming Pang
発行日 2023-09-18 14:59:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS パーマリンク