On The Landscape of Spoken Language Models: A Comprehensive Survey

要約

音声言語処理の分野は、普遍的な音声処理システムとして機能するカスタム構築のタスク固有のモデル(SLM)の使用と最適化へのシフトを受けています。
この傾向は、(テキスト)自然言語処理の分野で行われたユニバーサル言語モデルへの進行に似ています。
SLMには、音声の「純粋な」言語モデル(トークン化された音声シーケンスの分布モデル)と、音声エンコーダーとテキスト言語モデルを組み合わせたモデルの両方が含まれます。
この分野での作業は非常に多様であり、用語と評価設定の範囲があります。
このペーパーは、分野の進化の文脈における最近の研究に関する統一文献調査を通じて、SLMの理解の向上に貢献することを目的としています。
私たちの調査では、モデルアーキテクチャ、トレーニング、評価の選択肢によってこの分野の作業を分類し、将来の作業のためのいくつかの重要な課題と方向性について説明します。

要約(オリジナル)

The field of spoken language processing is undergoing a shift from training custom-built, task-specific models toward using and optimizing spoken language models (SLMs) which act as universal speech processing systems. This trend is similar to the progression toward universal language models that has taken place in the field of (text) natural language processing. SLMs include both ‘pure’ language models of speech — models of the distribution of tokenized speech sequences — and models that combine speech encoders with text language models, often including both spoken and written input or output. Work in this area is very diverse, with a range of terminology and evaluation settings. This paper aims to contribute an improved understanding of SLMs via a unifying literature survey of recent work in the context of the evolution of the field. Our survey categorizes the work in this area by model architecture, training, and evaluation choices, and describes some key challenges and directions for future work.

arxiv情報

著者 Siddhant Arora,Kai-Wei Chang,Chung-Ming Chien,Yifan Peng,Haibin Wu,Yossi Adi,Emmanuel Dupoux,Hung-Yi Lee,Karen Livescu,Shinji Watanabe
発行日 2025-04-11 13:40:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク