Impact of Frame Rates on Speech Tokenizer: A Case Study on Mandarin and English

要約

音声トークネイザーは、最近の音声タスクで重要な役割を果たし、一般的に音声シグナルと言語モデルの間の橋渡しとして機能します。
低フレームレートのコーデックは音声トークン剤として広く採用されていますが、音声トークンに対するフレームレートの影響は既にないままです。
この研究では、類型的に異なる言語である2つの言語であるマンダリンと英語を調べることにより、フレームレートの変化が音声トークン化にどのように影響するかを調査します。
異なるフレームレートで音声をエンコードし、音声認識タスクで結果のセマンティックトークンを評価します。
私たちの調査結果は、フレームレートの変動が各言語の音声トークン化に異なる影響を与えることを明らかにし、フレームレート、音声密度、言語固有の音響機能の相互作用を強調しています。
この結果は、音声トークンザーのフレームレート選択を最適化することに関する洞察を提供し、自動音声認識、テキストへの語り方、およびその他の音声関連アプリケーションに影響を与えます。

要約(オリジナル)

The speech tokenizer plays a crucial role in recent speech tasks, generally serving as a bridge between speech signals and language models. While low-frame-rate codecs are widely employed as speech tokenizers, the impact of frame rates on speech tokens remains underexplored. In this study, we investigate how varying frame rates affect speech tokenization by examining Mandarin and English, two typologically distinct languages. We encode speech at different frame rates and evaluate the resulting semantic tokens in the speech recognition task. Our findings reveal that frame rate variations influence speech tokenization differently for each language, highlighting the interplay between frame rates, phonetic density, and language-specific acoustic features. The results provide insights into optimizing frame rate selection for speech tokenizers, with implications for automatic speech recognition, text-to-speech, and other speech-related applications.

arxiv情報

著者 Haoyang Zhang,Hexin Liu,Xiangyu Zhang,Qiquan Zhang,Yuchen Hu,Junqi Zhao,Fei Tian,Xuerui Yang,Leibny Paola Garcia,Eng Siong Chng
発行日 2025-06-13 17:21:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T10, cs.AI, cs.CL, cs.SD, eess.AS, I.2.7 パーマリンク