InSerter: Speech Instruction Following with Unsupervised Interleaved Pre-training

要約

スピーチの大規模な言語モデル(SpeechllMS)の最近の進歩は、かなりの注目を集めています。
それにもかかわらず、現在の方法は、音声指示を順守する際に最適ではないパフォーマンスを示します。
特に、モデルのインテリジェンスは、直接テキスト形式の入力と比較して、音声形式の入力を処理すると大幅に減少します。
以前の研究は、トレーニング後の段階でのデータペアの綿密な設計を含む表現や行動の整合などの手法を通じて、音声表現とテキスト表現の間のこの意味的な矛盾を軽減しようとしました。
このホワイトペーパーでは、インターリーブされた音声テキスト表現のトレーニングを表すInserterと呼ばれるシンプルでスケーラブルなトレーニング方法を紹介します。
Inserterは、テキストからスピーチ変換を使用して広範なテキストコーパスのランダムに選択されたセグメントからスピーチが合成される、大規模な監視なしの音声テキストシーケンスを事前にトレインするように設計されています。
その結果、モデルは、提供された音声セグメントに対応するテキストの継続を生成する能力を獲得し、集中的なデータ設計の努力の必要性を排除します。
音声指導に従う機能を体系的に評価するために、音声指向の指導に応じたタスク向けに特別に設計された最初の包括的なベンチマークであるSpeechInStructbenchを紹介します。
提案されているInserterは、SpeechinStructbenchでSOTAパフォーマンスを達成し、多様な音声処理タスク全体で優れたまたは競争の結果を示します。

要約(オリジナル)

Recent advancements in speech large language models (SpeechLLMs) have attracted considerable attention. Nonetheless, current methods exhibit suboptimal performance in adhering to speech instructions. Notably, the intelligence of models significantly diminishes when processing speech-form input as compared to direct text-form input. Prior work has attempted to mitigate this semantic inconsistency between speech and text representations through techniques such as representation and behavior alignment, which involve the meticulous design of data pairs during the post-training phase. In this paper, we introduce a simple and scalable training method called InSerter, which stands for Interleaved Speech-Text Representation Pre-training. InSerter is designed to pre-train large-scale unsupervised speech-text sequences, where the speech is synthesized from randomly selected segments of an extensive text corpus using text-to-speech conversion. Consequently, the model acquires the ability to generate textual continuations corresponding to the provided speech segments, obviating the need for intensive data design endeavors. To systematically evaluate speech instruction-following capabilities, we introduce SpeechInstructBench, the first comprehensive benchmark specifically designed for speech-oriented instruction-following tasks. Our proposed InSerter achieves SOTA performance in SpeechInstructBench and demonstrates superior or competitive results across diverse speech processing tasks.

arxiv情報

著者 Dingdong Wang,Jin Xu,Ruihang Chu,Zhifang Guo,Xiong Wang,Jincenzi Wu,Dongchao Yang,Shengpeng Ji,Junyang Lin
発行日 2025-03-04 16:34:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.HC, cs.SD, eess.AS パーマリンク