SepALM: Audio Language Models Are Error Correctors for Robust Speech Separation

要約

現代の音声分離技術は、長い混合オーディオ波形を巧みに処理しますが、騒々しい環境の複雑さによって頻繁に挑戦されます。
これらの制限を克服するために、予備分離後にテキストドメイン内で音声を修正し、再合意するためにオーディオ言語モデル(ALMS)を使用する先駆的なアプローチであるSePalmを紹介します。
Sepalmは、セパレーター、補正装置、シンセサイザー、アライナーの4つのコアコンポーネントで構成されています。
ALMベースのエンドツーエンドエラー補正メカニズムを統合することにより、エラーの蓄積のリスクを軽減し、大規模な言語モデル(LLM)で自動音声認識(ASR)を融合する従来の方法で通常発生する最適化ハードルを回避します。
さらに、ALMの推論とトレーニングプロセスを容易にするために、チェーンオブテアのプロンプトと知識蒸留技術を開発しました。
私たちの実験は、同種が音声分離の精度を高めるだけでなく、新しい音響環境で適応性を著しく強化することを実証しています。

要約(オリジナル)

While contemporary speech separation technologies adeptly process lengthy mixed audio waveforms, they are frequently challenged by the intricacies of real-world environments, including noisy and reverberant settings, which can result in artifacts or distortions in the separated speech. To overcome these limitations, we introduce SepALM, a pioneering approach that employs audio language models (ALMs) to rectify and re-synthesize speech within the text domain following preliminary separation. SepALM comprises four core components: a separator, a corrector, a synthesizer, and an aligner. By integrating an ALM-based end-to-end error correction mechanism, we mitigate the risk of error accumulation and circumvent the optimization hurdles typically encountered in conventional methods that amalgamate automatic speech recognition (ASR) with large language models (LLMs). Additionally, we have developed Chain-of-Thought (CoT) prompting and knowledge distillation techniques to facilitate the reasoning and training processes of the ALM. Our experiments substantiate that SepALM not only elevates the precision of speech separation but also markedly bolsters adaptability in novel acoustic environments.

arxiv情報

著者 Zhaoxi Mu,Xinyu Yang,Gang Wang
発行日 2025-05-06 08:04:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク