Performance evaluation of SLAM-ASR: The Good, the Bad, the Ugly, and the Way Forward

要約

最近の研究では、音声基盤エンコーダと大規模言語モデル (LLM) の間の線形コネクタをトレーニングすることで、このアーキテクチャが強力な ASR 機能を実現できることが実証されました。
素晴らしい結果にもかかわらず、これらの単純なアプローチが、ドメインのシフトや音声の摂動など、さまざまなシナリオや音声条件にわたって十分に堅牢であるかどうかは依然として不明です。
この論文では、SLAM-ASR と呼ばれる最近広く採用されているアプローチを使用してさまざまなアブレーション実験を行うことで、これらの疑問に取り組みます。
さまざまな設定にわたって SLAM-ASR アーキテクチャを効果的に利用する方法についての洞察を提供する、新しい経験的発見を紹介します。
私たちの主な調査結果は、SLAM-ASR がクロスドメイン評価設定ではパフォーマンスが低いことを示しています。
さらに、音声速度の変化や付加的なノイズなど、ドメイン内データ上の音声の乱れにより、パフォーマンスが大幅に低下する可能性があります。
私たちの調査結果は、さまざまなデータ特性や計算リソースに合わせて調整された堅牢な LLM ベースの ASR モデルを微調整および構成するための重要な洞察を提供します。

要約(オリジナル)

Recent research has demonstrated that training a linear connector between speech foundation encoders and large language models (LLMs) enables this architecture to achieve strong ASR capabilities. Despite the impressive results, it remains unclear whether these simple approaches are robust enough across different scenarios and speech conditions, such as domain shifts and speech perturbations. In this paper, we address these questions by conducting various ablation experiments using a recent and widely adopted approach called SLAM-ASR. We present novel empirical findings that offer insights on how to effectively utilize the SLAM-ASR architecture across a wide range of settings. Our main findings indicate that SLAM-ASR exhibits poor performance in cross-domain evaluation settings. Additionally, speech perturbations on in-domain data, such as changes in speech rate or additive noise, can significantly degrade performance. Our findings offer critical insights for fine-tuning and configuring robust LLM-based ASR models, tailored to different data characteristics and computational resources.

arxiv情報

著者 Shashi Kumar,Iuliia Thorbecke,Sergio Burdisso,Esaú Villatoro-Tello,Manjunath K E,Kadri Hacioğlu,Pradeep Rangappa,Petr Motlicek,Aravind Ganapathiraju,Andreas Stolcke
発行日 2025-01-22 09:48:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS パーマリンク