要約
最近の研究では、音声基盤エンコーダと大規模言語モデル (LLM) の間の線形コネクタをトレーニングすることで、このアーキテクチャが強力な ASR 機能を実現できることが実証されました。
印象的な結果にもかかわらず、これらの単純なアプローチが、ドメインのシフトやさまざまな音声の摂動など、さまざまなシナリオや音声条件にわたって十分に堅牢であるかどうかは依然として不明です。
この論文では、SLAM-ASR と呼ばれる最近広く採用されているアプローチを使用してさまざまなアブレーション実験を行うことで、これらの疑問に取り組みます。
さまざまな設定にわたって SLAM-ASR アーキテクチャを効果的に利用する方法についての洞察を提供する、新しい経験的発見を紹介します。
私たちの主な調査結果は、SLAM-ASR がクロスドメイン評価設定ではパフォーマンスが低いことを示しています。
さらに、速度の変化や付加的なノイズの存在など、ドメイン内データ内の音声の乱れは、パフォーマンスに大きな影響を与える可能性があります。
私たちの調査結果は、さまざまなデータ特性や計算リソースに合わせて調整された堅牢な LLM ベースの ASR モデルを微調整および構成するための重要な洞察を提供します。
要約(オリジナル)
Recent research has demonstrated that training a linear connector between speech foundation encoders and large language models (LLMs) enables this architecture to achieve strong ASR capabilities. Despite the impressive results, it remains unclear whether these simple approaches are robust enough across different scenarios and speech conditions, such as domain shifts and different speech perturbations. In this paper, we address these questions by conducting various ablation experiments using a recent and widely adopted approach called SLAM-ASR. We present novel empirical findings that offer insights on how to effectively utilize the SLAM-ASR architecture across a wide range of settings. Our main findings indicate that the SLAM-ASR exhibits poor performance in cross-domain evaluation settings. Additionally, speech perturbations within in-domain data, such as changes in speed or the presence of additive noise, can significantly impact performance. Our findings offer critical insights for fine-tuning and configuring robust LLM-based ASR models, tailored to different data characteristics and computational resources.
arxiv情報
著者 | Shashi Kumar,Iuliia Thorbecke,Sergio Burdisso,Esaú Villatoro-Tello,Manjunath K E,Kadri Hacioğlu,Pradeep Rangappa,Petr Motlicek,Aravind Ganapathiraju,Andreas Stolcke |
発行日 | 2024-11-06 12:22:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google