要約
NLPタスクでの大規模な言語モデル(LLMS)の顕著な成功に続いて、最も一般的なコミュニケーション形式である音声に能力を拡大することに関心が高まっています。
LLMSにスピーチを統合するための最も広範なアプローチは、予測される音声表現をテキスト表現にプレップし、音声エンコーダーでエンドツーエンドのトレーニングを可能にする密な機能(DFP)です。
これにより、DFP用の洗練された音声エンコーダーの必要性と、そのパフォーマンスが標準のエンコーダデコーダー(つまり、相互出席)アーキテクチャとどのように比較されるかについての疑問が提起されます。
CTC圧縮、シーケンスレベルの知識の蒸留、単一言語、バイリンガル、多言語モデルなど、さまざまな構成の下でDFPと相互参加を比較します。
制御されたアーキテクチャの比較を実行するために、すべてのモデルを大規模な前提型モデルを使用するのではなく、ゼロからトレーニングし、同等のデータとパラメーター設定を使用するのではなく、Must-C v1.0およびon Must-C v1.0および翻訳(ST)をテストします。
covost2データセット。
DFPの幅広い採用にもかかわらず、我々の結果は、交差に関するDFPの明確な利点を示していません。
要約(オリジナル)
Following the remarkable success of Large Language Models (LLMs) in NLP tasks, there is increasing interest in extending their capabilities to speech — the most common form of communication. The most widespread approach to integrating speech into LLMs is dense feature prepending (DFP), which prepends the projected speech representations to the textual representations, allowing end-to-end training with a speech encoder. This raises questions about the need for a sophisticated speech encoder for DFP and how its performance compares with a standard encoder-decoder (i.e., cross-attention) architecture. We compare DFP and cross-attention under a variety of configurations, such as CTC compression, sequence-level knowledge distillation, on monolingual, bilingual, and multilingual models. To perform a controlled architectural comparison, we train all models from scratch rather than using large pretrained models and use comparable data and parameter settings, testing speech-to-text recognition (ASR) and translation (ST) on MuST-C v1.0 and CoVoST2 datasets. Despite the wide adoption of DFP, our results do not indicate a clear advantage of DFP over cross-attention.
arxiv情報
著者 | Tsz Kin Lam,Marco Gaido,Sara Papi,Luisa Bentivogli,Barry Haddow |
発行日 | 2025-02-05 16:40:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google