From TOWER to SPIRE: Adding the Speech Modality to a Text-Only LLM

要約

大規模な言語モデル(LLM)は、複数の言語とタスクにわたって顕著なパフォーマンスと一般化機能を示しており、マルチモダリティ統合(画像や音声など)の非常に魅力的なターゲットになっています。
この作業では、既存のLLMを音声離散化と継続前のトレーニングを介して音声モダリティに拡張します。
特に、Towerなどの多言語LLMに関心があります。トレーニング前の設定により、離散化された音声入力を追加の翻訳言語として扱うことができます。
結果として得られるオープンソースモデルであるSpireは、翻訳関連のタスクでタワーの元のパフォーマンスを維持しながら、英語の音声入力を転写および翻訳することができ、LLM適応中に追加の言語として離散した音声入力統合が実行可能であることを示します。
コードとモデルをコミュニティが利用できるようにします。

要約(オリジナル)

Large language models (LLMs) have shown remarkable performance and generalization capabilities across multiple languages and tasks, making them very attractive targets for multi-modality integration (e.g., images or speech). In this work, we extend an existing LLM to the speech modality via speech discretization and continued pre-training. In particular, we are interested in multilingual LLMs, such as TOWER, as their pre-training setting allows us to treat discretized speech input as an additional translation language. The resulting open-source model, SPIRE, is able to transcribe and translate English speech input while maintaining TOWER’s original performance on translation-related tasks, showcasing that discretized speech input integration as an additional language is feasible during LLM adaptation. We make our code and models available to the community.

arxiv情報

著者 Kshitij Ambilduke,Ben Peters,Sonal Sannigrahi,Anil Keshwani,Tsz Kin Lam,Bruno Martins,Marcely Zanon Boito,André F. T. Martins
発行日 2025-03-13 17:57:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク