Ichigo: Mixed-Modal Early-Fusion Realtime Voice Assistant

要約

大規模言語モデル(LLM)は自然言語処理に革命をもたらしたが、音声とテキストモダリティを統合する複雑さのため、音声ベースのタスクへの適用は依然として困難である。本稿では、音声とテキストのインターリーブシーケンスをシームレスに処理するミックスモーダルモデルIchigoを紹介する。トークン化された早期融合アプローチを利用し、Ichigoは音声を個別のトークンに量子化し、音声とテキストの両方のモダリティに対して統一された変換器ベースのアーキテクチャを採用する。この手法により、個別のアダプタを必要とせず、モダリティを超えた共同推論と生成が可能となる。多言語音声認識データセットでの事前学習と、キュレーションされたインストラクションデータセットでの微調整を含む、包括的な学習方法を提示する。Ichigoは、音声質問応答ベンチマークにおいて最先端の性能を示し、既存のオープンソース音声言語モデルを凌駕し、カスケードシステムと同等の結果を達成した。特筆すべきは、Ichigoの最初のトークン生成までの待ち時間が111ミリ秒と、現在のモデルよりも大幅に短いことである。我々のアプローチは、マルチモーダルAIの分野を発展させるだけでなく、小規模な研究チームがオープンソースの音声言語モデルに効果的に貢献するためのフレームワークを提供します。

要約(オリジナル)

Large Language Models (LLMs) have revolutionized natural language processing, but their application to speech-based tasks remains challenging due to the complexities of integrating audio and text modalities. This paper introduces Ichigo, a mixed-modal model that seamlessly processes interleaved sequences of speech and text. Utilizing a tokenized early-fusion approach, Ichigo quantizes speech into discrete tokens and employs a uniform transformer-based architecture for both speech and text modalities. This method enables joint reasoning and generation across modalities without the need for separate adapters. We present a comprehensive training methodology, including pre-training on multilingual speech recognition datasets and fine-tuning on a curated instruction dataset. Ichigo demonstrates state-of-the-art performance on speech question-answering benchmarks, outperforming existing open-source speech language models and achieving comparable results to cascaded systems. Notably, Ichigo exhibits a latency of just 111 ms to first token generation, significantly lower than current models. Our approach not only advances the field of multimodal AI but also provides a framework for smaller research teams to contribute effectively to open-source speech-language models.

arxiv情報

著者 Alan Dao,Dinh Bach Vu,Huy Hoang Ha
発行日 2025-04-04 08:29:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク