要約
この作業では、オーディオとテキストを大規模な言語モデル(LLM)に統合する仮想アシスタントインタラクションの音声対応言語モデルであるSelmaを提示および評価します。
Selmaは、仮想アシスタントとの相互作用に関連する3つのプライマリと2つの補助タスクを、単一のエンドツーエンドモデル内で同時に処理するように設計されています。
オーディオエンコーダーとLLMの両方のパラメーター効率の高いトレーニングには、低ランク適応モジュールを採用しています。
さらに、システムがグローバルなパターンを認識し、個々のシーケンス要素への依存度の低いタスクの精度を改善できるようにする機能プーリング戦略を実装します。
音声トリガー(VT)検出、デバイス指向の音声検出(DDSD)、および自動音声認識(ASR)の実験結果は、私たちのアプローチが仮想アシスタントの典型的な入力処理パイプラインを簡素化することを示しています。
個々のタスクごとに。
Selmaは、VT検出タスクで64%、DDSDで22%の相対的な誤差率の改善をもたらし、ベースラインに近い単語エラー率を達成します。
要約(オリジナル)
In this work, we present and evaluate SELMA, a Speech-Enabled Language Model for virtual Assistant interactions that integrates audio and text as inputs to a Large Language Model (LLM). SELMA is designed to handle three primary and two auxiliary tasks related to interactions with virtual assistants simultaneously within a single end-to-end model. We employ low-rank adaptation modules for parameter-efficient training of both the audio encoder and the LLM. Additionally, we implement a feature pooling strategy enabling the system to recognize global patterns and improve accuracy on tasks less reliant on individual sequence elements. Experimental results on Voice Trigger (VT) detection, Device-Directed Speech Detection (DDSD), and Automatic Speech Recognition (ASR), demonstrate that our approach both simplifies the typical input processing pipeline of virtual assistants significantly and also improves performance compared to dedicated models for each individual task. SELMA yields relative Equal-Error Rate improvements of 64% on the VT detection task, and 22% on DDSD, while also achieving word error rates close to the baseline.
arxiv情報
著者 | Dominik Wagner,Alexander Churchill,Siddarth Sigtia,Erik Marchi |
発行日 | 2025-01-31 18:30:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google