SELMA: A Speech-Enabled Language Model for Virtual Assistant Interactions

要約

この研究では、音声とテキストを大規模言語モデル(LLM)への入力として統合する、バーチャルアシスタントとのインタラクションのための音声対応言語モデルであるSELMAを紹介し、評価する。SELMAは、仮想アシスタントとのインタラクションに関連する3つの主要タスクと2つの補助タスクを、単一のエンドツーエンドモデルで同時に処理するように設計されている。音声エンコーダとLLMの両方をパラメータ効率よく学習するために、低ランク適応モジュールを採用している。さらに、システムがグローバルパターンを認識し、個々のシーケンス要素にあまり依存しないタスクの精度を向上させることを可能にする特徴プーリング戦略を実装する。音声トリガー(VT)検出、デバイス指示音声検出(DDSD)、自動音声認識(ASR)の実験結果は、我々のアプローチが、バーチャルアシスタントの典型的な入力処理パイプラインを大幅に簡素化し、また、個々のタスクのための専用モデルと比較して性能を向上させることを示している。SELMAは、VT検出タスクで64%、DDSDで22%の相対的な等エラー率の改善をもたらすと同時に、ベースラインに近い単語エラー率を達成する。

要約(オリジナル)

In this work, we present and evaluate SELMA, a Speech-Enabled Language Model for virtual Assistant interactions that integrates audio and text as inputs to a Large Language Model (LLM). SELMA is designed to handle three primary and two auxiliary tasks related to interactions with virtual assistants simultaneously within a single end-to-end model. We employ low-rank adaptation modules for parameter-efficient training of both the audio encoder and the LLM. Additionally, we implement a feature pooling strategy enabling the system to recognize global patterns and improve accuracy on tasks less reliant on individual sequence elements. Experimental results on Voice Trigger (VT) detection, Device-Directed Speech Detection (DDSD), and Automatic Speech Recognition (ASR), demonstrate that our approach both simplifies the typical input processing pipeline of virtual assistants significantly and also improves performance compared to dedicated models for each individual task. SELMA yields relative Equal-Error Rate improvements of 64% on the VT detection task, and 22% on DDSD, while also achieving word error rates close to the baseline.

arxiv情報

著者 Dominik Wagner,Alexander Churchill,Siddharth Sigtia,Erik Marchi
発行日 2025-02-03 17:35:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS パーマリンク