A Multimodal Approach to Device-Directed Speech Detection with Large Language Models

要約

仮想アシスタントとの対話は通常、事前定義されたトリガー フレーズで始まり、その後にユーザー コマンドが続きます。
アシスタントとの対話をより直観的にするために、ユーザーが各コマンドをトリガー フレーズで開始する必要があるという要件を削除することが可能かどうかを検討します。
このタスクを 3 つの方法で検討します。 まず、オーディオ波形から取得した音響情報のみを使用して分類器をトレーニングします。
次に、自動音声認識 (ASR) システムのデコーダー出力 (1-best 仮説など) を大規模言語モデル (LLM) への入力特徴として取得します。
最後に、LLM 内の音響機能と語彙機能、および ASR デコーダ信号を組み合わせたマルチモーダル システムを検討します。
マルチモーダル情報を使用すると、テキストのみおよび音声のみのモデルと比較して、相対的な等誤り率が最大 39% および 61% 向上します。
LLM のサイズを増やし、低ランク適応を使用してトレーニングすると、データセットでさらに相対的な EER が最大 18% 削減されます。

要約(オリジナル)

Interactions with virtual assistants typically start with a predefined trigger phrase followed by the user command. To make interactions with the assistant more intuitive, we explore whether it is feasible to drop the requirement that users must begin each command with a trigger phrase. We explore this task in three ways: First, we train classifiers using only acoustic information obtained from the audio waveform. Second, we take the decoder outputs of an automatic speech recognition (ASR) system, such as 1-best hypotheses, as input features to a large language model (LLM). Finally, we explore a multimodal system that combines acoustic and lexical features, as well as ASR decoder signals in an LLM. Using multimodal information yields relative equal-error-rate improvements over text-only and audio-only models of up to 39% and 61%. Increasing the size of the LLM and training with low-rank adaption leads to further relative EER reductions of up to 18% on our dataset.

arxiv情報

著者 Dominik Wager,Alexander Churchill,Siddharth Sigtia,Panayiotis Georgiou,Matt Mirsamadi,Aarshee Mishra,Erik Marchi
発行日 2024-03-21 14:44:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, eess.AS パーマリンク