On-Device LLMs for Home Assistant: Dual Role in Intent Detection and Response Generation

要約

このペーパーでは、合成がドメイン代表的なデータで微調整された大規模な言語モデル(LLM)が、(i)スロットと意図検出の2つのタスクを実行できるかどうか、および(ii)スマートホームアシスタントの自然言語応答生成を実行できるかどうかを調査します。
LLMSを微調整して、JSONアクションコールとテキスト応答の両方を作成します。
私たちの実験は、16ビットと8ビットの量子化されたバリアントがスロットと意図の検出の高精度を維持し、生成されたテキストの強力なセマンティックコヒーレンスを維持し、4ビットモデルは生成の流encyさを保持しながら、デバイスサービス分類の精度の顕著な低下に苦しむことが示されています。
ノイズの多い人間(非合成)プロンプトとドメイン外の意図に関するさらなる評価は、モデルの一般化能力を確認し、約80〜86 \%の精度を取得します。
平均推論時間はクエリごとに5〜6秒ですが、ワンショットコマンドでは許容されますが、マルチターンダイアログでは準最適ですが、我々の結果は、特殊なハードウェアに依存することなく、コマンドの解釈と柔軟な対応生成をホームオートメーションのコマンド解釈と柔軟な応答生成を効果的に統合できることを確認しています。

要約(オリジナル)

This paper investigates whether Large Language Models (LLMs), fine-tuned on synthetic but domain-representative data, can perform the twofold task of (i) slot and intent detection and (ii) natural language response generation for a smart home assistant, while running solely on resource-limited, CPU-only edge hardware. We fine-tune LLMs to produce both JSON action calls and text responses. Our experiments show that 16-bit and 8-bit quantized variants preserve high accuracy on slot and intent detection and maintain strong semantic coherence in generated text, while the 4-bit model, while retaining generative fluency, suffers a noticeable drop in device-service classification accuracy. Further evaluations on noisy human (non-synthetic) prompts and out-of-domain intents confirm the models’ generalization ability, obtaining around 80–86\% accuracy. While the average inference time is 5–6 seconds per query — acceptable for one-shot commands but suboptimal for multi-turn dialogue — our results affirm that an on-device LLM can effectively unify command interpretation and flexible response generation for home automation without relying on specialized hardware.

arxiv情報

著者 Rune Birkmose,Nathan Mørkeberg Reece,Esben Hofstedt Norvin,Johannes Bjerva,Mike Zhang
発行日 2025-03-21 08:23:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク