Do Large Language Model Understand Multi-Intent Spoken Language ?

要約

この研究は、多目的音声言語理解 (SLU) に大規模言語モデル (LLM) を利用することで大きな進歩を遂げ、SLU コンテキスト内で LLM の生成力を活用する独自の方法論を提案しています。
当社の革新的な技術は、マルチインテント SLU 環境における LLM アプリケーション専用にエンティティ スロットを再構成し、サブインテント命令 (SII) の概念を導入して、さまざまなドメイン内の複雑なマルチインテント通信の分析と解釈を強化します。
結果として得られるデータセットは LM-MixATIS および LM-MixSNIPS と呼ばれ、既存のベンチマークから作成されています。
私たちの研究は、LLM が現在の最先端のマルチインテント SLU モデルの機能に匹敵し、それを超える可能性があることを示しています。
さらに、さまざまなインテント構成とデータセットの割合にわたる LLM の有効性を調査します。
さらに、エンティティ スロット精度 (ESA) と結合セマンティック精度 (CSA) という 2 つの先駆的な指標を導入し、この複雑な分野における LLM の習熟度を詳細に分析します。

要約(オリジナル)

This study marks a significant advancement by harnessing Large Language Models (LLMs) for multi-intent spoken language understanding (SLU), proposing a unique methodology that capitalizes on the generative power of LLMs within an SLU context. Our innovative technique reconfigures entity slots specifically for LLM application in multi-intent SLU environments and introduces the concept of Sub-Intent Instruction (SII), enhancing the dissection and interpretation of intricate, multi-intent communication within varied domains. The resultant datasets, dubbed LM-MixATIS and LM-MixSNIPS, are crafted from pre-existing benchmarks. Our research illustrates that LLMs can match and potentially excel beyond the capabilities of current state-of-the-art multi-intent SLU models. It further explores LLM efficacy across various intent configurations and dataset proportions. Moreover, we introduce two pioneering metrics, Entity Slot Accuracy (ESA) and Combined Semantic Accuracy (CSA), to provide an in-depth analysis of LLM proficiency in this complex field.

arxiv情報

著者 Shangjian Yin,Peijie Huang,Yuhong Xu,Haojing Huang,Jiatian Chen
発行日 2024-03-08 04:47:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク