Speech-based Slot Filling using Large Language Models

要約

最近、大規模言語モデル (LLM) の進歩により、さまざまな言語タスクにわたって前例のない能力が示されました。
この論文では、コンテキスト内学習とタスク固有の微調整の両方を介して、ノイズの多い ASR 転写によるスロット充填への LLM の潜在的な応用を調査します。
ノイズの多い ASR 転写によるスロット充填に対する LLM の堅牢性を向上させるために、専用のプロンプト設計と微調整アプローチが提案されています。
さらに、動的外部知識を LLM に統合するための線形化知識注入 (LKI) スキームも提案されています。
SLURP で実験を実行し、異なる ASR エラー率を持つ GPT-3.5-turbo、GPT-4、LLaMA-13B、Vicuna-13B (v1.1 および v1.5) などの LLM のパフォーマンスを定量化しました。
LLaMA-13B の LKI スキームと提案された微調整を併用すると、限られたデータ設定で強力な Flan-T5 ベースのベースライン システムと比較して、SLU-F1 の絶対的な 8.3% 向上が達成されました。

要約(オリジナル)

Recently, advancements in large language models (LLMs) have shown an unprecedented ability across various language tasks. This paper investigates the potential application of LLMs to slot filling with noisy ASR transcriptions, via both in-context learning and task-specific fine-tuning. Dedicated prompt designs and fine-tuning approaches are proposed to improve the robustness of LLMs for slot filling with noisy ASR transcriptions. Moreover, a linearised knowledge injection (LKI) scheme is also proposed to integrate dynamic external knowledge into LLMs. Experiments were performed on SLURP to quantify the performance of LLMs, including GPT-3.5-turbo, GPT-4, LLaMA-13B and Vicuna-13B (v1.1 and v1.5) with different ASR error rates. The use of the proposed fine-tuning together with the LKI scheme for LLaMA-13B achieved an 8.3% absolute SLU-F1 improvement compared to the strong Flan-T5-base baseline system on a limited data setup.

arxiv情報

著者 Guangzhi Sun,Shutong Feng,Dongcheng Jiang,Chao Zhang,Milica Gašić,Philip C. Woodland
発行日 2023-11-13 15:54:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク