Can ChatGPT Detect Intent? Evaluating Large Language Models for Spoken Language Understanding

要約

最近、大規模な事前トレーニング済み言語モデルが強力な言語理解能力を実証しています。
これは特に、プロンプトを通じた下流タスクに関するゼロショットおよびコンテキスト内の学習能力に反映されています。
音声言語理解 (SLU) への影響を評価するために、さまざまなサイズの ChatGPT や OPT などのいくつかのモデルを複数のベンチマークで評価します。
オラクルのトランスクリプトが与えられた場合、さまざまな言語でゼロまたは少数のショットで教師ありモデルに近い意図分類精度に達できるため、最大のモデルに特有の創発的能力を検証します。
対照的に、単一の GPU に適合する小型モデルの結果は大きく遅れています。
エラーのケースは、データセットのアノテーション スキームから発生することが多いことに注意してください。
ChatGPT からの応答は依然として妥当です。
ただし、このモデルはスロット充填が悪く、そのパフォーマンスが ASR エラーの影響を受けやすいことを示しており、これらのテキスト モデルを SLU に適用する場合に深刻な課題があることが示唆されています。

要約(オリジナル)

Recently, large pretrained language models have demonstrated strong language understanding capabilities. This is particularly reflected in their zero-shot and in-context learning abilities on downstream tasks through prompting. To assess their impact on spoken language understanding (SLU), we evaluate several such models like ChatGPT and OPT of different sizes on multiple benchmarks. We verify the emergent ability unique to the largest models as they can reach intent classification accuracy close to that of supervised models with zero or few shots on various languages given oracle transcripts. By contrast, the results for smaller models fitting a single GPU fall far behind. We note that the error cases often arise from the annotation scheme of the dataset; responses from ChatGPT are still reasonable. We show, however, that the model is worse at slot filling, and its performance is sensitive to ASR errors, suggesting serious challenges for the application of those textual models on SLU.

arxiv情報

著者 Mutian He,Philip N. Garner
発行日 2023-08-17 19:23:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS パーマリンク