Large Language Models as Zero-shot Dialogue State Tracker through Function Calling

要約

大規模言語モデル (LLM) は、一般的なコンテキストにおける高度な理解と生成機能により、会話システムでますます普及しています。
しかし、応答生成だけでなく、特定のタスクやドメイン内での効果的な対話状態追跡 (DST) も必要とするタスク指向対話 (TOD) における有効性は、依然として満足のいくものではありません。
この研究では、関数呼び出しを通じて LLM を使用して DST を解決するための新しいアプローチ FnCTOD を提案します。
この方法によりゼロショット DST が改善され、大規模なデータ収集やモデル調整を行わずに多様なドメインに適応できるようになります。
私たちの実験結果は、私たちのアプローチが適度なサイズのオープンソースと独自の LLM の両方で優れたパフォーマンスを達成することを示しています。コンテキスト内のプロンプトにより、さまざまな 7B または 13B パラメーター モデルが以前に達成された最先端 (SOTA) を超えることが可能になります。
ChatGPT により、ChatGPT のパフォーマンスが向上し、SOTA を平均共同目標精度 (JGA) 5.6% 上回りました。
GPT-3.5 と GPT-4 の個々のモデルの結果は、それぞれ 4.8% と 14% 向上しました。
また、タスク指向の多様なダイアログの小さなコレクションを微調整することで、https://github.com/facebookresearch/FnCTOD で控えめな機能を装備できることも示します。

要約(オリジナル)

Large language models (LLMs) are increasingly prevalent in conversational systems due to their advanced understanding and generative capabilities in general contexts. However, their effectiveness in task-oriented dialogues (TOD), which requires not only response generation but also effective dialogue state tracking (DST) within specific tasks and domains, remains less satisfying. In this work, we propose a novel approach FnCTOD for solving DST with LLMs through function calling. This method improves zero-shot DST, allowing adaptation to diverse domains without extensive data collection or model tuning. Our experimental results demonstrate that our approach achieves exceptional performance with both modestly sized open-source and also proprietary LLMs: with in-context prompting it enables various 7B or 13B parameter models to surpass the previous state-of-the-art (SOTA) achieved by ChatGPT, and improves ChatGPT’s performance beating the SOTA by 5.6% average joint goal accuracy (JGA). Individual model results for GPT-3.5 and GPT-4 are boosted by 4.8% and 14%, respectively. We also show that by fine-tuning on a small collection of diverse task-oriented dialogues, we can equip modest at https://github.com/facebookresearch/FnCTOD

arxiv情報

著者 Zekun Li,Zhiyu Zoey Chen,Mike Ross,Patrick Huber,Seungwhan Moon,Zhaojiang Lin,Xin Luna Dong,Adithya Sagar,Xifeng Yan,Paul A. Crook
発行日 2024-05-01 17:58:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク