DIALIGHT: Lightweight Multilingual Development and Evaluation of Task-Oriented Dialogue Systems with Large Language Models

要約

DIALIGHTは、多言語タスク指向対話(ToD)システムを開発・評価するためのツールキットであり、事前学習済み言語モデル(PLM)の微調整を利用したToDシステムと、大規模言語モデル(LLM)のゼロショットおよびコンテキスト内学習機能を利用したToDシステムの系統的な評価と比較を容易にする。自動評価に加えて、このツールキットは、(i)ローカルな発話レベルとグローバルな対話レベルの両方において、人間によるきめ細かな評価のための安全でユーザーフレンドリーなウェブインターフェイス、(ii)効率性とスケーラビリティを向上させるマイクロサービスベースのバックエンドを特徴としています。我々の評価により、PLMの微調整がより高い精度と一貫性をもたらす一方で、LLMベースのシステムは多様で好感の持てる応答を生成することに優れていることが明らかになった。しかし、LLMの課題として、タスクに特化した指示の順守や、多言語での出力生成といった点が挙げられ、今後の研究課題が浮き彫りになった。私たちは、このオープンソースツールキットが、多言語ToDシステムの開発と適切な評価を目指す研究者にとって貴重なリソースとなり、現在まだ高いこの分野への参入障壁が低くなることを願っています。

要約(オリジナル)

We present DIALIGHT, a toolkit for developing and evaluating multilingual Task-Oriented Dialogue (ToD) systems which facilitates systematic evaluations and comparisons between ToD systems using fine-tuning of Pretrained Language Models (PLMs) and those utilising the zero-shot and in-context learning capabilities of Large Language Models (LLMs). In addition to automatic evaluation, this toolkit features (i) a secure, user-friendly web interface for fine-grained human evaluation at both local utterance level and global dialogue level, and (ii) a microservice-based backend, improving efficiency and scalability. Our evaluations reveal that while PLM fine-tuning leads to higher accuracy and coherence, LLM-based systems excel in producing diverse and likeable responses. However, we also identify significant challenges of LLMs in adherence to task-specific instructions and generating outputs in multiple languages, highlighting areas for future research. We hope this open-sourced toolkit will serve as a valuable resource for researchers aiming to develop and properly evaluate multilingual ToD systems and will lower, currently still high, entry barriers in the field.

arxiv情報

著者 Songbo Hu,Xiaobin Wang,Zhangdie Yuan,Anna Korhonen,Ivan Vulić
発行日 2024-01-04 11:27:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク