Data Augmentation for Conversational AI

要約

会話システムの進歩は、単一クエリの限界を超え、情報アクセスに革命をもたらした。しかし、対話システムの開発には大量の学習データが必要であり、これはリソースの少ないドメインや言語における課題である。クラウドソーシングのような従来のデータ収集方法は、労力と時間がかかり、このような状況では効果がありません。データ増強(DA)は、会話システムにおけるデータ不足の問題を軽減するための効果的なアプローチです。このチュートリアルでは、会話システムにおけるDAアプローチの包括的で最新の概要を提供します。会話オーグメンテーションにおける最近の進歩、オープンドメインとタスク指向の会話生成、そしてこれらのモデルを評価する様々なパラダイムに焦点を当てます。また、研究者や実務家がこの分野で更なる進歩を遂げるのを助けるために、現在の課題と将来の方向性についても議論する。

要約(オリジナル)

Advancements in conversational systems have revolutionized information access, surpassing the limitations of single queries. However, developing dialogue systems requires a large amount of training data, which is a challenge in low-resource domains and languages. Traditional data collection methods like crowd-sourcing are labor-intensive and time-consuming, making them ineffective in this context. Data augmentation (DA) is an affective approach to alleviate the data scarcity problem in conversational systems. This tutorial provides a comprehensive and up-to-date overview of DA approaches in the context of conversational systems. It highlights recent advances in conversation augmentation, open domain and task-oriented conversation generation, and different paradigms of evaluating these models. We also discuss current challenges and future directions in order to help researchers and practitioners to further advance the field in this area.

arxiv情報

著者 Heydar Soudani,Evangelos Kanoulas,Faegheh Hasibi
発行日 2024-03-02 23:14:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.IR パーマリンク