MonoTODia: Translating Monologue Requests to Task-Oriented Dialogues

要約

データ不足は、変圧器ベースのモデルの実際のアプリケーションに関して主な問題の1つです。
これは、通常、容易に入手できない特殊なデータセットを必要とするタスク指向のダイアログ(TOD)システムで特に明白です。
これにより、企業がTODシステムをサービスに追加することを妨げる可能性があります。
したがって、この研究は、既存のドイツの独白資料から注釈付きの対話を調達するための新しいアプローチを調査します。
現実世界の例に焦点を当てて、これらのモノローグをTODシステムのトレーニングに適したダイアログ形式に変換できるかどうかを調査します。
電子メールで旅行の予約を専門とする会社の具体的な例でアプローチを示します。
私たちは、電子メールを対話と注釈として書き換えるというタスクのために、最先端の大規模な言語モデルを微調整します。
生成されたデータの品質と妥当性を確保するために、群衆労働者を採用して、複数の基準で対話を評価し、テストデータセットに金標準の注釈を提供します。
さらに、TODシステムをトレーニングするための対話の有用性を評価します。
私たちの評価は、対話と注釈が高品質であり、TODシステムをトレーニングするための貴重な出発点として機能することを示しています。
最後に、注釈付きのデータセットを公開して、将来の研究を促進します。

要約(オリジナル)

Data scarcity is one of the main problems when it comes to real-world applications of transformer-based models. This is especially evident for task-oriented dialogue (TOD) systems, which require specialized datasets, that are usually not readily available. This can hinder companies from adding TOD systems to their services. This study therefore investigates a novel approach to sourcing annotated dialogues from existing German monologue material. Focusing on a real-world example, we investigate whether these monologues can be transformed into dialogue formats suitable for training TOD systems. We show the approach with the concrete example of a company specializing in travel bookings via e-mail. We fine-tune state-of-the-art Large Language Models for the task of rewriting e-mails as dialogues and annotating them. To ensure the quality and validity of the generated data, we employ crowd workers to evaluate the dialogues across multiple criteria and to provide gold-standard annotations for the test dataset. We further evaluate the usefulness of the dialogues for training TOD systems. Our evaluation shows that the dialogues and annotations are of high quality and can serve as a valuable starting point for training TOD systems. Finally, we make the annotated dataset publicly available to foster future research.

arxiv情報

著者 Sebastian Steindl,Ulrich Schäfer,Bernd Ludwig
発行日 2025-02-24 15:51:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク