要約
タスク指向ダイアログ (ToD) システムでは、ユーザーの目標を達成するために複数のサブ目標を解決する必要がありますが、フィードバックはダイアログの最後にのみ得られることがよくあります。
この研究では、ToD システムを改善するための反復トレーニング アプローチである SUIT (SUbgoal-aware ITerative Training) を提案します。
改善を目指すモデルからダイアログをサンプリングし、遠隔監視を使用してダイアログの成功に寄与するサブ目標を決定し、高品質のトレーニング サンプルを取得します。
このデータが教師あり微調整、あるいは好み学習の結果をどのように改善するかを示します。
SUIT は、固定された静的セットに依存する代わりに、より多くのデータを反復的に生成できます。
SUIT は、一般的な ToD ベンチマークで新たな最先端のパフォーマンスに到達します。
要約(オリジナル)
Task-oriented Dialog (ToD) systems have to solve multiple subgoals to accomplish user goals, whereas feedback is often obtained only at the end of the dialog. In this work, we propose SUIT (SUbgoal-aware ITerative Training), an iterative training approach for improving ToD systems. We sample dialogs from the model we aim to improve and determine subgoals that contribute to dialog success using distant supervision to obtain high quality training samples. We show how this data improves supervised fine-tuning or, alternatively, preference learning results. SUIT is able to iteratively generate more data instead of relying on fixed static sets. SUIT reaches new state-of-the-art performance on a popular ToD benchmark.
arxiv情報
著者 | Magdalena Kaiser,Patrick Ernst,György Szarvas |
発行日 | 2024-11-25 11:47:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google