The StatCan Dialogue Dataset: Retrieving Data Tables through Conversations with Genuine Intents


タイトル:The StatCan Dialogue Dataset:Genuine Intentsによるデータ表の会話を通じた検索

– 統計局で働くエージェントとオンラインユーザーの間の19,379の会話ターンから成るStatCan Dialogue Datasetを紹介する。
– オンラインユーザーは公開されたデータ表を探しており、英語またはフランス語で行われた本物の意図から生まれた会話が蓄積されている。
– 研究者らは、このデータセットを基に「(1)現在の会話に基づく関連するデータ表の自動検索」「(2)各ターンに適切なエージェントの返答の自動生成」という2つのタスクを提案している。
– 実験結果では、強力なベースラインが確立される一方で、すべてのモデルが将来の会話に汎化するのに苦労していることが明らかになる。
– さらに、返答生成モデルは、どのタイミングでテーブルを返すかに関しても苦戦している。
– このタスクへの挑戦は非常に大きく、既存のモデルをこのタスクに適合させることを推奨する。これは、知識労働者がリアルタイムのチャットユーザーに関連するデータ表を提供するために直接使用できるモデルを開発するコミュニティを促すためである。


We introduce the StatCan Dialogue Dataset consisting of 19,379 conversation turns between agents working at Statistics Canada and online users looking for published data tables. The conversations stem from genuine intents, are held in English or French, and lead to agents retrieving one of over 5000 complex data tables. Based on this dataset, we propose two tasks: (1) automatic retrieval of relevant tables based on a on-going conversation, and (2) automatic generation of appropriate agent responses at each turn. We investigate the difficulty of each task by establishing strong baselines. Our experiments on a temporal data split reveal that all models struggle to generalize to future conversations, as we observe a significant drop in performance across both tasks when we move from the validation to the test set. In addition, we find that response generation models struggle to decide when to return a table. Considering that the tasks pose significant challenges to existing models, we encourage the community to develop models for our task, which can be directly used to help knowledge workers find relevant tables for live chat users.


著者 Xing Han Lu,Siva Reddy,Harm de Vries
発行日 2023-04-05 01:20:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, OpenAI

カテゴリー: cs.CL パーマリンク