要約
タイトル:AugESC:感情的なサポート会話のための大規模な言語モデルによる対話拡張
要約:
– クラウドソーシングされた対話コーパスはデータのカリングのコストが高いため、規模やトピックカバレッジが限られている。
– この問題を解決するため、大規模な言語モデルを使用して、感情的なサポート会話(ESC)のタスクで対話拡張を行う。
– 対話拡張を対話完成タスクとして扱い、複数のトピックの対話ポストから完全な対話を完成させるようにファインチューンされた言語モデルにプロンプトを送信し、ヒューリスティクスに基づいて後処理を行うことで、AugESCと呼ばれる拡張データセットを構築する。
– 網羅的な人間の評価により、強力なベースラインの対話拡張よりも優れており、AugESCの対話品質はクラウドソーシングされたコーパスと比較可能であることを示す。
– さらに、人間のインタラクティブな評価を実施し、AugESCでの事後トレーニングがオープンドメインのトピックへの下流の対話モデルの汎化能力を向上させることを証明する。
– これらの結果は、AugESCの有用性を示し、データ不足の対話生成タスクにおける大規模な言語モデルの可能性を強調する。
要約(オリジナル)
Crowdsourced dialogue corpora are usually limited in scale and topic coverage due to the expensive cost of data curation. This would hinder the generalization of downstream dialogue models to open-domain topics. In this work, we leverage large language models for dialogue augmentation in the task of emotional support conversation (ESC). By treating dialogue augmentation as a dialogue completion task, we prompt a fine-tuned language model to complete full dialogues from available dialogue posts of various topics, which are then postprocessed based on heuristics. Applying this approach, we construct AugESC, an augmented dataset for the ESC task, which largely extends the scale and topic coverage of the crowdsourced ESConv corpus. Through comprehensive human evaluation, we demonstrate that our approach is superior to strong baselines of dialogue augmentation and that AugESC has comparable dialogue quality to the crowdsourced corpus. We also conduct human interactive evaluation and prove that post-training on AugESC improves downstream dialogue models’ generalization ability to open-domain topics. These results suggest the utility of AugESC and highlight the potential of large language models in improving data-scarce dialogue generation tasks.
arxiv情報
著者 | Chujie Zheng,Sahand Sabour,Jiaxin Wen,Zheng Zhang,Minlie Huang |
発行日 | 2023-05-10 08:34:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI