DIALGEN: Collaborative Human-LM Generated Dialogues for Improved Understanding of Human-Human Conversations

要約

人間同士の会話を自動的に理解することで恩恵を受ける可能性のあるアプリケーションには、コールセンターや臨床での会話など、実世界のデータ内の個人情報に関連する課題が伴うことがよくあります。
保護されたデータを扱うと、アノテーションのコストも増加し、技術開発が制限されます。
これらの課題に対処するために、私たちは人間参加型の半自動対話生成フレームワークである DIALGEN を提案します。
DIALGEN は、スキーマとスタイルの仕様に従うことができる言語モデル (ChatGPT) を使用して、流暢な会話テキストを生成し、サブダイアログを繰り返し生成し、人間のフィードバックを使用して不一致を修正したりフローをリダイレクトしたりすることで複雑な会話を生成します。
対話状態追跡として構成された、エージェントとクライアントの情報収集呼び出しの構造化された要約に関する実験では、DIALGEN データによってモデルのパフォーマンスが大幅に向上することが示されました。

要約(オリジナル)

Applications that could benefit from automatic understanding of human-human conversations often come with challenges associated with private information in real-world data such as call center or clinical conversations. Working with protected data also increases costs of annotation, which limits technology development. To address these challenges, we propose DIALGEN, a human-in-the-loop semi-automated dialogue generation framework. DIALGEN uses a language model (ChatGPT) that can follow schema and style specifications to produce fluent conversational text, generating a complex conversation through iteratively generating subdialogues and using human feedback to correct inconsistencies or redirect the flow. In experiments on structured summarization of agent-client information gathering calls, framed as dialogue state tracking, we show that DIALGEN data enables significant improvement in model performance.

arxiv情報

著者 Bo-Ru Lu,Nikita Haduong,Chia-Hsuan Lee,Zeqiu Wu,Hao Cheng,Paul Koester,Jean Utke,Tao Yu,Noah A. Smith,Mari Ostendorf
発行日 2023-07-13 20:02:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク