要約
注釈のないダイアログから構造化されたワークフローを効率的に導き出すことは、計算言語学において依然として研究が進んでいない恐るべき課題です。
このプロセスを自動化すると、新しいドメインでのワークフローの手動設計が大幅に加速され、ドメイン固有のフローチャートに大規模な言語モデルを基礎付けることが可能になり、透明性と制御性が向上します。
この論文では、Dialog2Flow (D2F) エンベディングを紹介します。これは、発話を潜在空間にマッピングし、その伝達機能と情報提供機能 (つまり、発話が表すアクション) に従ってグループ化するという点で、従来の文エンベディングとは異なります。
D2F では、明確なアクション関連領域を持つ潜在空間内の連続的な軌跡としてダイアログをモデリングできます。
D2F エンベディングをクラスタリングすることにより、潜在空間が量子化され、ダイアログを領域/アクション ID のシーケンスに変換できるため、基礎となるワークフローの抽出が容易になります。
D2F を事前トレーニングするために、20 個のタスク指向のダイアログ データセットを正規化されたターンごとのアクション アノテーションと統合することで、包括的なデータセットを構築します。
また、これらのアクションの意味情報を活用して表現学習プロセスをガイドする新しいソフト コントラスト損失も導入し、標準の教師ありコントラスト損失と比較して優れたパフォーマンスを示します。
ダイアログ固有の埋め込みを含むさまざまな文の埋め込みに対する評価では、D2F がさまざまなドメインにわたって優れた定性的および定量的な結果を生み出すことが実証されています。
要約(オリジナル)
Efficiently deriving structured workflows from unannotated dialogs remains an underexplored and formidable challenge in computational linguistics. Automating this process could significantly accelerate the manual design of workflows in new domains and enable the grounding of large language models in domain-specific flowcharts, enhancing transparency and controllability. In this paper, we introduce Dialog2Flow (D2F) embeddings, which differ from conventional sentence embeddings by mapping utterances to a latent space where they are grouped according to their communicative and informative functions (i.e., the actions they represent). D2F allows for modeling dialogs as continuous trajectories in a latent space with distinct action-related regions. By clustering D2F embeddings, the latent space is quantized, and dialogs can be converted into sequences of region/action IDs, facilitating the extraction of the underlying workflow. To pre-train D2F, we build a comprehensive dataset by unifying twenty task-oriented dialog datasets with normalized per-turn action annotations. We also introduce a novel soft contrastive loss that leverages the semantic information of these actions to guide the representation learning process, showing superior performance compared to standard supervised contrastive loss. Evaluation against various sentence embeddings, including dialog-specific ones, demonstrates that D2F yields superior qualitative and quantitative results across diverse domains.
arxiv情報
著者 | Sergio Burdisso,Srikanth Madikeri,Petr Motlicek |
発行日 | 2024-11-05 11:40:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google