TaDSE: Template-aware Dialogue Sentence Embeddings

要約

対話から高品質の文埋め込みを学習することは、さまざまな対話指向のタスクを低アノテーションコストで解決するために不可欠であるため、ますます注目を集めています。
ただし、会話内の発話関係に直接注釈を付けて収集することは困難ですが、トークンレベルの注釈 (エンティティ、スロット、テンプレートなど) を取得するのははるかに簡単です。
一般的な文埋め込み手法は通常、文レベルの自己教師ありフレームワークであり、トークンレベルの追加知識を利用できません。
この論文では、テンプレート情報を利用して自己教師あり対比学習フレームワークを介して発話表現を効果的に学習する新しい拡張手法であるテンプレート認識対話文埋め込み (TaDSE) を紹介します。
TaDSE は、各文を対応するテンプレートで拡張し、文とテンプレートの両方に対してペアワイズ対照学習を実行します。
発話とテンプレートの関係を強化する合成的に拡張されたデータセットを使用して効果をさらに強化します。エンティティ検出 (スロット充填) が予備ステップです。
5 つのダウンストリーム ベンチマーク データセットで TaDSE のパフォーマンスを評価します。
実験結果は、TaDSE が以前の SOTA 手法と比較して大幅な改善を達成し、一貫した意図分類タスクのパフォーマンス向上マージンを達成したことを示しています。
さらに、セマンティック圧縮法の新しい分析手段を導入し、均一性と整列との相関関係を発見しました。
私たちのコードは間もなくリリースされる予定です。

要約(オリジナル)

Learning high quality sentence embeddings from dialogues has drawn increasing attentions as it is essential to solve a variety of dialogue-oriented tasks with low annotation cost. However, directly annotating and gathering utterance relationships in conversations are difficult, while token-level annotations, \eg, entities, slots and templates, are much easier to obtain. General sentence embedding methods are usually sentence-level self-supervised frameworks and cannot utilize token-level extra knowledge. In this paper, we introduce Template-aware Dialogue Sentence Embedding (TaDSE), a novel augmentation method that utilizes template information to effectively learn utterance representation via self-supervised contrastive learning framework. TaDSE augments each sentence with its corresponding template and then conducts pairwise contrastive learning over both sentence and template. We further enhance the effect with a synthetically augmented dataset that enhances utterance-template relation, in which entity detection (slot-filling) is a preliminary step. We evaluate TaDSE performance on five downstream benchmark datasets. The experiment results show that TaDSE achieves significant improvements over previous SOTA methods, along with a consistent Intent Classification task performance improvement margin. We further introduce a novel analytic instrument of Semantic Compression method, for which we discover a correlation with uniformity and alignment. Our code will be released soon.

arxiv情報

著者 Minsik Oh,Jiwei Li,Guoyin Wang
発行日 2023-05-23 17:40:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク