要約
対話関連の機械読解では、複数回転の対話文を効果的に分離してモデル化するための言語モデルが必要です。
対話の展開は参加者の意図に従って進められるため、その話題はパッセージ全体を通して一定に保たれない場合があります。
したがって、対話モデリングにおけるトピックの変化を検出して活用することは簡単ではありません。
トピック モデリングはプレーン テキストで広く研究されていますが、会話の読解においてはさらに活用される価値があります。
この論文では、トピックを意識した観点からマルチターン対話をモデル化することを提案します。
まず、対話セグメンテーション アルゴリズムを使用して、対話の一節を教師なしの方法でトピックが集中した断片に分割します。
次に、これらのフラグメントをトピック認識言語処理単位として使用して、対話をさらに理解します。
一方で、分割セグメントは、混合された意図ではなく特定のトピックを告発するため、ドメイン内のトピックの検出と位置特定に便利であることがわかります。
このタスクでは、自己学習オートエンコーダーを備えたクラスタリング システムを設計し、評価用に 2 つの構築されたデータセットを構築します。
一方、分割セグメントは、複数ターンの対話応答選択の適切な要素です。
この目的のために、我々はさらに、トピックセグメントを処理要素として取り、二重クロスアテンションで応答候補を照合する新しいモデルであるトピック認識デュアルアテンションマッチング(TADAM)ネットワークを提示します。
3 つの公開ベンチマークに関する実証研究では、ベースラインに比べて大幅な改善が示されています。
私たちの研究は、ドキュメントのトピックに関する以前の研究を継続し、徹底的な実験と分析により、対話モデリングにトピックを意識した新しい視点をもたらします。
要約(オリジナル)
Dialogue related Machine Reading Comprehension requires language models to effectively decouple and model multi-turn dialogue passages. As a dialogue development goes after the intentions of participants, its topic may not keep constant through the whole passage. Hence, it is non-trivial to detect and leverage the topic shift in dialogue modeling. Topic modeling, although has been widely studied in plain text, deserves far more utilization in dialogue reading comprehension. This paper proposes to model multi-turn dialogues from a topic-aware perspective. We start with a dialogue segmentation algorithm to split a dialogue passage into topic-concentrated fragments in an unsupervised way. Then we use these fragments as topic-aware language processing units in further dialogue comprehension. On one hand, the split segments indict specific topics rather than mixed intentions, thus showing convenient on in-domain topic detection and location. For this task, we design a clustering system with a self-training auto-encoder, and we build two constructed datasets for evaluation. On the other hand, the split segments are an appropriate element of multi-turn dialogue response selection. For this purpose, we further present a novel model, Topic-Aware Dual-Attention Matching (TADAM) Network, which takes topic segments as processing elements and matches response candidates with a dual cross-attention. Empirical studies on three public benchmarks show great improvements over baselines. Our work continues the previous studies on document topic, and brings the dialogue modeling to a novel topic-aware perspective with exhaustive experiments and analyses.
arxiv情報
著者 | Xinbei Ma,Yi Xu,Hai Zhao,Zhuosheng Zhang |
発行日 | 2023-09-18 11:03:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google