Span-Selective Linear Attention Transformers for Effective and Robust Schema-Guided Dialogue State Tracking

要約

スキーマに基づく対話状態追跡モデルでは、サービス スキーマの自然言語記述を使用して会話の現在の状態を推定し、目に見えないサービスに一般化します。
スロット値を順番にデコードする従来の生成的アプローチは、スキーマの変動に十分に一般化できませんが、識別的アプローチは履歴とスキーマを個別にエンコードし、スロット間およびインテントとスロットの依存関係を考慮できません。
出力を限られた予測空間に制限することで、従来のアプローチよりも優れた一般化と効率を実現する新しいアーキテクチャである SPLAT を紹介します。
同時に、私たちのモデルは、線形時間アテンションを組み込むことで計算コストを抑制しながら、説明と履歴の間で豊富なアテンションを可能にします。
スキーマガイド付き対話 (SGD) および MultiWOZ データセットに対するモデルの有効性を実証します。
私たちのアプローチは、SGD データセットで 85.3 JGA を達成する既存のモデルを大幅に改善しています。
さらに、SGD-X ベンチマークで堅牢性が向上していることがわかります。私たちのモデルは、30$\times$ 以上大きい D3ST-XXL モデルよりも 5.0 ポイント優れています。

要約(オリジナル)

In schema-guided dialogue state tracking models estimate the current state of a conversation using natural language descriptions of the service schema for generalization to unseen services. Prior generative approaches which decode slot values sequentially do not generalize well to variations in schema, while discriminative approaches separately encode history and schema and fail to account for inter-slot and intent-slot dependencies. We introduce SPLAT, a novel architecture which achieves better generalization and efficiency than prior approaches by constraining outputs to a limited prediction space. At the same time, our model allows for rich attention among descriptions and history while keeping computation costs constrained by incorporating linear-time attention. We demonstrate the effectiveness of our model on the Schema-Guided Dialogue (SGD) and MultiWOZ datasets. Our approach significantly improves upon existing models achieving 85.3 JGA on the SGD dataset. Further, we show increased robustness on the SGD-X benchmark: our model outperforms the more than 30$\times$ larger D3ST-XXL model by 5.0 points.

arxiv情報

著者 Björn Bebensee,Haejun Lee
発行日 2023-06-15 17:59:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク