Injecting linguistic knowledge into BERT for Dialogue State Tracking

要約

Dialogue State Tracking (DST) モデルは多くの場合、複雑なニューラル ネットワーク アーキテクチャを採用しており、大量のトレーニング データが必要であり、その推論プロセスには透明性が欠けています。
この論文では、教師なしフレームワークを介して言語知識を抽出し、その後この知識を利用して DST タスクにおける BERT のパフォーマンスと解釈可能性を強化する方法を提案します。
知識抽出手順は計算効率が高く、注釈や追加のトレーニング データは必要ありません。
抽出された知識の注入には、単純なニューラル モジュールのみを追加する必要があります。
DST タスクの特徴抽出ツールとして凸ポリトピック モデル (CPM) を採用し、取得された特徴が対話の構文パターンおよび意味パターンと相関していることを示します。
この相関関係により、DST モデルの意思決定プロセスに影響を与える言語的特徴を包括的に理解することが容易になります。
このフレームワークをさまざまな DST タスクでベンチマークし、精度の顕著な向上が観察されました。

要約(オリジナル)

Dialogue State Tracking (DST) models often employ intricate neural network architectures, necessitating substantial training data, and their inference processes lack transparency. This paper proposes a method that extracts linguistic knowledge via an unsupervised framework and subsequently utilizes this knowledge to augment BERT’s performance and interpretability in DST tasks. The knowledge extraction procedure is computationally economical and does not necessitate annotations or additional training data. The injection of the extracted knowledge necessitates the addition of only simple neural modules. We employ the Convex Polytopic Model (CPM) as a feature extraction tool for DST tasks and illustrate that the acquired features correlate with the syntactic and semantic patterns in the dialogues. This correlation facilitates a comprehensive understanding of the linguistic features influencing the DST model’s decision-making process. We benchmark this framework on various DST tasks and observe a notable improvement in accuracy.

arxiv情報

著者 Xiaohan Feng,Xixin Wu,Helen Meng
発行日 2024-01-31 06:58:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク