Compositional Generalization in Spoken Language Understanding

要約

最先端の音声言語理解 (SLU) モデルは、ベンチマーク SLU データセットで多大な成功を収めていますが、限られたトレーニング データでトレーニングした場合、モデルの構成性が欠如しているため、多くの実際的なシナリオでは依然として失敗します。
この論文では、(a) 新しいスロットの組み合わせ、および (b) 長さの一般化という 2 つのタイプの構成性を研究します。
まず詳細な分析を行ったところ、最先端の SLU モデルはトレーニング中に偽のスロット相関を学習することが多く、それが両方の構成ケースでパフォーマンスの低下につながることがわかりました。
これらの制限を軽減するために、ベンチマーク SLU データセットの最初の構成分割を作成し、各構成ケースにそれぞれ取り組む構成損失とペア トレーニングを含む最初の構成 SLU モデルを提案します。
ATIS と SNIPS のベンチマークと構成分割の両方で、構成 SLU モデルが最先端の BERT SLU モデル (最大 $5\%$ F1 スコア) を大幅に上回るパフォーマンスを示しました。

要約(オリジナル)

State-of-the-art spoken language understanding (SLU) models have shown tremendous success in benchmark SLU datasets, yet they still fail in many practical scenario due to the lack of model compositionality when trained on limited training data. In this paper, we study two types of compositionality: (a) novel slot combination, and (b) length generalization. We first conduct in-depth analysis, and find that state-of-the-art SLU models often learn spurious slot correlations during training, which leads to poor performance in both compositional cases. To mitigate these limitations, we create the first compositional splits of benchmark SLU datasets and we propose the first compositional SLU model, including compositional loss and paired training that tackle each compositional case respectively. On both benchmark and compositional splits in ATIS and SNIPS, we show that our compositional SLU model significantly outperforms (up to $5\%$ F1 score) state-of-the-art BERT SLU model.

arxiv情報

著者 Avik Ray,Yilin Shen,Hongxia Jin
発行日 2023-12-25 21:46:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク