要約
音声言語理解 (SLU) に関するこれまでの研究は、主に単一意図の設定に焦点を当てており、各入力発話には 1 つのユーザー意図が含まれるだけです。
この構成により、ユーザー発話の表面形式と出力セマンティクスの容量が大幅に制限されます。
この研究では、最初に、MIVS と呼ばれる現実的な車載対話システムから収集されたマルチインテント データセットを提案します。
ターゲットのセマンティック フレームは、マルチインテントの場合の位置合わせと割り当ての問題に取り組むために、3 層の階層構造で編成されています。
したがって、我々はオントロジー項目の階層をエンコードする BiRGAT モデルを考案します。そのバックボーンはデュアル リレーショナル グラフ アテンション ネットワークです。
3 ウェイ ポインター ジェネレーター デコーダーと組み合わせると、私たちの方法は、従来のシーケンス ラベリングや分類ベースのスキームを大幅に上回ります。
要約(オリジナル)
Previous work on spoken language understanding (SLU) mainly focuses on single-intent settings, where each input utterance merely contains one user intent. This configuration significantly limits the surface form of user utterances and the capacity of output semantics. In this work, we first propose a Multi-Intent dataset which is collected from a realistic in-Vehicle dialogue System, called MIVS. The target semantic frame is organized in a 3-layer hierarchical structure to tackle the alignment and assignment problems in multi-intent cases. Accordingly, we devise a BiRGAT model to encode the hierarchy of ontology items, the backbone of which is a dual relational graph attention network. Coupled with the 3-way pointer-generator decoder, our method outperforms traditional sequence labeling and classification-based schemes by a large margin.
arxiv情報
著者 | Hongshen Xu,Ruisheng Cao,Su Zhu,Sheng Jiang,Hanchong Zhang,Lu Chen,Kai Yu |
発行日 | 2024-02-28 11:39:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google