要約
タイトル:統合対話履歴を用いた発話理解タスクの共同モデル化
要約:
– 人間同士のコミュニケーションは、発話の文脈によってその意味が決まります。
– 発話には、多数の意味や話者の属性が含まれるため、これらを自動的に予測するためのSpoken Language Understanding(SLU)システムの構築が注目されています。
– 近年の研究から、対話履歴を組み込むことで、SLUの性能が向上することが示されています。
– しかし、各SLUタスクに対して別々のモデルを使用するため、推論時間と計算コストが増加しています。
– この問題に対処するため、発話の意図、対話行為、話者の役割、感情を共同で予測し、文脈を組み込んで低遅延かつ軽量な推論を行える新しいモデルアーキテクチャを提案しています。
– この共同予測は、自己回帰モデルに基づくものであり、対話の属性の予測順序を決定する必要があります。
– 問題を緩和するために、順序に関係ないトレーニング方法も提案しています。
– 実験により、共同モデルがタスク固有の分類器と同じ結果を達成でき、対話履歴を効果的に統合してSLUの性能をさらに改善できることが示されています。
要約(オリジナル)
Most human interactions occur in the form of spoken conversations where the semantic meaning of a given utterance depends on the context. Each utterance in spoken conversation can be represented by many semantic and speaker attributes, and there has been an interest in building Spoken Language Understanding (SLU) systems for automatically predicting these attributes. Recent work has shown that incorporating dialogue history can help advance SLU performance. However, separate models are used for each SLU task, leading to an increase in inference time and computation cost. Motivated by this, we aim to ask: can we jointly model all the SLU tasks while incorporating context to facilitate low-latency and lightweight inference? To answer this, we propose a novel model architecture that learns dialog context to jointly predict the intent, dialog act, speaker role, and emotion for the spoken utterance. Note that our joint prediction is based on an autoregressive model and we need to decide the prediction order of dialog attributes, which is not trivial. To mitigate the issue, we also propose an order agnostic training method. Our experiments show that our joint model achieves similar results to task-specific classifiers and can effectively integrate dialog context to further improve the SLU performance.
arxiv情報
著者 | Siddhant Arora,Hayato Futami,Emiru Tsunoo,Brian Yan,Shinji Watanabe |
発行日 | 2023-05-01 16:26:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI