要約
大規模な対話モデルが実際に一般的になる中、トレーニング、推論、およびより大きなメモリ使用量のための高いコンピューティング要件を取り巻く問題は依然として解決されていません。
この研究では、対話モデルを導入する際の課題に対処するマルチタスク対話モデルである AUTODIAL を紹介します。
AUTODIAL は、並列デコーダを利用して、対話行為の予測、ドメイン予測、意図の予測、対話状態の追跡などのタスクを実行します。
生成デコーダーではなく分類デコーダーを使用することで、AUTODIAL はメモリ フットプリントを大幅に削減し、既存の生成アプローチ、つまり SimpleTOD と比較してより高速な推論時間を実現できます。
SimpleTOD と比較して、AUTODIAL は 3 つの対話タスクで 11 分の 1 少ないパラメーターを使用しながら、推論中に 3 ~ 6 倍の高速化を実現することを実証します。
私たちの結果は、現在の対話モデルを拡張して並列デコーダを持たせることが、リソースに制約のある環境に対話モデルを導入するための実行可能な代替手段となり得ることを示しています。
要約(オリジナル)
As large dialogue models become commonplace in practice, the problems surrounding high compute requirements for training, inference and larger memory footprint still persists. In this work, we present AUTODIAL, a multi-task dialogue model that addresses the challenges of deploying dialogue model. AUTODIAL utilizes parallel decoders to perform tasks such as dialogue act prediction, domain prediction, intent prediction, and dialogue state tracking. Using classification decoders over generative decoders allows AUTODIAL to significantly reduce memory footprint and achieve faster inference times compared to existing generative approach namely SimpleTOD. We demonstrate that AUTODIAL provides 3-6x speedups during inference while having 11x fewer parameters on three dialogue tasks compared to SimpleTOD. Our results show that extending current dialogue models to have parallel decoders can be a viable alternative for deploying them in resource-constrained environments.
arxiv情報
著者 | Prajjwal Bhargava,Pooyan Amini,Shahin Shayandeh,Chinnadhurai Sankar |
発行日 | 2023-06-09 17:18:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google