A Study on the Integration of Pipeline and E2E SLU systems for Spoken Semantic Parsing toward STOP Quality Challenge

要約

タイトル: STOP Quality Challengeに向けた話し言葉意味解析のパイプラインとE2E SLUシステムの統合に関する研究

要約:

– 話し言葉理解(SLU)の新しいベンチマークタスクである形式意味解析など、新しいタスクを導入する試みが最近増えている。
– 本論文では、ICASSPシグナル処理グランドチャレンジ2023の話し言語理解グランドチャレンジのquality track(Track 1)のための提案された話し言葉意味解析システムについて説明する。
– このタスクには、E2E(End-to-End)システムとパイプラインシステムの両方を試行する。
– 強力な自動音声認識(ASR)モデルであるWhisperや、事前学習済みの言語モデル(LM)であるBARTなどがSLUフレームワーク内で利用され、性能向上に貢献している。
– また、さまざまなモデルの出力レベルの組み合わせを調査し、80.8の正確な一致精度を得て、チャレンジで1位を獲得した。

要約(オリジナル)

Recently there have been efforts to introduce new benchmark tasks for spoken language understanding (SLU), like semantic parsing. In this paper, we describe our proposed spoken semantic parsing system for the quality track (Track 1) in Spoken Language Understanding Grand Challenge which is part of ICASSP Signal Processing Grand Challenge 2023. We experiment with both end-to-end and pipeline systems for this task. Strong automatic speech recognition (ASR) models like Whisper and pretrained Language models (LM) like BART are utilized inside our SLU framework to boost performance. We also investigate the output level combination of various models to get an exact match accuracy of 80.8, which won the 1st place at the challenge.

arxiv情報

著者 Siddhant Arora,Hayato Futami,Shih-Lun Wu,Jessica Huynh,Yifan Peng,Yosuke Kashiwagi,Emiru Tsunoo,Brian Yan,Shinji Watanabe
発行日 2023-05-06 16:35:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク