A Study on the Integration of Pipeline and E2E SLU systems for Spoken Semantic Parsing toward STOP Quality Challenge

要約

タイトル:STOP Quality ChallengeのためのスポークンセマンティックパーサーにおけるパイプラインとE2E SLUシステムの統合に関する研究

要約:

– SLUにおける新しいベンチマークタスクの導入が進められている。
– 本論文では、ICASSP Signal Processing Grand Challenge 2023の一部であるSpoken Language Understanding Grand Challengeの品質トラック(Track 1)向けに提案されたスポークンセマンティックパーサーシステムについて説明する。
– このタスクに対して、E2Eおよびパイプラインシステムの両方を実験した。
– Whisperのような強力な自動音声認識(ASR)モデルや、BARTのような事前学習済み言語モデル(LM)をSLUフレームワーク内で使用して性能を向上させた。
– さまざまなモデルの出力レベルの組み合わせを調査し、正確なマッチ精度80.8を達成。これにより、このチャレンジで1位を獲得した。

要約(オリジナル)

Recently there have been efforts to introduce new benchmark tasks for spoken language understanding (SLU), like semantic parsing. In this paper, we describe our proposed spoken semantic parsing system for the quality track (Track 1) in Spoken Language Understanding Grand Challenge which is part of ICASSP Signal Processing Grand Challenge 2023. We experiment with both end-to-end and pipeline systems for this task. Strong automatic speech recognition (ASR) models like Whisper and pretrained Language models (LM) like BART are utilized inside our SLU framework to boost performance. We also investigate the output level combination of various models to get an exact match accuracy of 80.8, which won the 1st place at the challenge.

arxiv情報

著者 Siddhant Arora,Hayato Futami,Shih-Lun Wu,Jessica Huynh,Yifan Peng,Yosuke Kashiwagi,Emiru Tsunoo,Brian Yan,Shinji Watanabe
発行日 2023-05-02 17:25:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク