Effectiveness of Text, Acoustic, and Lattice-based representations in Spoken Language Understanding tasks

要約

このホワイト ペーパーでは、音声言語理解 (SLU) セットアップにおける意図分類の問題に対処するために、さまざまな表現の徹底的な評価を実行します。
SLU インテント検出タスクを実行するために、1) テキスト ベース、2) ラティス ベース、および新しい 3) マルチモーダル アプローチの 3 種類のシステムのベンチマークを行います。
私たちの仕事は、さまざまな状況下でのさまざまな最先端の SLU システムの達成可能なパフォーマンスについての包括的な分析を提供します。たとえば、自動生成と手動生成のトランスクリプトです。
公開されている SLURP 音声言語リソース コーパスでシステムを評価します。
私たちの結果は、より豊富な形式の自動音声認識 (ASR) 出力、つまり単語コンセンサス ネットワークを使用すると、SLU システムが 1 ベスト セットアップと比較して改善されることを示しています (5.5% の相対的改善)。
ただし、クロスモーダル アプローチ、つまり、音響およびテキストの埋め込みから学習すると、オラクルのセットアップと同様のパフォーマンスが得られます。これは、1-best 構成よりも 17.8% の相対的な改善であり、自動生成されたトランスクリプトを使用する際の制限を克服するための推奨される代替手段です。

要約(オリジナル)

In this paper, we perform an exhaustive evaluation of different representations to address the intent classification problem in a Spoken Language Understanding (SLU) setup. We benchmark three types of systems to perform the SLU intent detection task: 1) text-based, 2) lattice-based, and a novel 3) multimodal approach. Our work provides a comprehensive analysis of what could be the achievable performance of different state-of-the-art SLU systems under different circumstances, e.g., automatically- vs. manually-generated transcripts. We evaluate the systems on the publicly available SLURP spoken language resource corpus. Our results indicate that using richer forms of Automatic Speech Recognition (ASR) outputs, namely word-consensus-networks, allows the SLU system to improve in comparison to the 1-best setup (5.5% relative improvement). However, crossmodal approaches, i.e., learning from acoustic and text embeddings, obtains performance similar to the oracle setup, a relative improvement of 17.8% over the 1-best configuration, being a recommended alternative to overcome the limitations of working with automatically generated transcripts.

arxiv情報

著者 Esaú Villatoro-Tello,Srikanth Madikeri,Juan Zuluaga-Gomez,Bidisha Sharma,Seyyed Saeed Sarfjoo,Iuliia Nigmatulina,Petr Motlicek,Alexei V. Ivanov,Aravind Ganapathiraju
発行日 2023-03-17 13:26:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS, I.2.7 パーマリンク