End-to-end spoken language understanding using joint CTC loss and self-supervised, pretrained acoustic encoders

要約

タイトル:Joint CTC lossと自己教師あり事前学習音声エンコーダを利用したエンド・トゥ・エンドの音声言語理解

要約:
– 音声言語理解(SLU)では、テキスト情報の欠如により、音声信号から意味を直接抽出することは困難である。
– 一般的には、シーケンス・トゥ・シーケンスの自動音声認識(ASR)モデルを利用してテキストの埋め込みを生成し、その入力を使用して意味を推定するエンド・トゥ・エンド(E2E)SLUモデルが使用されているが、自己回帰的なデコーディングが必要であり、計算コストが高い。
– 本研究では、自己教師あり事前学習音声エンコーダをCTCで微調整し、テキストの埋め込みを抽出し、CTCとSLUの損失を併用して発話単位のSLUタスクを実行する。
– 実験の結果、DSTC2データセットの最新の対話行為分類モデルに比べて4%の絶対的な改善を達成し、SLURPデータセットの最新のSLUモデルに比べて1.3%の絶対的な改善を達成したことが示された。

要約(オリジナル)

It is challenging to extract semantic meanings directly from audio signals in spoken language understanding (SLU), due to the lack of textual information. Popular end-to-end (E2E) SLU models utilize sequence-to-sequence automatic speech recognition (ASR) models to extract textual embeddings as input to infer semantics, which, however, require computationally expensive auto-regressive decoding. In this work, we leverage self-supervised acoustic encoders fine-tuned with Connectionist Temporal Classification (CTC) to extract textual embeddings and use joint CTC and SLU losses for utterance-level SLU tasks. Experiments show that our model achieves 4% absolute improvement over the the state-of-the-art (SOTA) dialogue act classification model on the DSTC2 dataset and 1.3% absolute improvement over the SOTA SLU model on the SLURP dataset.

arxiv情報

著者 Jixuan Wang,Martin Radfar,Kai Wei,Clement Chung
発行日 2023-05-04 15:36:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク