Creating Spoken Dialog Systems in Ultra-Low Resourced Settings

要約

自動音声認識 (ASR) システムは、現在さまざまなアプリケーション、特に Alexa などのスマート アシスタントの設計に使用されている重要なテクノロジです。
ASR システムは本質的に、音声言語理解 (SLU) を使用して音声から意味のある情報を抽出する対話システムです。
このようなシステムを設計する際の主な課題は、競争力を発揮するためにラベル付けされたクリーンなデータが大量に必要であることです。そのようなデータを収集してそれぞれの SLU タスクに注釈を付けるのは非常に困難であり、さらに、リソースが少ない言語用にそのようなシステムを設計する場合、データは
非常に限定されている場合、問題の深刻度はさらに高まります。
このペーパーでは、かなり一般的な SLU タスク、つまり、リソースの少ない言語、つまりフラマン語を使用した場合のインテント分類に焦点を当てます。
意図の分類は、システムと対話するユーザーの意図を理解することに関係するタスクです。
私たちは、フランダー語での意図分類のための既存のライト モデルを構築しています。私たちの主な貢献は、音声レベルと音声トランスクリプト レベルの 2 つのレベルで異なる拡張技術を既存のモデルに適用して、フラマン語でのラベル付きデータが不足している問題に対処することです。
リソースの少ない言語。
データ拡張技術により、両方のレベルで多くのタスクにおけるモデルのパフォーマンスが向上したことがわかりました。

要約(オリジナル)

Automatic Speech Recognition (ASR) systems are a crucial technology that is used today to design a wide variety of applications, most notably, smart assistants, such as Alexa. ASR systems are essentially dialogue systems that employ Spoken Language Understanding (SLU) to extract meaningful information from speech. The main challenge with designing such systems is that they require a huge amount of labeled clean data to perform competitively, such data is extremely hard to collect and annotate to respective SLU tasks, furthermore, when designing such systems for low resource languages, where data is extremely limited, the severity of the problem intensifies. In this paper, we focus on a fairly popular SLU task, that is, Intent Classification while working with a low resource language, namely, Flemish. Intent Classification is a task concerned with understanding the intents of the user interacting with the system. We build on existing light models for intent classification in Flemish, and our main contribution is applying different augmentation techniques on two levels — the voice level, and the phonetic transcripts level — to the existing models to counter the problem of scarce labeled data in low-resource languages. We find that our data augmentation techniques, on both levels, have improved the model performance on a number of tasks.

arxiv情報

著者 Moayad Elamin,Muhammad Omer,Yonas Chanie,Henslaac Ndlovu
発行日 2023-12-11 10:04:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, eess.AS パーマリンク