Unsupervised Out-of-Distribution Dialect Detection with Mahalanobis Distance

要約

方言分類は、システム全体のパフォーマンスを向上させるために、機械翻訳や音声認識などのさまざまなアプリケーションで使用されます。
現実のシナリオでは、展開された方言分類モデルは、トレーニング データの分布とは異なる異常な入力 (分布外 (OOD) サンプルとも呼ばれます) に遭遇する可能性があります。
これらの OOD サンプルは、モデルのトレーニング中にそのサンプルの方言が認識されないため、予期しない出力につながる可能性があります。
分布外検出は、方言分類の文脈ではほとんど注目されていない新しい研究分野です。
これに向けて、分布外のサンプルを検出するための、シンプルかつ効果的な教師なしマハラノビス距離特徴ベースの方法を提案しました。
マルチタスク学習には、wav2vec 2.0 トランスフォーマーベースの方言分類子モデルのすべての中間層からの潜在的な埋め込みを利用します。
私たちが提案したアプローチは、他の最先端の OOD 検出方法よりも大幅に優れています。

要約(オリジナル)

Dialect classification is used in a variety of applications, such as machine translation and speech recognition, to improve the overall performance of the system. In a real-world scenario, a deployed dialect classification model can encounter anomalous inputs that differ from the training data distribution, also called out-of-distribution (OOD) samples. Those OOD samples can lead to unexpected outputs, as dialects of those samples are unseen during model training. Out-of-distribution detection is a new research area that has received little attention in the context of dialect classification. Towards this, we proposed a simple yet effective unsupervised Mahalanobis distance feature-based method to detect out-of-distribution samples. We utilize the latent embeddings from all intermediate layers of a wav2vec 2.0 transformer-based dialect classifier model for multi-task learning. Our proposed approach outperforms other state-of-the-art OOD detection methods significantly.

arxiv情報

著者 Sourya Dipta Das,Yash Vadi,Abhishek Unnam,Kuldeep Yadav
発行日 2023-08-09 11:33:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.SD, eess.AS パーマリンク