要約
最新のディープラーニングモデルは、多くの場合、全体的なパフォーマンスが高いことが多くなりますが、特定のサブグループでは一貫して失敗します。
グループ分布堅牢な最適化(グループDRO)は、最悪のグループの損失を最小限に抑えることによりこの問題に対処しますが、グループ損失がグループ間のパフォーマンスの違いを誤って伝えた場合に失敗します。
これは、広く使用されているコネクショニストの時間的分類(CTC)損失スケールが入力長で、言語的および音響特性によって変化し、グループ損失間の違法な違いをもたらす音声などのドメインで一般的です。
CTC-DROを提示します。これは、グループの重量アップデートを滑らかにして一貫して高い損失グループの過度の強調を防ぎながら、CTCのスケーリングの問題を軽減するために一貫して高い損失グループの過度の強調を防ぐことにより、グループDRO目的の欠点に対処します。
ML-Superb 2.0ベンチマークから5つの言語セットにわたって、多言語自動音声認識(ASR)のタスクについてCTC-Droを評価します。
CTC-DROは、グループDROおよびCTCベースのベースラインモデルを一貫して上回り、最悪の言語エラーを最大47.1%、平均エラーを最大32.9%減少させます。
CTC-DROは、最小限の計算コストでASRに適用でき、同様の課題を持つ他のドメインのグループ格差を減らす可能性を提供します。
要約(オリジナル)
Modern deep learning models often achieve high overall performance, but consistently fail on specific subgroups. Group distributionally robust optimization (group DRO) addresses this problem by minimizing the worst-group loss, but it fails when group losses misrepresent performance differences between groups. This is common in domains like speech, where the widely used connectionist temporal classification (CTC) loss scales with input length and varies with linguistic and acoustic properties, leading to spurious differences between group losses. We present CTC-DRO, which addresses the shortcomings of the group DRO objective by smoothing the group weight update to prevent overemphasis on consistently high-loss groups, while using input length-matched batching to mitigate CTC’s scaling issues. We evaluate CTC-DRO on the task of multilingual automatic speech recognition (ASR) across five language sets from the ML-SUPERB 2.0 benchmark. CTC-DRO consistently outperforms group DRO and CTC-based baseline models, reducing the worst-language error by up to 47.1% and the average error by up to 32.9%. CTC-DRO can be applied to ASR with minimal computational costs, and offers the potential for reducing group disparities in other domains with similar challenges.
arxiv情報
著者 | Martijn Bartelds,Ananjan Nandi,Moussa Koulako Bala Doumbouya,Dan Jurafsky,Tatsunori Hashimoto,Karen Livescu |
発行日 | 2025-03-05 17:25:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google