Hierarchical Softmax for End-to-End Low-resource Multilingual Speech Recognition


タイトル: 「階層的ソフトマックスを用いたエンドツーエンドでの低資源多言語音声認識」

– 資本が不十分である場合、言語認識の精度が低下することがある
– この論文は、近隣言語を活用する手法を提案します
– 近隣言語には似た文法規則が共有されているため、仮説に基づいて、近隣言語の類似した単語の出現頻度の分布を比較し、階層的ソフトマックスを利用して言語知識を融合することができます。
– この階層構造により、類似したトークン間でクロスリングルな知識共有が可能になります。
– 実験分析により、本手法が低資源音声認識の精度と効率を向上させることができることが示されています。


Low-resource speech recognition has been long-suffering from insufficient training data. In this paper, we propose an approach that leverages neighboring languages to improve low-resource scenario performance, founded on the hypothesis that similar linguistic units in neighboring languages exhibit comparable term frequency distributions, which enables us to construct a Huffman tree for performing multilingual hierarchical Softmax decoding. This hierarchical structure enables cross-lingual knowledge sharing among similar tokens, thereby enhancing low-resource training outcomes. Empirical analyses demonstrate that our method is effective in improving the accuracy and efficiency of low-resource speech recognition.


著者 Qianying Liu,Zhuo Gong,Zhengdong Yang,Yuhang Yang,Sheng Li,Chenchen Ding,Nobuaki Minematsu,Hao Huang,Fei Cheng,Chenhui Chu,Sadao Kurohashi
発行日 2023-04-30 08:09:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, eess.AS パーマリンク