Allophant: Cross-lingual Phoneme Recognition with Articulatory Attributes

要約

この論文では、多言語音素認識装置 Allophant を提案します。
ターゲット言語への言語間転送には音素インベントリのみが必要で、低リソースの認識が可能です。
このアーキテクチャは、構成的な音の埋め込みアプローチと、マルチタスク アーキテクチャで個別に監視される音声属性分類器を組み合わせています。
また、PHOIBLE データベースの拡張機能である Allophoible も紹介します。
書記素から音素への出力に対する距離ベースのマッピング手法と組み合わせると、PHOIBLE インベントリで直接トレーニングできるようになります。
34 の言語でトレーニングと評価を行った結果、マルチタスク学習を追加すると、目に見えない音素や音素インベントリに適用するモデルの能力が向上することがわかりました。
教師あり言語では、マルチタスク学習なしのベースラインと比較して、音素エラー率が 11 パーセント ポイント (pp.) 改善されました。
84 言語でのゼロショット転送の評価では、ベースラインと比較して PER が 2.63 pp. 減少しました。

要約(オリジナル)

This paper proposes Allophant, a multilingual phoneme recognizer. It requires only a phoneme inventory for cross-lingual transfer to a target language, allowing for low-resource recognition. The architecture combines a compositional phone embedding approach with individually supervised phonetic attribute classifiers in a multi-task architecture. We also introduce Allophoible, an extension of the PHOIBLE database. When combined with a distance based mapping approach for grapheme-to-phoneme outputs, it allows us to train on PHOIBLE inventories directly. By training and evaluating on 34 languages, we found that the addition of multi-task learning improves the model’s capability of being applied to unseen phonemes and phoneme inventories. On supervised languages we achieve phoneme error rate improvements of 11 percentage points (pp.) compared to a baseline without multi-task learning. Evaluation of zero-shot transfer on 84 languages yielded a decrease in PER of 2.63 pp. over the baseline.

arxiv情報

著者 Kevin Glocker,Aaricia Herygers,Munir Georges
発行日 2023-08-16 17:44:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS, I.2.7 パーマリンク