Multilingual acoustic word embeddings for zero-resource languages

要約

この研究は、ラベル付きデータのないゼロリソース言語向けの音声アプリケーションを開発するという課題に取り組みます。
具体的には、音響単語埋め込み (AWE) (可変長音声セグメントの固定次元表現) を使用し、多言語転送を採用しており、リソースの豊富ないくつかの言語からのラベル付きデータが関連付けに使用されます。
この研究では、ゼロリソース言語で既存の AWE モデルよりも優れたパフォーマンスを発揮する新しいニューラル ネットワークが導入されています。
豊富なリソースを備えた言語の選択の影響を調査します。
AWE は、スワヒリ語ラジオ放送におけるヘイトスピーチ検出のためのキーワード スポッティング システムに適用され、現実世界のシナリオにおける堅牢性を実証しています。
さらに、新しいセマンティック AWE モデルにより、セマンティック クエリバイ サンプル検索が向上します。

要約(オリジナル)

This research addresses the challenge of developing speech applications for zero-resource languages that lack labelled data. It specifically uses acoustic word embedding (AWE) — fixed-dimensional representations of variable-duration speech segments — employing multilingual transfer, where labelled data from several well-resourced languages are used for pertaining. The study introduces a new neural network that outperforms existing AWE models on zero-resource languages. It explores the impact of the choice of well-resourced languages. AWEs are applied to a keyword-spotting system for hate speech detection in Swahili radio broadcasts, demonstrating robustness in real-world scenarios. Additionally, novel semantic AWE models improve semantic query-by-example search.

arxiv情報

著者 Christiaan Jacobs
発行日 2024-01-23 14:46:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク