要約
最近の固有表現認識 (NER) の進歩により、テキスト分類機能が大幅に強化されました。
この論文は、音声ドキュメントの検索を明確に目的とした音声 NER に焦点を当てていますが、音声コンテキストの包括的なデータセットが不足しているため、この領域は広く研究されていません。
さらに、リソースが少ない状況での言語間転移学習の可能性については、さらに調査する価値があります。
私たちの研究では、パイプラインとエンドツーエンド (E2E) アプローチの両方を使用して、オランダ語、英語、ドイツ語に転移学習テクニックを適用しました。
言語を越えたシステムの適応性を評価するために、カスタムの擬似アノテーション付きデータセットに Wav2Vec2 XLS-R モデルを採用しました。
さまざまなアーキテクチャ構成の調査により、音声 NER でのこれらのシステムの堅牢性が評価されました。
結果は、特にアノテーション リソースが限られている場合、E2E モデルがパイプライン モデルよりも優れていることを示しました。
さらに、ドイツ語からオランダ語への転移学習により、スタンドアロンのオランダの E2E システムと比較して 7%、オランダのパイプライン モデルと比較して 4% パフォーマンスが向上しました。
私たちの調査結果は、話し言葉 NER における言語間の伝達の有効性を強調し、これらのシステムを改善するために追加のデータ収集の必要性を強調しています。
要約(オリジナル)
Recent Named Entity Recognition (NER) advancements have significantly enhanced text classification capabilities. This paper focuses on spoken NER, aimed explicitly at spoken document retrieval, an area not widely studied due to the lack of comprehensive datasets for spoken contexts. Additionally, the potential for cross-lingual transfer learning in low-resource situations deserves further investigation. In our study, we applied transfer learning techniques across Dutch, English, and German using both pipeline and End-to-End (E2E) approaches. We employed Wav2Vec2 XLS-R models on custom pseudo-annotated datasets to evaluate the adaptability of cross-lingual systems. Our exploration of different architectural configurations assessed the robustness of these systems in spoken NER. Results showed that the E2E model was superior to the pipeline model, particularly with limited annotation resources. Furthermore, transfer learning from German to Dutch improved performance by 7% over the standalone Dutch E2E system and 4% over the Dutch pipeline model. Our findings highlight the effectiveness of cross-lingual transfer in spoken NER and emphasize the need for additional data collection to improve these systems.
arxiv情報
著者 | Moncef Benaicha,David Thulke,M. A. Tuğtekin Turan |
発行日 | 2024-09-11 12:33:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google