Weakly-supervised Deep Cognate Detection Framework for Low-Resourced Languages Using Morphological Knowledge of Closely-Related Languages

要約

リソースが不足している言語での転移学習に同族体を活用することは、教師なし機械翻訳、固有表現認識、情報検索などの言語理解タスクにとって刺激的な機会となります。
これまでのアプローチは主に、正書法、音声、または最先端の文脈言語モデルに基づく教師付き同族検出タスクに焦点を当てていましたが、リソースが不足しているほとんどの言語ではパフォーマンスが不十分でした。
この論文は、密接に関連した言語からの形態学的知識を使用して、リソースが不足している言語のための、言語に依存しない新しい弱い教師付きの深い同族検出フレームワークを提案します。
言語の形態学的知識を取得し、その知識を伝達して、密接に関連する言語のピボット言語の有無にかかわらず、教師なしおよび弱い教師による同族検出タスクを実行するようにエンコーダーをトレーニングします。
教師なしではありますが、同族の手作業による注釈の必要性を克服します。
私たちは、言語族全体で公開されているさまざまな同族検出データセットに対して実験を実行し、最先端の方法と比較して大幅な改善が見られただけでなく、私たちの方法が最先端の教師ありおよび教師なしの方法よりも優れていることを確認しました。
私たちのモデルは、トレーニングのための同族ペアの注釈の要件を克服するため、あらゆる言語族の幅広い言語に拡張できます。
コードとデータセットの構築スクリプトは、https://github.com/koustavagoswami/Weakly_supervised-Cognate_Detection にあります。

要約(オリジナル)

Exploiting cognates for transfer learning in under-resourced languages is an exciting opportunity for language understanding tasks, including unsupervised machine translation, named entity recognition and information retrieval. Previous approaches mainly focused on supervised cognate detection tasks based on orthographic, phonetic or state-of-the-art contextual language models, which under-perform for most under-resourced languages. This paper proposes a novel language-agnostic weakly-supervised deep cognate detection framework for under-resourced languages using morphological knowledge from closely related languages. We train an encoder to gain morphological knowledge of a language and transfer the knowledge to perform unsupervised and weakly-supervised cognate detection tasks with and without the pivot language for the closely-related languages. While unsupervised, it overcomes the need for hand-crafted annotation of cognates. We performed experiments on different published cognate detection datasets across language families and observed not only significant improvement over the state-of-the-art but also our method outperformed the state-of-the-art supervised and unsupervised methods. Our model can be extended to a wide range of languages from any language family as it overcomes the requirement of the annotation of the cognate pairs for training. The code and dataset building scripts can be found at https://github.com/koustavagoswami/Weakly_supervised-Cognate_Detection

arxiv情報

著者 Koustava Goswami,Priya Rani,Theodorus Fransen,John P. McCrae
発行日 2023-11-09 05:46:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク