要約
構造学習は高リソース言語では顕著なパフォーマンスを達成しますが、過小評価されている言語では注釈付きデータが不足しているため状況が異なります。
この研究は、8,000 万人が話すジャワ語の依存関係解析を強化する転移学習の有効性を評価することに焦点を当てています。ジャワ語は 8,000 万人が話している言語ですが、自然言語処理における表現が限られていることが特徴です。
私たちは、ジャワ語を含む 100 以上の言語の依存関係ツリーバンクで構成される Universal dependency データセットを利用しました。
モデルをトレーニングするための 2 つの学習戦略、転移学習 (TL) と階層転移学習 (HTL) を提案します。
TL ではモデルの事前トレーニングにソース言語のみが使用されますが、HTL メソッドでは学習プロセスでソース言語と中間言語が使用されます。
結果は、私たちの最良のモデルが HTL メソッドを使用していることを示しています。これにより、ベースライン モデルと比較して、UAS と LAS の両方の評価で 10% 向上してパフォーマンスが向上します。
要約(オリジナル)
While structure learning achieves remarkable performance in high-resource languages, the situation differs for under-represented languages due to the scarcity of annotated data. This study focuses on assessing the efficacy of transfer learning in enhancing dependency parsing for Javanese, a language spoken by 80 million individuals but characterized by limited representation in natural language processing. We utilized the Universal Dependencies dataset consisting of dependency treebanks from more than 100 languages, including Javanese. We propose two learning strategies to train the model: transfer learning (TL) and hierarchical transfer learning (HTL). While TL only uses a source language to pre-train the model, the HTL method uses a source language and an intermediate language in the learning process. The results show that our best model uses the HTL method, which improves performance with an increase of 10% for both UAS and LAS evaluations compared to the baseline model.
arxiv情報
| 著者 | Fadli Aulawi Al Ghiffari,Ika Alfina,Kurniawati Azizah | 
| 発行日 | 2024-01-22 16:13:45+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
