Taxonomic Loss for Morphological Glossing of Low-Resource Languages

要約

形態素の光沢処理は、自動化された言語文書化において重要なタスクであり、他のダウンストリーム アプリケーションに大きな利益をもたらします。
最先端の光沢システムは、大量の既存データを持つ言語では非常にうまく機能しますが、リソースが少ない言語では有用なモデルを作成するのがより困難です。
この論文では、データが不足している場合に形態学的光沢処理のパフォーマンスを向上させるために、形態学的情報を活用する分類学的損失関数の使用を提案します。
この損失関数を使用しても、単一ラベルの予測精度に関しては標準の損失関数を上回るパフォーマンスはありませんが、上位 n 個の予測ラベルを考慮するとより良い予測が得られることがわかりました。
この特性により、分類学的損失関数が人間参加型のアノテーション設定で有用になることを提案します。

要約(オリジナル)

Morpheme glossing is a critical task in automated language documentation and can benefit other downstream applications greatly. While state-of-the-art glossing systems perform very well for languages with large amounts of existing data, it is more difficult to create useful models for low-resource languages. In this paper, we propose the use of a taxonomic loss function that exploits morphological information to make morphological glossing more performant when data is scarce. We find that while the use of this loss function does not outperform a standard loss function with regards to single-label prediction accuracy, it produces better predictions when considering the top-n predicted labels. We suggest this property makes the taxonomic loss function useful in a human-in-the-loop annotation setting.

arxiv情報

著者 Michael Ginn,Alexis Palmer
発行日 2023-08-29 06:31:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク