TartuNLP @ SIGTYP 2024 Shared Task: Adapting XLM-RoBERTa for Ancient and Historical Languages

要約

私たちは、形態学的注釈、POS タグ付け、見出し語化、文字レベルおよび単語レベルのギャップ埋めのための、古代および歴史的言語の単語埋め込み評価に関する SIGTYP 2024 共有タスクの制約のないサブタスクへの提出物を提示します。
私たちは、パラメーター効率の高い微調整を使用したアダプター フレームワークに基づいて、シンプルで均一、計算量が軽いアプローチを開発しました。
スタックされた言語およびタスク固有のアダプターを微調整することで、同じアダプターベースのアプローチをすべてのタスクと 16 の言語に均一に適用しました。
私たちの提出物は、3 件の提出物のうち全体で 2 位を獲得し、単語レベルの穴埋めで 1 位を獲得しました。
私たちの結果は、現代言語で事前トレーニングされた言語モデルを、アダプター トレーニングを通じて歴史言語および古代言語に適応させる実現可能性を示しています。

要約(オリジナル)

We present our submission to the unconstrained subtask of the SIGTYP 2024 Shared Task on Word Embedding Evaluation for Ancient and Historical Languages for morphological annotation, POS-tagging, lemmatization, character- and word-level gap-filling. We developed a simple, uniform, and computationally lightweight approach based on the adapters framework using parameter-efficient fine-tuning. We applied the same adapter-based approach uniformly to all tasks and 16 languages by fine-tuning stacked language- and task-specific adapters. Our submission obtained an overall second place out of three submissions, with the first place in word-level gap-filling. Our results show the feasibility of adapting language models pre-trained on modern languages to historical and ancient languages via adapter training.

arxiv情報

著者 Aleksei Dorkin,Kairit Sirts
発行日 2024-04-19 12:26:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク