Exploring the Use of Foundation Models for Named Entity Recognition and Lemmatization Tasks in Slavic Languages

要約

タイトル:スラブ諸語における固有表現認識と語形変化処理のためのファンデーションモデルの利用の探求

要約:本論文は、スラブNERに関する4番目の共有タスクに対するアダム・ミツキエヴィチ大学(AMU)の解決策を説明しています。このタスクは、スラブ諸語における固有名詞の識別、分類、および語形変化処理を行うものです。我々のアプローチは、これらのタスクにファンデーションモデルを利用することを探究することでした。具体的には、人気のあるBERTおよびT5モデルアーキテクチャに基づくモデルを使用しました。さらに、外部データセットを使用して、モデルの品質をさらに向上させました。我々の解決策は、両方のタスクで高いメトリックス得点を獲得し、有望な結果を得ました。我々は、我々のアプローチおよび実験の結果を詳細に説明し、この方法がスラブ諸語における固有表現認識と語形変化処理に効果的であることを示しています。また、当社の語形変化処理のモデルは、https://huggingface.co/amu-caiで利用可能になります。

要点:

– 本論文は、スラブ諸語における固有表現認識と語形変化処理にファンデーションモデルを使用する方法を探究している。
– BERTおよびT5モデルアーキテクチャに基づくモデルを使用し、外部データセットを利用してモデルの品質を向上させた。
– 我々のアプローチは、共有タスクにおいて高いメトリックス得点を獲得し、有望な結果を得た。
– 本研究の結果は、スラブ諸語における固有表現認識と語形変化処理において、ファンデーションモデルが有効であることを示している。
– 語形変化処理のモデルは、https://huggingface.co/amu-caiで利用可能である。

要約(オリジナル)

This paper describes Adam Mickiewicz University’s (AMU) solution for the 4th Shared Task on SlavNER. The task involves the identification, categorization, and lemmatization of named entities in Slavic languages. Our approach involved exploring the use of foundation models for these tasks. In particular, we used models based on the popular BERT and T5 model architectures. Additionally, we used external datasets to further improve the quality of our models. Our solution obtained promising results, achieving high metrics scores in both tasks. We describe our approach and the results of our experiments in detail, showing that the method is effective for NER and lemmatization in Slavic languages. Additionally, our models for lemmatization will be available at: https://huggingface.co/amu-cai.

arxiv情報

著者 Gabriela Pałka,Artur Nowakowski
発行日 2023-04-11 16:55:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク