DictaBERT: A State-of-the-Art BERT Suite for Modern Hebrew

要約

私たちは、ほとんどのベンチマークで既存のモデルを上回る、現代ヘブライ語用の新しい最先端の事前トレーニング済み BERT モデルである DictaBERT を紹介します。
さらに、ヘブライ語テキストの分析における 2 つの特定の基本タスク (接頭辞のセグメンテーションと形態素タグ付け) を実行するように設計された、モデルの 2 つの微調整バージョンをリリースします。
これらの微調整されたモデルを使用すると、開発者は追加のライブラリやコードを統合することなく、HuggingFace モデルへの 1 回の呼び出しでヘブライ語文の接頭辞のセグメンテーションと形態学的タグ付けを実行できます。
このペーパーでは、トレーニングの詳細とさまざまなベンチマークの結果についても説明します。
モデルを、その使用法を示すサンプル コードとともにコミュニティにリリースします。
私たちは、ヘブライ語 NLP のさらなる研究開発を支援するという目標の一環として、これらのモデルをリリースします。

要約(オリジナル)

We present DictaBERT, a new state-of-the-art pre-trained BERT model for modern Hebrew, outperforming existing models on most benchmarks. Additionally, we release two fine-tuned versions of the model, designed to perform two specific foundational tasks in the analysis of Hebrew texts: prefix segmentation and morphological tagging. These fine-tuned models allow any developer to perform prefix segmentation and morphological tagging of a Hebrew sentence with a single call to a HuggingFace model, without the need to integrate any additional libraries or code. In this paper we describe the details of the training as well and the results on the different benchmarks. We release the models to the community, along with sample code demonstrating their use. We release these models as part of our goal to help further research and development in Hebrew NLP.

arxiv情報

著者 Shaltiel Shmidman,Avi Shmidman,Moshe Koppel
発行日 2023-08-31 12:43:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク