Knesset-DictaBERT: A Hebrew Language Model for Parliamentary Proceedings

要約

我々は、イスラエルの議会議事録を構成するクネセト コーパスに基づいて微調整された大規模なヘブライ語モデルである Knesset-DictaBERT を紹介します。
このモデルは DictaBERT アーキテクチャに基づいており、MLM タスクに従って議会の言語の理解が大幅に向上していることを示しています。
モデルのパフォーマンスの詳細な評価を提供し、ベースライン DictaBERT モデルと比較して複雑さと精度が向上していることを示します。

要約(オリジナル)

We present Knesset-DictaBERT, a large Hebrew language model fine-tuned on the Knesset Corpus, which comprises Israeli parliamentary proceedings. The model is based on the DictaBERT architecture and demonstrates significant improvements in understanding parliamentary language according to the MLM task. We provide a detailed evaluation of the model’s performance, showing improvements in perplexity and accuracy over the baseline DictaBERT model.

arxiv情報

著者 Gili Goldin,Shuly Wintner
発行日 2024-07-30 06:29:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T50, cs.CL パーマリンク