FaBERT: Pre-training BERT on Persian Blogs

要約

FaBERT は、HmBlogs コーパスで事前トレーニングされたペルシア語 BERT ベースのモデルであり、非公式および正式なペルシア語テキストの両方を包含します。
FaBERT は、伝統的な自然言語理解 (NLU) タスクで優れた性能を発揮するように設計されており、ペルシア語で一般的な多様な文構造と言語スタイルの複雑さに対処します。
感情分析 (SA)、固有表現認識 (NER)、自然言語推論 (NLI)、質問応答 (QA)、質問言い換え (QP) を含む、さまざまな下流タスクにおける 12 のデータセットに対する FaBERT の包括的な評価では、一貫して
パフォーマンスの向上を実証し、すべてをコンパクトなモデル サイズ内で実現しました。
この調査結果は、ペルシア語自然言語処理 (NLP) アプリケーションにおける BERT などの言語モデルのパフォーマンスを向上させるために、HmBlog などの多様でクリーンなコーパスを利用することの重要性を強調しています。
FaBERT は https://huggingface.co/sbunlp/fabert からオープンにアクセスできます

要約(オリジナル)

We introduce FaBERT, a Persian BERT-base model pre-trained on the HmBlogs corpus, encompassing both informal and formal Persian texts. FaBERT is designed to excel in traditional Natural Language Understanding (NLU) tasks, addressing the intricacies of diverse sentence structures and linguistic styles prevalent in the Persian language. In our comprehensive evaluation of FaBERT on 12 datasets in various downstream tasks, encompassing Sentiment Analysis (SA), Named Entity Recognition (NER), Natural Language Inference (NLI), Question Answering (QA), and Question Paraphrasing (QP), it consistently demonstrated improved performance, all achieved within a compact model size. The findings highlight the importance of utilizing diverse and cleaned corpora, such as HmBlogs, to enhance the performance of language models like BERT in Persian Natural Language Processing (NLP) applications. FaBERT is openly accessible at https://huggingface.co/sbunlp/fabert

arxiv情報

著者 Mostafa Masumi,Seyed Soroush Majd,Mehrnoush Shamsfard,Hamid Beigy
発行日 2024-02-09 18:50:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク