Scaling BERT Models for Turkish Automatic Punctuation and Capitalization Correction

要約

本論文では、トルコ語のテキストにおける句読点と大文字の自動修正のための BERT ベースのモデルの有効性を、5 つの異なるモデルサイズで調査する。これらのモデルは、タイニー、ミニ、スモール、ミディアム、ベースと呼ばれる。各モデルの設計と機能は、トルコ語特有の課題に対応するよう調整されており、計算オーバーヘッドを最小限に抑えながらパフォーマンスを最適化することに重点を置いている。本研究では、各モデルのパフォーマンス指標である精度、再現率、F1スコアの体系的な比較を行い、多様な運用コンテキストにおける各モデルの適用可能性についての洞察を提供する。その結果、モデルのサイズが大きくなるにつれて、テキストの可読性と精度が大幅に向上することが示され、Baseモデルが最も高い補正精度を達成している。本研究は、特定のユーザーニーズと計算リソースに基づいて適切なモデルサイズを選択するための包括的なガイドを提供し、トルコ語の品質を向上させるためにこれらのモデルを実世界のアプリケーションに展開するためのフレームワークを確立する。

要約(オリジナル)

This paper investigates the effectiveness of BERT based models for automated punctuation and capitalization corrections in Turkish texts across five distinct model sizes. The models are designated as Tiny, Mini, Small, Medium, and Base. The design and capabilities of each model are tailored to address the specific challenges of the Turkish language, with a focus on optimizing performance while minimizing computational overhead. The study presents a systematic comparison of the performance metrics precision, recall, and F1 score of each model, offering insights into their applicability in diverse operational contexts. The results demonstrate a significant improvement in text readability and accuracy as model size increases, with the Base model achieving the highest correction precision. This research provides a comprehensive guide for selecting the appropriate model size based on specific user needs and computational resources, establishing a framework for deploying these models in real-world applications to enhance the quality of written Turkish.

arxiv情報

著者 Abdulkader Saoud,Mahmut Alomeyr,Himmet Toprak Kesgin,Mehmet Fatih Amasyali
発行日 2024-12-03 18:59:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク