要約
この研究論文では、バングラ文書のレイアウトをセグメント化する目的で設計された新しいアプローチを紹介します。
私たちの方法論には、バングラ語のドキュメント レイアウト セグメンテーションに焦点を当てた DL Sprint 2.0 – BUET CSE Fest 2023 コンペティション用にトレーニングされた YOLOv8 モデルの洗練されたアンサンブルの利用が含まれます。
私たちが主に重点を置いているのは、画像拡張、モデル アーキテクチャ、モデル アンサンブルの組み込みなどの手法を含む、タスクのさまざまな側面を強化することです。
文書画像のサブセットの品質を意図的に下げてモデルトレーニングの回復力を強化し、その結果相互検証スコアが向上しました。
ベイズ最適化を採用することで、モデル アンサンブルの最適な信頼度と和集合 (IoU) のしきい値を決定します。
私たちのアプローチを通じて、バングラ文書で堅牢なレイアウト セグメンテーションを実現する際のアンカーフリー モデルの有効性を実証することに成功しました。
要約(オリジナル)
In this research paper, we introduce a novel approach designed for the purpose of segmenting the layout of Bangla documents. Our methodology involves the utilization of a sophisticated ensemble of YOLOv8 models, which were trained for the DL Sprint 2.0 – BUET CSE Fest 2023 Competition focused on Bangla document layout segmentation. Our primary emphasis lies in enhancing various aspects of the task, including techniques such as image augmentation, model architecture, and the incorporation of model ensembles. We deliberately reduce the quality of a subset of document images to enhance the resilience of model training, thereby resulting in an improvement in our cross-validation score. By employing Bayesian optimization, we determine the optimal confidence and Intersection over Union (IoU) thresholds for our model ensemble. Through our approach, we successfully demonstrate the effectiveness of anchor-free models in achieving robust layout segmentation in Bangla documents.
arxiv情報
著者 | U Mong Sain Chak,Md. Asib Rahman |
発行日 | 2023-08-29 11:46:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google