WeLayout: WeChat Layout Analysis System for the ICDAR 2023 Competition on Robust Layout Segmentation in Corporate Documents

要約

タイトル:WeLayout:ICDAR 2023競技会のためのWeChatレイアウト解析システム
要約:
– WeLayoutは、企業文書のレイアウトをセグメンテーションする革新的なシステム
– DINOとYOLOモデルの多様なアンサンブルを使用して、ICDAR 2023競技会のために開発された
– データセットの増強、モデルアーキテクチャ、バウンディングボックスの改良、モデルアンサンブル技術など、複数のタスクの改良に注力して、ベースラインを大幅に上回り、70.0のmAPを収集してトップのリーダーボードの位置を確保した
– 各ドキュメントカテゴリに対してデータを別々にトレーニングして、高い平均提出スコアを確保するためのアプローチを採用した
– セルマッチングアルゴリズムを開発して、パフォーマンスをさらに向上させた
– モデルアンサンブルの最適な重みとIoU閾値を特定するために、ツリー構造パーゼン推定器と呼ばれるベイズ最適化アルゴリズムを使用した
– クエリベースとアンカーフリーモデルを組み合わせることの利点を実証する、企業文書の堅牢なレイアウトセグメンテーションを達成する手法を提供する

要約(オリジナル)

In this paper, we introduce WeLayout, a novel system for segmenting the layout of corporate documents, which stands for WeChat Layout Analysis System. Our approach utilizes a sophisticated ensemble of DINO and YOLO models, specifically developed for the ICDAR 2023 Competition on Robust Layout Segmentation. Our method significantly surpasses the baseline, securing a top position on the leaderboard with a mAP of 70.0. To achieve this performance, we concentrated on enhancing various aspects of the task, such as dataset augmentation, model architecture, bounding box refinement, and model ensemble techniques. Additionally, we trained the data separately for each document category to ensure a higher mean submission score. We also developed an algorithm for cell matching to further improve our performance. To identify the optimal weights and IoU thresholds for our model ensemble, we employed a Bayesian optimization algorithm called the Tree-Structured Parzen Estimator. Our approach effectively demonstrates the benefits of combining query-based and anchor-free models for achieving robust layout segmentation in corporate documents.

arxiv情報

著者 Mingliang Zhang,Zhen Cao,Juntao Liu,Liqiang Niu,Fandong Meng,Jie Zhou
発行日 2023-05-11 04:05:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク