要約
チャート画像からテーブルのヘッダーと値を自動的に識別する需要が高まっているため、視覚的なチャート認識システムへの注目が高まっています。
現在の方法は、キーポイント検出に依存してチャート内のデータ要素の形状を推定しますが、後処理でのグループ化エラーが発生します。
この問題に対処するために、私たちは、規則的な形状の隅にあるキーポイントを特定して単一のチャート イメージ内の複数のデータ要素を再構築する、トランスフォーマー ベースのマルチ形状検出器である ChartDETR を提案します。
私たちの方法では、セット予測にクエリ グループを導入することですべてのデータ要素の形状を一度に予測し、さらなる後処理の必要性を排除します。
このプロパティにより、ChartDETR は、ネットワーク アーキテクチャを変更せずにさまざまな種類のチャートを表現できる統合フレームワークとして機能し、さまざまな形状のデータ要素を効果的に検出できるようになります。
私たちは 3 つのデータセットで ChartDETR を評価し、追加の機能拡張を行わなくても、すべてのチャート タイプで競争力のある結果を達成しました。
たとえば、ChartDETR は Adobe Synthetic で 0.98 の F1 スコアを達成し、以前の最高のモデルである 0.71 F1 スコアを大幅に上回りました。
さらに、ExcelChart400k で 0.97 という新しい最先端の結果が得られました。
コードは公開されます。
要約(オリジナル)
Visual chart recognition systems are gaining increasing attention due to the growing demand for automatically identifying table headers and values from chart images. Current methods rely on keypoint detection to estimate data element shapes in charts but suffer from grouping errors in post-processing. To address this issue, we propose ChartDETR, a transformer-based multi-shape detector that localizes keypoints at the corners of regular shapes to reconstruct multiple data elements in a single chart image. Our method predicts all data element shapes at once by introducing query groups in set prediction, eliminating the need for further postprocessing. This property allows ChartDETR to serve as a unified framework capable of representing various chart types without altering the network architecture, effectively detecting data elements of diverse shapes. We evaluated ChartDETR on three datasets, achieving competitive results across all chart types without any additional enhancements. For example, ChartDETR achieved an F1 score of 0.98 on Adobe Synthetic, significantly outperforming the previous best model with a 0.71 F1 score. Additionally, we obtained a new state-of-the-art result of 0.97 on ExcelChart400k. The code will be made publicly available.
arxiv情報
著者 | Wenyuan Xue,Dapeng Chen,Baosheng Yu,Yifei Chen,Sai Zhou,Wei Peng |
発行日 | 2023-08-15 12:50:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google