OrionBench: A Benchmark for Chart and Human-Recognizable Object Detection in Infographics

要約

科学、ビジネス、およびコミュニケーションのコンテキストにおけるチャートの中心的な役割を考えると、視覚言語モデル(VLM)のチャート理解能力を高めることがますます重要になっています。
既存のVLMの重要な制限は、アイコンや画像などのチャートや人間認識可能なオブジェクト(HRO)を含むインフォグラフィック要素の不正確な視覚的接地にあります。
ただし、チャートの理解には、関連する要素を特定し、推論する必要があることがよくあります。
この制限に対処するために、インフォグラフィックのチャートとHROの正確なオブジェクト検出モデルの開発をサポートするために設計されたベンチマークであるOrionBenchを紹介します。
26,250の本物と78,750の合成インフォグラフィックが含まれており、690万を超える境界ボックスアノテーションがあります。
これらの注釈は、ループのモデルとプログラムの方法を組み合わせて作成されます。
3つのアプリケーションを使用してOrionBenchの有用性を示します。1)VLMSのチャート理解パフォーマンスを高めるための思考ボックスのスキームを構築する、2)既存のオブジェクト検出モデルを比較する、3)開発された検出モデルを適用してレイアウトとUI要素検出を文書化します。

要約(オリジナル)

Given the central role of charts in scientific, business, and communication contexts, enhancing the chart understanding capabilities of vision-language models (VLMs) has become increasingly critical. A key limitation of existing VLMs lies in their inaccurate visual grounding of infographic elements, including charts and human-recognizable objects (HROs) such as icons and images. However, chart understanding often requires identifying relevant elements and reasoning over them. To address this limitation, we introduce OrionBench, a benchmark designed to support the development of accurate object detection models for charts and HROs in infographics. It contains 26,250 real and 78,750 synthetic infographics, with over 6.9 million bounding box annotations. These annotations are created by combining the model-in-the-loop and programmatic methods. We demonstrate the usefulness of OrionBench through three applications: 1) constructing a Thinking-with-Boxes scheme to boost the chart understanding performance of VLMs, 2) comparing existing object detection models, and 3) applying the developed detection model to document layout and UI element detection.

arxiv情報

著者 Jiangning Zhu,Yuxing Zhou,Zheng Wang,Juntao Yao,Yima Gu,Yuhui Yuan,Shixia Liu
発行日 2025-05-27 16:03:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク