SBS Figures: Pre-training Figure QA from Stage-by-Stage Synthesized Images

要約

大規模な図 QA データセットを構築するには、図の収集と選択から、テキスト、数値、色などの属性の抽出、QA の生成まで、かなりの量の作業が必要です。
LLM の最近の発展により、数値を合成する取り組みが行われていますが、そのほとんどは主に QA の生成に焦点を当てています。
さらに、LLM を使用して図を直接作成すると、コード エラー、類似した図、図内の繰り返しコンテンツなどの問題が発生することがよくあります。
この問題に対処するために、事前トレーニング図形 QA 用のデータセットである SBSFigures (Stage-by-Stage Synthetic Figures) を紹介します。
私たちが提案するパイプラインを使用すると、手動の注釈プロセスを必要とせずに、視覚化されたデータの完全な注釈と緻密な QA 注釈を備えたチャート図を作成できます。
ステージごとのパイプラインにより、コードエラーを最小限に抑えながら、多様なトピックや外観図を効率的に作成することができます。
当社の SBSFigure は強力な事前トレーニング効果を実証し、事前トレーニングされた重みから始まる限られた量の実世界のチャート データを使用して効率的なトレーニングを達成することを可能にします。

要約(オリジナル)

Building a large-scale figure QA dataset requires a considerable amount of work, from gathering and selecting figures to extracting attributes like text, numbers, and colors, and generating QAs. Although recent developments in LLMs have led to efforts to synthesize figures, most of these focus primarily on QA generation. Additionally, creating figures directly using LLMs often encounters issues such as code errors, similar-looking figures, and repetitive content in figures. To address this issue, we present SBSFigures (Stage-by-Stage Synthetic Figures), a dataset for pre-training figure QA. Our proposed pipeline enables the creation of chart figures with complete annotations of the visualized data and dense QA annotations without any manual annotation process. Our stage-by-stage pipeline makes it possible to create diverse topic and appearance figures efficiently while minimizing code errors. Our SBSFigures demonstrate a strong pre-training effect, making it possible to achieve efficient training with a limited amount of real-world chart data starting from our pre-trained weights.

arxiv情報

著者 Risa Shinoda,Kuniaki Saito,Shohei Tanaka,Tosho Hirasawa,Yoshitaka Ushiku
発行日 2024-12-23 14:25:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク