DiagramQG: A Dataset for Generating Concept-Focused Questions from Diagrams

要約

視覚的な質問生成(VQG)は、教育アプリケーションの可能性により、大きな注目を集めています。
ただし、VQGは主に自然な画像に焦点を当てており、学生の概念的理解を評価するために使用される教育資料の図を無視しています。
このギャップに対処するために、Digagramqg、8,372の図とさまざまな科目における19,475の質問を含むデータセットを紹介します。
diagramagramqgは、概念とターゲットのテキストの制約を導入し、モデルを指導して、教育目的で概念に焦点を当てた質問を生成します。
一方、図の質問生成(HKI-DQG)の階層知識統合フレームワークを強力なベースラインとして提示します。
このフレームワークは、図のマルチスケールパッチを取得し、凍結パラメーターを使用した視覚言語モデルを使用して知識を取得します。
次に、知識、テキストの制約、パッチを統合して、概念に焦点を当てた質問を生成します。
既存のVQGモデル、オープンソース、クローズドソースビジョン言語モデル、およびDiagramQGデータセットでHKI-DQGのパフォーマンスを評価します。
HKI-DQGは既存の方法よりも優れており、強力なベースラインとして機能することを示しています。
さらに、HKI-DQGを自然画像の他の4つのVQGデータセット、つまりVQG-Coco、K-VQG、OK-VQA、A-OKVQAに適用し、最先端のパフォーマンスを達成します。
データセットとコードは、https://dxzxy12138.github.io/diagramqg-homeで入手できます。

要約(オリジナル)

Visual Question Generation (VQG) has gained significant attention due to its potential in educational applications. However, VQG researches mainly focus on natural images, neglecting diagrams in educational materials used to assess students’ conceptual understanding. To address this gap, we introduce DiagramQG, a dataset containing 8,372 diagrams and 19,475 questions across various subjects. DiagramQG introduces concept and target text constraints, guiding the model to generate concept-focused questions for educational purposes. Meanwhile, we present the Hierarchical Knowledge Integration framework for Diagram Question Generation (HKI-DQG) as a strong baseline. This framework obtains multi-scale patches of diagrams and acquires knowledge using a visual language model with frozen parameters. It then integrates knowledge, text constraints and patches to generate concept-focused questions. We evaluate the performance of existing VQG models, open-source and closed-source vision-language models, and HKI-DQG on the DiagramQG dataset. Our HKI-DQG outperform existing methods, demonstrating that it serves as a strong baseline. Furthermore, we apply HKI-DQG to four other VQG datasets of natural images, namely VQG-COCO, K-VQG, OK-VQA and A-OKVQA, achieving state-of-the-art performance. The dataset and code are available at https://dxzxy12138.github.io/diagramqg-home.

arxiv情報

著者 Xinyu Zhang,Lingling Zhang,Yanrui Wu,Muye Huang,Wenjun Wu,Bo Li,Shaowei Wang,Jun Liu
発行日 2025-02-27 15:16:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク