要約
教科書は、生徒に質の高い教育を提供するための主要な媒体の 1 つです。
特に、説明的および図解的なビジュアルは、知識の保持、理解、一般的な伝達において重要な役割を果たします。
しかし、多くの教科書には、生徒の学習をサポートするための興味深いビジュアルが欠けています。
この論文では、Web からの画像を使用して教科書を自動的に強化するための視覚言語モデルの有効性を調査します。
私たちは数学、科学、社会科学、ビジネス分野の電子教科書のデータセットを収集しています。
次に、Web 画像を取得して教科書に適切に割り当てることを含むテキストと画像のマッチング タスクを設定します。これをマッチング最適化問題として組み立てます。
クラウドソーシングによる評価を通じて、(1) 元の教科書画像の評価は高くても、自動的に割り当てられた画像もそれほど劣っていないこと、(2) 最適化問題の正確な定式化が重要であることを検証します。
私たちは、コンピューター ビジョンと教育のための NLP が交差する領域におけるさらなる研究を促すために、関連する画像バンクを備えた教科書のデータセットをリリースします。
要約(オリジナル)
Textbooks are one of the main mediums for delivering high-quality education to students. In particular, explanatory and illustrative visuals play a key role in retention, comprehension and general transfer of knowledge. However, many textbooks lack these interesting visuals to support student learning. In this paper, we investigate the effectiveness of vision-language models to automatically enhance textbooks with images from the web. We collect a dataset of e-textbooks in the math, science, social science and business domains. We then set up a text-image matching task that involves retrieving and appropriately assigning web images to textbooks, which we frame as a matching optimization problem. Through a crowd-sourced evaluation, we verify that (1) while the original textbook images are rated higher, automatically assigned ones are not far behind, and (2) the precise formulation of the optimization problem matters. We release the dataset of textbooks with an associated image bank to inspire further research in this intersectional area of computer vision and NLP for education.
arxiv情報
著者 | Janvijay Singh,Vilém Zouhar,Mrinmaya Sachan |
発行日 | 2023-10-20 11:06:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google