Constructing Image-Text Pair Dataset from Books

要約

デジタルアーカイブは、貴重な書籍を保護し、多くの人々に知識を電子的に提供するために有効であるため、広く普及しつつある。本稿では、デジタルアーカイブを機械学習に活用する新しいアプローチを提案する。このようなデジタル化されたデータを十分に活用することができれば、機械学習は、人間が本を読むのと同じように、未知の洞察を発見し、最終的には自律的に知識を獲得する可能性がある。その第一歩として、我々は、画像とテキストのペアを自律的に抽出するための、光学式文字読取装置(OCR)、オブジェクト検出器、レイアウト解析器からなるデータセット構築パイプラインを設計する。実験では、このパイプラインを古い写真集に適用して画像-テキストペアデータセットを構築し、画像-テキスト検索と洞察抽出における有効性を示す。

要約(オリジナル)

Digital archiving is becoming widespread owing to its effectiveness in protecting valuable books and providing knowledge to many people electronically. In this paper, we propose a novel approach to leverage digital archives for machine learning. If we can fully utilize such digitized data, machine learning has the potential to uncover unknown insights and ultimately acquire knowledge autonomously, just like humans read books. As a first step, we design a dataset construction pipeline comprising an optical character reader (OCR), an object detector, and a layout analyzer for the autonomous extraction of image-text pairs. In our experiments, we apply our pipeline on old photo books to construct an image-text pair dataset, showing its effectiveness in image-text retrieval and insight extraction.

arxiv情報

著者 Yamato Okamoto,Haruto Toyonaga,Yoshihisa Ijiri,Hirokatsu Kataoka
発行日 2023-10-03 10:23:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク