DeepPatent2: A Large-Scale Benchmarking Corpus for Technical Drawing Understanding

要約

コンピューター ビジョン (CV) と自然言語処理の最近の進歩は、実際のアプリケーションでビッグ データを活用することによって推進されています。
ただし、これらの研究分野は、利用可能なデータセットの膨大な量、多用途性、多様性によって依然として制限されています。
画像キャプションなどの CV タスクは主に自然画像に対して行われてきましたが、科学技術文書によく含まれるスケッチ画像に正確で意味のあるキャプションを作成するのは依然として困難です。
2D 画像からの 3D 再構成などの他のタスクを進めるには、複数の視点を持つ大規模なデータセットが必要です。
ここでは、14 年間の米国意匠特許文書から抽出された 132,890 の物体名と 22,394 の視点を含む 270 万点を超える技術図面を提供する大規模データセットである DeepPatent2 を紹介します。
概念的なキャプションを使用して DeepPatent2 の有用性を実証します。
さらに、3D 画像再構成や画像検索などの他の研究分野を促進するために、データセットの潜在的な有用性を提供します。

要約(オリジナル)

Recent advances in computer vision (CV) and natural language processing have been driven by exploiting big data on practical applications. However, these research fields are still limited by the sheer volume, versatility, and diversity of the available datasets. CV tasks, such as image captioning, which has primarily been carried out on natural images, still struggle to produce accurate and meaningful captions on sketched images often included in scientific and technical documents. The advancement of other tasks such as 3D reconstruction from 2D images requires larger datasets with multiple viewpoints. We introduce DeepPatent2, a large-scale dataset, providing more than 2.7 million technical drawings with 132,890 object names and 22,394 viewpoints extracted from 14 years of US design patent documents. We demonstrate the usefulness of DeepPatent2 with conceptual captioning. We further provide the potential usefulness of our dataset to facilitate other research areas such as 3D image reconstruction and image retrieval.

arxiv情報

著者 Kehinde Ajayi,Xin Wei,Martin Gryder,Winston Shields,Jian Wu,Shawn M. Jones,Michal Kucer,Diane Oyen
発行日 2023-11-07 16:14:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク