DEArt: Dataset of European Art

要約

過去20年間に研究コミュニティが一般に公開した大規模データセットは、自然言語処理やコンピュータビジョンのための深層学習アルゴリズムの進歩を可能にした重要な要因である。これらのデータセットは一般に、整列した画像と手動で注釈を付けたメタデータの組で、画像は日常生活の写真です。一方、学術的なコンテンツや歴史的なコンテンツは、必ずしも一般に普及していないテーマを扱うため、必ずしも多くのデータポイントを含んでいるとは限らず、新しいデータの収集が困難または不可能な場合があります。科学データや健康データのように例外も存在するが、文化遺産(CH)についてはそうではない。コンピュータビジョンにおける最良のモデルが、芸術作品に対してテストされた場合、その性能は低い。また、文化遺産のための広範囲に注釈されたデータセットがないこと、芸術作品の画像は写真では捉えられないオブジェクトやアクションを描いているという事実は、文化遺産特有のデータセットがこのコミュニティにとって非常に貴重であることを示唆している。DEArtは、12世紀から18世紀にかけての絵画のリファレンスとして、オブジェクト検出とポーズ分類を行うデータセットです。このデータセットには、約80%が非氷河期の15000以上の画像が含まれており、69のクラスの全てのインスタンスを識別する境界ボックスと、人間のようなオブジェクトを識別するボックスの12の可能なポーズについて、手動で注釈がつけられている。このうち、50以上のクラスはCH特有のものであり、他のデータセットにはないものである。これらは想像上の存在、象徴的な存在、その他芸術に関するカテゴリを反映している。さらに、既存のデータセットにはポーズ情報が含まれていない。この結果、文化遺産領域における物体検出は、転移学習により、一般的な画像に対する最新のモデルに匹敵する精度を達成できることが示された。

要約(オリジナル)

Large datasets that were made publicly available to the research community over the last 20 years have been a key enabling factor for the advances in deep learning algorithms for NLP or computer vision. These datasets are generally pairs of aligned image / manually annotated metadata, where images are photographs of everyday life. Scholarly and historical content, on the other hand, treat subjects that are not necessarily popular to a general audience, they may not always contain a large number of data points, and new data may be difficult or impossible to collect. Some exceptions do exist, for instance, scientific or health data, but this is not the case for cultural heritage (CH). The poor performance of the best models in computer vision – when tested over artworks – coupled with the lack of extensively annotated datasets for CH, and the fact that artwork images depict objects and actions not captured by photographs, indicate that a CH-specific dataset would be highly valuable for this community. We propose DEArt, at this point primarily an object detection and pose classification dataset meant to be a reference for paintings between the XIIth and the XVIIIth centuries. It contains more than 15000 images, about 80% non-iconic, aligned with manual annotations for the bounding boxes identifying all instances of 69 classes as well as 12 possible poses for boxes identifying human-like objects. Of these, more than 50 classes are CH-specific and thus do not appear in other datasets; these reflect imaginary beings, symbolic entities and other categories related to art. Additionally, existing datasets do not include pose annotations. Our results show that object detectors for the cultural heritage domain can achieve a level of precision comparable to state-of-art models for generic images via transfer learning.

arxiv情報

著者 Artem Reshetnikov,Maria-Cristina Marinescu,Joaquim More Lopez
発行日 2022-11-03 07:33:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク