要約
このペーパーでは、Europeana ポータルから収集された新しいデータセット EUFCC340K を導入することで、ギャラリー、図書館、アーカイブ、博物館 (GLAM) のドメインにおける自動メタデータ アノテーションの課題に取り組みます。
340,000 枚を超える画像で構成される EUFCC340K データセットは、アート & アーキテクチャ シソーラス (AAT) に基づく階層構造に従って、マテリアル、オブジェクト タイプ、専門分野、主題といった複数の側面にわたって編成されています。
私たちはいくつかのベースライン モデルを開発し、これらのファセットでのマルチラベル画像タグ付けのために ConvNeXT バックボーンに複数のヘッドを組み込み、画像テキストのペアを使用して CLIP モデルを微調整しました。
2 つの異なるテスト シナリオでモデルの堅牢性と一般化機能を評価する実験は、文化遺産部門における目録作成タスクを軽減する可能性があるマルチラベル分類ツールの改善におけるデータセットの有用性を実証しました。
要約(オリジナル)
In this paper, we address the challenges of automatic metadata annotation in the domain of Galleries, Libraries, Archives, and Museums (GLAMs) by introducing a novel dataset, EUFCC340K, collected from the Europeana portal. Comprising over 340,000 images, the EUFCC340K dataset is organized across multiple facets: Materials, Object Types, Disciplines, and Subjects, following a hierarchical structure based on the Art & Architecture Thesaurus (AAT). We developed several baseline models, incorporating multiple heads on a ConvNeXT backbone for multi-label image tagging on these facets, and fine-tuning a CLIP model with our image text pairs. Our experiments to evaluate model robustness and generalization capabilities in two different test scenarios demonstrate the utility of the dataset in improving multi-label classification tools that have the potential to alleviate cataloging tasks in the cultural heritage sector.
arxiv情報
著者 | Francesc Net,Marc Folia,Pep Casals,Andrew D. Bagdanov,Lluis Gomez |
発行日 | 2024-06-04 14:57:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google