Diffusion Based Augmentation for Captioning and Retrieval in Cultural Heritage

要約

文化遺産アプリケーションと高度な機械学習モデルは、実りある相乗効果を生み出し、芸術作品と対話するための効果的かつアクセスしやすい方法を提供しています。
スマートな音声ガイド、パーソナライズされたアート関連コンテンツ、ゲーミフィケーションのアプローチは、テクノロジーを活用してアーティストや展覧会に付加価値を提供する方法のほんの一例にすぎません。
それにもかかわらず、機械学習の観点から見ると、利用可能な芸術的データの量は効果的なモデルをトレーニングするのに十分ではないことがよくあります。
既製のコンピュータ ビジョン モジュールは依然としてある程度まで活用できますが、アート画像とそのようなモデルのトレーニングに使用される標準の自然画像データセットの間には深刻なドメイン シフトが存在します。
結果として、パフォーマンスの低下につながる可能性があります。
この論文では、文化遺産ドメインにおける限られた注釈付きデータとドメインシフトの課題に対処するための新しいアプローチを紹介します。
生成的な視覚言語モデルを活用することで、キャプションに応じてさまざまなバリエーションのアートワークを生成し、アート データセットを強化します。
この拡張戦略により、データセットの多様性が強化され、自然画像と芸術作品の間のギャップが埋められ、視覚的な手がかりと汎用データセットからの知識との整合性が向上します。
生成されたバリエーションは、芸術的特徴をより深く理解して視覚モデルと言語モデルをトレーニングするのに役立ち、適切な専門用語を使用したより良いキャプションを生成できます。

要約(オリジナル)

Cultural heritage applications and advanced machine learning models are creating a fruitful synergy to provide effective and accessible ways of interacting with artworks. Smart audio-guides, personalized art-related content and gamification approaches are just a few examples of how technology can be exploited to provide additional value to artists or exhibitions. Nonetheless, from a machine learning point of view, the amount of available artistic data is often not enough to train effective models. Off-the-shelf computer vision modules can still be exploited to some extent, yet a severe domain shift is present between art images and standard natural image datasets used to train such models. As a result, this can lead to degraded performance. This paper introduces a novel approach to address the challenges of limited annotated data and domain shifts in the cultural heritage domain. By leveraging generative vision-language models, we augment art datasets by generating diverse variations of artworks conditioned on their captions. This augmentation strategy enhances dataset diversity, bridging the gap between natural images and artworks, and improving the alignment of visual cues with knowledge from general-purpose datasets. The generated variations assist in training vision and language models with a deeper understanding of artistic characteristics and that are able to generate better captions with appropriate jargon.

arxiv情報

著者 Dario Cioni,Lorenzo Berlincioni,Federico Becattini,Alberto del Bimbo
発行日 2023-08-14 13:59:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク