GalleryGPT: Analyzing Paintings with Large Multimodal Models

要約

作品分析は、個人の美的感性を豊かにし、批評的思考能力を促進する、美術鑑賞の重要かつ基本的なスキルである。芸術作品の理解は、その主観的な性質、多様な解釈、複雑な視覚的要素のために困難であり、美術史、文化背景、美学理論などの専門知識を必要とする。しかし、データ収集とモデル能力に制限され、芸術作品の自動分析のための先行研究は、主に分類、検索、および他の単純なタスクに焦点を当てており、AIの目標からは程遠い。本論文では、研究の進展を促進するために、大規模なマルチモーダルモデルの顕著な知覚と生成能力に触発された包括的な分析を構成するために、さらに一歩踏み込む。具体的には、より包括的な作品理解を形成するために、視覚的特徴のみに着目し、作品、すなわち絵画の段落分析を構成するタスクを最初に提案する。形式分析の研究を支援するために、我々は約19kの絵画画像と50kの分析段落からなる大規模なデータセットPaintingFormを収集する。さらに、収集したデータを活用し、LLaVAアーキテクチャをベースに若干の修正と微調整を加えた、GalleryGPTと呼ばれる絵画分析合成のための優れた大規模マルチモーダルモデルを紹介する。我々は、我々のモデルの能力を評価するために、いくつかのデータセットで正式な分析生成とゼロショット実験を行った。その結果、強力なベースライン LMM と比較して顕著な性能向上が見られ、本モデルの優れた芸術分析と汎化能力が実証された。\textcolor{blue}{コードとモデルはhttps://github.com/steven640pixel/GalleryGPT。

要約(オリジナル)

Artwork analysis is important and fundamental skill for art appreciation, which could enrich personal aesthetic sensibility and facilitate the critical thinking ability. Understanding artworks is challenging due to its subjective nature, diverse interpretations, and complex visual elements, requiring expertise in art history, cultural background, and aesthetic theory. However, limited by the data collection and model ability, previous works for automatically analyzing artworks mainly focus on classification, retrieval, and other simple tasks, which is far from the goal of AI. To facilitate the research progress, in this paper, we step further to compose comprehensive analysis inspired by the remarkable perception and generation ability of large multimodal models. Specifically, we first propose a task of composing paragraph analysis for artworks, i.e., painting in this paper, only focusing on visual characteristics to formulate more comprehensive understanding of artworks. To support the research on formal analysis, we collect a large dataset PaintingForm, with about 19k painting images and 50k analysis paragraphs. We further introduce a superior large multimodal model for painting analysis composing, dubbed GalleryGPT, which is slightly modified and fine-tuned based on LLaVA architecture leveraging our collected data. We conduct formal analysis generation and zero-shot experiments across several datasets to assess the capacity of our model. The results show remarkable performance improvements comparing with powerful baseline LMMs, demonstrating its superb ability of art analysis and generalization. \textcolor{blue}{The codes and model are available at: https://github.com/steven640pixel/GalleryGPT.

arxiv情報

著者 Yi Bin,Wenhao Shi,Yujuan Ding,Zhiqiang Hu,Zheng Wang,Yang Yang,See-Kiong Ng,Heng Tao Shen
発行日 2024-08-01 11:52:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CV, cs.MM パーマリンク