要約
視覚芸術を理解するには、文化的、歴史的、文体的な文化的、文体的な認識を超えて、複数の視点にわたる推論が必要です。
最近のマルチモーダル大手言語モデル(MLLM)は一般的な画像キャプションでうまく機能しますが、多くの場合、ファインアートが要求する微妙な解釈をキャプチャできません。
構造化された知識と検索された生成(RAG)を複数のアートワークの説明と組み合わせた斬新でトレーニングフリーのフレームワークであるArtRagを提案します。
ARTRAGは、ドメイン固有のテキストソースからアートコンテキストナレッジグラフ(ACKG)を自動的に構築し、アーティスト、動き、テーマ、歴史的イベントなどのエンティティを豊かで解釈可能なグラフに組織します。
推論時に、多粒構造レトリバーは、生成を導くために意味的かつトポロジー的に関連するサブグラフを選択します。
これにより、MLLMは文脈的に根拠のある文化的に情報に基づいた芸術の説明を作成できます。
SemartおよびArtpediaデータセットの実験では、Artragがいくつかの重く訓練されたベースラインを上回ることが示されています。
人間の評価は、アートラグが一貫性のある、洞察力に富み、文化的に豊かな解釈を生成することをさらに確認します。
要約(オリジナル)
Understanding visual art requires reasoning across multiple perspectives — cultural, historical, and stylistic — beyond mere object recognition. While recent multimodal large language models (MLLMs) perform well on general image captioning, they often fail to capture the nuanced interpretations that fine art demands. We propose ArtRAG, a novel, training-free framework that combines structured knowledge with retrieval-augmented generation (RAG) for multi-perspective artwork explanation. ArtRAG automatically constructs an Art Context Knowledge Graph (ACKG) from domain-specific textual sources, organizing entities such as artists, movements, themes, and historical events into a rich, interpretable graph. At inference time, a multi-granular structured retriever selects semantically and topologically relevant subgraphs to guide generation. This enables MLLMs to produce contextually grounded, culturally informed art descriptions. Experiments on the SemArt and Artpedia datasets show that ArtRAG outperforms several heavily trained baselines. Human evaluations further confirm that ArtRAG generates coherent, insightful, and culturally enriched interpretations.
arxiv情報
著者 | Shuai Wang,Ivona Najdenkoska,Hongyi Zhu,Stevan Rudinac,Monika Kackovic,Nachoem Wijnberg,Marcel Worring |
発行日 | 2025-05-09 13:08:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google