ArtGPT-4: Artistic Vision-Language Understanding with Adapter-enhanced MiniGPT-4

要約

近年、大規模言語モデル(LLM)は自然言語処理(NLP)において大きな進歩を遂げており、ChatGPTやGPT-4のようなモデルは様々な言語タスクにおいて素晴らしい能力を発揮しています。しかし、このような大規模なモデルのトレーニングは困難であり、モデルの規模に見合ったデータセットを見つけることはしばしば困難です。このような課題を克服するために、より少ないパラメータでモデルの微調整や学習を行う新しい手法が有望視されています。その一つがMiniGPT-4で、新しい事前学習モデルと革新的な学習戦略により、GPT-4と同等の視覚・言語理解度を実現しています。しかし、このモデルは、画像理解、特に芸術的な絵の理解において、まだいくつかの課題を抱えています。この課題を解決するために、ArtGPT-4と呼ばれる新しいマルチモーダルモデルが提案されています。ArtGPT-4は、Tesla A100を使用して、画像とテキストのペアをわずか2時間で、約200GBのデータのみを使用して学習されました。このモデルは、芸術的なセンスで画像を描写し、美的に優れたHTML/CSSウェブページなどのビジュアルコードを生成することができます。さらに、視覚言語モデルの性能を評価するための新しいベンチマークを提案しています。その後の評価方法において、ArtGPT-4は6点満点で、現在の⾳⾳のモデルより1点以上高く、アーティストより0.25点だけ低いスコアを獲得しました。

要約(オリジナル)

In recent years, large language models (LLMs) have made significant progress in natural language processing (NLP), with models like ChatGPT and GPT-4 achieving impressive capabilities in various linguistic tasks. However, training models on such a large scale is challenging, and finding datasets that match the model’s scale is often difficult. Fine-tuning and training models with fewer parameters using novel methods have emerged as promising approaches to overcome these challenges. One such model is MiniGPT-4, which achieves comparable vision-language understanding to GPT-4 by leveraging novel pre-training models and innovative training strategies. However, the model still faces some challenges in image understanding, particularly in artistic pictures. A novel multimodal model called ArtGPT-4 has been proposed to address these limitations. ArtGPT-4 was trained on image-text pairs using a Tesla A100 device in just 2 hours, using only about 200 GB of data. The model can depict images with an artistic flair and generate visual code, including aesthetically pleasing HTML/CSS web pages. Furthermore, the article proposes novel benchmarks for evaluating the performance of vision-language models. In the subsequent evaluation methods, ArtGPT-4 scored more than 1 point higher than the current \textbf{state-of-the-art} model and was only 0.25 points lower than artists on a 6-point scale. Our code and pre-trained model are available at \url{https://huggingface.co/Tyrannosaurus/ArtGPT-4}.

arxiv情報

著者 Zhengqing Yuan,Huiwen Xue,Xinyi Wang,Yongming Liu,Zhuanzhe Zhao,Kun Wang
発行日 2023-05-12 14:04:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CV パーマリンク