ArtGPT-4: Artistic Vision-Language Understanding with Adapter-enhanced MiniGPT-4

要約

近年、大規模言語モデル (LLM) は自然言語処理 (NLP) において大幅な進歩を遂げており、ChatGPT や GPT-4 などのモデルはさまざまな言語タスクにおいて優れた機能を実現しています。
ただし、このような大規模なモデルのトレーニングは困難であり、モデルの規模に一致するデータセットを見つけることも困難なことがよくあります。
これらの課題を克服するための有望なアプローチとして、新しい方法を使用してより少ないパラメータでモデルを微調整およびトレーニングすることが登場しました。
そのようなモデルの 1 つが MiniGPT-4 であり、新しい事前トレーニング モデルと革新的なトレーニング戦略を活用することで、GPT-4 と同等の視覚言語理解を実現します。
ただし、このモデルは、特に芸術的な写真において、画像の理解において依然としていくつかの課題に直面しています。
これらの制限に対処するために、ArtGPT-4 と呼ばれる新しいマルチモーダル モデルが提案されています。
ArtGPT-4 は、Tesla A100 デバイスを使用して、わずか約 200 GB のデータを使用して、画像とテキストのペアでわずか 2 時間でトレーニングされました。
このモデルは、芸術的なセンスで画像を描写し、見た目の美しい HTML/CSS Web ページなどのビジュアル コードを生成できます。
さらに、この記事では、視覚言語モデルのパフォーマンスを評価するための新しいベンチマークを提案しています。
その後の評価方法では、ArtGPT-4 は現在の \textbf{最先端} モデルよりも 1 ポイント以上高いスコアを獲得しましたが、6 ポイント スケールでアーティストよりも 0.25 ポイント低いだけでした。
私たちのコードと事前トレーニングされたモデルは \url{https://huggingface.co/Tyrannosaurus/ArtGPT-4} で入手できます。

要約(オリジナル)

In recent years, large language models (LLMs) have made significant progress in natural language processing (NLP), with models like ChatGPT and GPT-4 achieving impressive capabilities in various linguistic tasks. However, training models on such a large scale is challenging, and finding datasets that match the model’s scale is often difficult. Fine-tuning and training models with fewer parameters using novel methods have emerged as promising approaches to overcome these challenges. One such model is MiniGPT-4, which achieves comparable vision-language understanding to GPT-4 by leveraging novel pre-training models and innovative training strategies. However, the model still faces some challenges in image understanding, particularly in artistic pictures. A novel multimodal model called ArtGPT-4 has been proposed to address these limitations. ArtGPT-4 was trained on image-text pairs using a Tesla A100 device in just 2 hours, using only about 200 GB of data. The model can depict images with an artistic flair and generate visual code, including aesthetically pleasing HTML/CSS web pages. Furthermore, the article proposes novel benchmarks for evaluating the performance of vision-language models. In the subsequent evaluation methods, ArtGPT-4 scored more than 1 point higher than the current \textbf{state-of-the-art} model and was only 0.25 points lower than artists on a 6-point scale. Our code and pre-trained model are available at \url{https://huggingface.co/Tyrannosaurus/ArtGPT-4}.

arxiv情報

著者 Zhengqing Yuan,Huiwen Xue,Xinyi Wang,Yongming Liu,Zhuanzhe Zhao,Kun Wang
発行日 2023-05-30 14:51:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク