Leveraging Large Language Models for Scalable Vector Graphics-Driven Image Understanding

要約

大規模言語モデル (LLM) は、自然言語理解において大幅な進歩をもたらしました。
しかし、LLM が学習したその膨大な意味表現を通じて、画像も理解することはどういうわけか可能でしょうか?
この作品はこの疑問を調査します。
LLM が画像を処理できるようにするために、画像を Scalable Vector Graphics (SVG) によって与えられる表現に変換します。
この XML ベースの画像のテキスト記述で LLM が何ができるかを研究するために、次の 3 つの広範なコンピュータ ビジョン タスクで LLM をテストします: (i) 視覚的推論と質問応答、(ii) 分布シフトの下での画像分類、少数ショット学習
(iii) 視覚的なプロンプトを使用して新しい画像を生成します。
私たちは自然に LLM を何らかの視覚理解能力と関連付けることはありませんが、今回の結果は、LLM がこれらのタスクの多くで適切な仕事をできることが多く、画像データを理解する LLM の能力に関する研究に新たな道を開く可能性があることを示しています。
私たちのコード、データ、モデルは https://github.com/mu-cai/svg-llm でご覧いただけます。

要約(オリジナル)

Large language models (LLMs) have made significant advancements in natural language understanding. However, through that enormous semantic representation that the LLM has learnt, is it somehow possible for it to understand images as well? This work investigates this question. To enable the LLM to process images, we convert them into a representation given by Scalable Vector Graphics (SVG). To study what the LLM can do with this XML-based textual description of images, we test the LLM on three broad computer vision tasks: (i) visual reasoning and question answering, (ii) image classification under distribution shift, few-shot learning, and (iii) generating new images using visual prompting. Even though we do not naturally associate LLMs with any visual understanding capabilities, our results indicate that the LLM can often do a decent job in many of these tasks, potentially opening new avenues for research into LLMs’ ability to understand image data. Our code, data, and models can be found here https://github.com/mu-cai/svg-llm.

arxiv情報

著者 Mu Cai,Zeyi Huang,Yuheng Li,Utkarsh Ojha,Haohan Wang,Yong Jae Lee
発行日 2024-07-11 17:59:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク