Leveraging Large Language Models for Scalable Vector Graphics-Driven Image Understanding

要約

最近、大規模言語モデル (LLM) により、自然言語の理解と生成が大幅に進歩しました。
ただし、コンピューター ビジョンにおけるその可能性はほとんど解明されていません。
このペーパーでは、LLM が Scalable Vector Graphics (SVG) 形式を使用して画像を処理できるようにする、新しい探索的なアプローチを紹介します。
ラスター イメージの代わりに SVG 表現の XML ベースのテキスト記述を活用することで、ビジュアル モダリティとテキスト モダリティの間のギャップを埋め、パラメータ化されたビジュアル コンポーネントを必要とせずに LLM が画像を直接理解して操作できるようにすることを目指しています。
私たちの方法では、LLM 機能のみを使用して、単純な画像の分類、生成、およびコンテキスト内学習を容易にします。
私たちは、識別タスクと生成タスクにわたるアプローチの有望性を実証し、(i) 分布シフトに対する堅牢性、(ii) LLM のコンテキスト内学習能力を活用することによって達成される大幅な改善、および (iii) 画像理解および生成能力を強調します。
人間の導きによって。
私たちのコード、データ、モデルは https://github.com/mu-cai/svg-llm でご覧いただけます。

要約(オリジナル)

Recently, large language models (LLMs) have made significant advancements in natural language understanding and generation. However, their potential in computer vision remains largely unexplored. In this paper, we introduce a new, exploratory approach that enables LLMs to process images using the Scalable Vector Graphics (SVG) format. By leveraging the XML-based textual descriptions of SVG representations instead of raster images, we aim to bridge the gap between the visual and textual modalities, allowing LLMs to directly understand and manipulate images without the need for parameterized visual components. Our method facilitates simple image classification, generation, and in-context learning using only LLM capabilities. We demonstrate the promise of our approach across discriminative and generative tasks, highlighting its (i) robustness against distribution shift, (ii) substantial improvements achieved by tapping into the in-context learning abilities of LLMs, and (iii) image understanding and generation capabilities with human guidance. Our code, data, and models can be found here https://github.com/mu-cai/svg-llm.

arxiv情報

著者 Mu Cai,Zeyi Huang,Yuheng Li,Haohan Wang,Yong Jae Lee
発行日 2023-06-09 17:57:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク