要約
生成 AI の最近の進歩により、GPT-4V は視覚的なプロンプトを受け取ることで、画像認識タスクにおいて優れた能力を発揮できることが示唆されています。
GPT-4V の優れた機能にもかかわらず、GPT-4V の推論に伴う経済的コストが、広く使用するには大きな障壁となっています。
この課題に対処するために、私たちの研究では、複数の画像を単一の視覚入力に連結する、予算に優しいプロンプト アプローチであるコラージュ プロンプティングを導入しています。
コラージュ プロンプトを使用すると、GPT-4V は複数の画像に対して画像認識を同時に実行できます。
GPT-4V の画像認識の精度は、コラージュ プロンプト内の画像の順序によって大幅に変化するという観察に基づいて、私たちの方法はさらに、認識精度を最大化するために画像の配置を最適化する方法を学習します。
グラフ予測子は、各コラージュ プロンプトの精度を示すようにトレーニングされ、その後、可能な画像配置の検索空間をナビゲートするための最適化方法を提案します。
さまざまなデータセットにわたる実験結果は、コラージュ プロンプトのコスト効率スコアが標準プロンプトよりもはるかに大きいことを示しています。
さらに、学習された配置によるコラージュ プロンプトは、GPT-4V の視覚認識において、ランダムな配置によるコラージュ プロンプトよりも明らかに優れた精度を実現します。
要約(オリジナル)
Recent advancements in generative AI have suggested that by taking visual prompt, GPT-4V can demonstrate significant proficiency in image recognition task. Despite its impressive capabilities, the financial cost associated with GPT-4V’s inference presents a substantial barrier for its wide use. To address this challenge, our work introduces Collage Prompting, a budget-friendly prompting approach that concatenates multiple images into a single visual input. With collage prompt, GPT-4V is able to perform image recognition on several images simultaneously. Based on the observation that the accuracy of GPT-4V’s image recognition varies significantly with the order of images within the collage prompt, our method further learns to optimize the arrangement of images for maximum recognition accuracy. A graph predictor is trained to indicate the accuracy of each collage prompt, then we propose an optimization method to navigate the search space of possible image arrangements. Experiment results across various datasets demonstrate the cost-efficiency score of collage prompt is much larger than standard prompt. Additionally, collage prompt with learned arrangement achieves clearly better accuracy than collage prompt with random arrangement in GPT-4V’s visual recognition.
arxiv情報
著者 | Siyu Xu,Yunke Wang,Daochang Liu,Chang Xu |
発行日 | 2024-03-18 04:41:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google