CollagePrompt: A Benchmark for Budget-Friendly Visual Recognition with GPT-4V

要約

生成AIの最近の進歩は、視覚的なプロンプトを取得することにより、GPT-4Vが視覚認識タスクの重要な習熟度を示すことができることを示唆しています。
その印象的な能力にもかかわらず、GPT-4Vの推論に関連する金融コストは、その幅広い使用に対する大きな障壁を示しています。
この課題に対処するために、複数の画像を単一の視覚プロンプトにコラージュし、GPT-4Vが複数の画像で同時に視覚的に認識を実行するため、コストを削減する予算に優しいコラージュプロンプトタスクを提案します。
GPT-4Vの視覚認識でのパフォーマンスを評価するために、さまざまなコラージュプロンプトのデータセットを収集します。
私たちの評価は、いくつかの重要な調査結果を明らかにしています。1)認識の精度は、コラージュ内の位置が異なると異なります。
2)同じカテゴリの画像を一緒にグループ化すると、視覚認識の結果が向上します。
3)誤ったラベルは、多くの場合、隣接する画像から得られます。
これらの調査結果は、コラージュプロンプト内の画像配置の重要性を強調しています。
この目的のために、CollagePromptと呼ばれるベンチマークを構築します。これは、GPT-4Vでより費用対効果の高い視覚認識を実現するために、コラージュプロンプトを設計するためのプラットフォームを提供します。
コラージュレイアウトを最適化するための遺伝的アルゴリズムに由来するベースラインメソッドが提案され、最適化されたコラージュプロンプトの効率を測定するために2つのメトリックが導入されます。
当社のベンチマークにより、研究者はコラージュプロンプトをより適切に最適化できるようになるため、GPT-4Vは視覚的認識においてより費用対効果が高くなります。
コードとデータは、このプロジェクトページhttps://collagePrompting.github.io/で入手できます。

要約(オリジナル)

Recent advancements in generative AI have suggested that by taking visual prompts, GPT-4V can demonstrate significant proficiency in visual recognition tasks. Despite its impressive capabilities, the financial cost associated with GPT-4V’s inference presents a substantial barrier to its wide use. To address this challenge, we propose a budget-friendly collage prompting task that collages multiple images into a single visual prompt and makes GPT-4V perform visual recognition on several images simultaneously, thereby reducing the cost. We collect a dataset of various collage prompts to assess its performance in GPT-4V’s visual recognition. Our evaluations reveal several key findings: 1) Recognition accuracy varies with different positions in the collage. 2) Grouping images of the same category together leads to better visual recognition results. 3) Incorrect labels often come from adjacent images. These findings highlight the importance of image arrangement within collage prompt. To this end, we construct a benchmark called CollagePrompt, which offers a platform for designing collage prompt to achieve more cost-effective visual recognition with GPT-4V. A baseline method derived from genetic algorithms to optimize collage layouts is proposed and two metrics are introduced to measure the efficiency of the optimized collage prompt. Our benchmark enables researchers to better optimize collage prompts, thus making GPT-4V more cost-effective in visual recognition. The code and data are available at this project page https://collageprompting.github.io/.

arxiv情報

著者 Siyu Xu,Yunke Wang,Daochang Liu,Bo Du,Chang Xu
発行日 2025-02-06 12:55:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク