Unifying Image Processing as Visual Prompting Question Answering

要約

画像処理はコンピュータ ビジョンの基本的なタスクであり、画質を向上させ、その後のビジョン アプリケーションに不可欠な機能を抽出することを目的としています。
従来、タスク固有のモデルは個々のタスク向けに開発されており、そのようなモデルの設計には独特の専門知識が必要です。
自然言語処理 (NLP) における大規模言語モデル (LLM) の成功に基づいて、コンピューター ビジョンでも同様の傾向があり、事前トレーニングとコンテキスト内学習による大規模モデルの開発に重点が置かれています。
このパラダイム シフトにより、タスク固有のモデルへの依存が軽減され、さまざまなタスクに対処するための強力な統合モデルが生まれます。
しかし、これらの進歩は主に高レベルの視覚タスクに集中しており、低レベルの視覚タスクにはあまり注意が払われていません。
この問題に対処するために、画像復元、画像強調、画像特徴抽出タスク、\textit{etc} をカバーする一般的な画像処理のためのユニバーサル モデルを提案します。
私たちが提案する PromptGIP というフレームワークは、これらの多様な画像処理タスクを普遍的なフレームワーク内で統合します。
NLP の質問応答 (QA) 技術にヒントを得て、視覚的な質問応答パラダイムを採用しています。
具体的には、入出力画像のペアを構造化された質問と回答の文として扱い、それによって画像処理タスクをプロンプト QA 問題として再プログラムします。
PromptGIP は、提供された視覚的なプロンプトを使用してさまざまな \textbf{クロスドメイン} タスクを実行できるため、タスク固有の微調整の必要がなくなります。
私たちの方法論は、一般的な画像処理に対して普遍的で適応性のあるソリューションを提供します。
PromptGIP はある程度のドメイン外タスクの一般化機能を実証していますが、より強力な創発的一般化を完全に調査するには、さらなる研究が期待されています。

要約(オリジナル)

Image processing is a fundamental task in computer vision, which aims at enhancing image quality and extracting essential features for subsequent vision applications. Traditionally, task-specific models are developed for individual tasks and designing such models requires distinct expertise. Building upon the success of large language models (LLMs) in natural language processing (NLP), there is a similar trend in computer vision, which focuses on developing large-scale models through pretraining and in-context learning. This paradigm shift reduces the reliance on task-specific models, yielding a powerful unified model to deal with various tasks. However, these advances have predominantly concentrated on high-level vision tasks, with less attention paid to low-level vision tasks. To address this issue, we propose a universal model for general image processing that covers image restoration, image enhancement, image feature extraction tasks, \textit{etc}. Our proposed framework, named PromptGIP, unifies these diverse image processing tasks within a universal framework. Inspired by NLP question answering (QA) techniques, we employ a visual prompting question answering paradigm. Specifically, we treat the input-output image pair as a structured question-answer sentence, thereby reprogramming the image processing task as a prompting QA problem. PromptGIP can undertake diverse \textbf{cross-domain} tasks using provided visual prompts, eliminating the need for task-specific finetuning. Our methodology offers a universal and adaptive solution to general image processing. While PromptGIP has demonstrated a certain degree of out-of-domain task generalization capability, further research is expected to fully explore its more powerful emergent generalization.

arxiv情報

著者 Yihao Liu,Xiangyu Chen,Xianzheng Ma,Xintao Wang,Jiantao Zhou,Yu Qiao,Chao Dong
発行日 2023-10-16 15:32:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク