In-Context Translation: Towards Unifying Image Recognition, Processing, and Generation

要約

私たちは、視覚認識(セマンティックセグメンテーションなど)、低レベル画像処理(ノイズ除去など)、および条件付き画像生成(エッジから画像への合成など)を統合するための一般的な学習フレームワークであるインコンテキスト変換(ICT)を提案します。

統合のおかげで、ICT は特定のタスクのモデルの設計に伴う固有の帰納的バイアスを大幅に軽減し、同様のタスク間での相互強化を最大化します。
ただし、さまざまなデータ形式とトレーニング パイプラインがあるため、多数のタスクにわたる統合は簡単ではありません。
この目的を達成するために、ICT では 2 つの設計が導入されています。
まず、異なるタスクの入出力データを RGB 画像ペア、たとえば、RGB 画像と同じ RGB 形式のセグメンテーション マスクのセマンティック セグメンテーション データ ペアに標準化します。
これにより、さまざまなタスクが 2 つの RGB 画像間の一般的な変換タスクに変わります。
第 2 に、さまざまなタスクのトレーニングを一般的なインコンテキスト学習に標準化します。「インコンテキスト」とは、入力がターゲット タスクとクエリ画像の入出力ペアの例で構成されることを意味します。
学習の目的は、クエリとペアになった「欠落している」データを生成することです。
したがって、暗黙的な変換プロセスはクエリと生成されたイメージの間で行われます。
実験では、ICT が 10 の視覚タスクを統合し、それぞれのベンチマークで優れたパフォーマンスを示しました。
特に、Painter や PromptDiffusion などの競合他社と比較して、わずか 4 つの RTX 3090 GPU でトレーニングされた ICT は、トレーニングの効率が高く、コストが低いことが示されています。

要約(オリジナル)

We propose In-Context Translation (ICT), a general learning framework to unify visual recognition (e.g., semantic segmentation), low-level image processing (e.g., denoising), and conditional image generation (e.g., edge-to-image synthesis). Thanks to unification, ICT significantly reduces the inherent inductive bias that comes with designing models for specific tasks, and it maximizes mutual enhancement across similar tasks. However, the unification across a large number of tasks is non-trivial due to various data formats and training pipelines. To this end, ICT introduces two designs. Firstly, it standardizes input-output data of different tasks into RGB image pairs, e.g., semantic segmentation data pairs an RGB image with its segmentation mask in the same RGB format. This turns different tasks into a general translation task between two RGB images. Secondly, it standardizes the training of different tasks into a general in-context learning, where ‘in-context’ means the input comprises an example input-output pair of the target task and a query image. The learning objective is to generate the ‘missing’ data paired with the query. The implicit translation process is thus between the query and the generated image. In experiments, ICT unifies ten vision tasks and showcases impressive performance on their respective benchmarks. Notably, compared to its competitors, e.g., Painter and PromptDiffusion, ICT trained on only 4 RTX 3090 GPUs is shown to be more efficient and less costly in training.

arxiv情報

著者 Han Xue,Qianru Sun,Li Song,Wenjun Zhang,Zhiwu Huang
発行日 2024-04-15 10:05:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク