要約
Image Difference Captioning (IDC) は、見た目が似ている 2 つの画像の違いを説明する文を生成することを目的としています。
従来のアプローチは、事前にトレーニングされ、通常は凍結された視覚的特徴抽出器を使用して IDC モデルを学習します。
したがって、2 つの主要な問題が発生する可能性があります: (1) 通常、このようなビジュアル エンコーダーのトレーニングに使用される事前トレーニング データセットと下流の IDC タスクのデータセットの間に大きなドメイン ギャップが存在すること、および (2) 視覚的特徴抽出器を個別にエンコードする場合
多くの場合、2 つの画像間の視覚的な変化を効果的にエンコードしません。
最近提案されたCLIPの優れたゼロショット性能により、これらの問題に対処するためにIDCタスクのCLIPモデルを転送するCLIP4IDCを提案します。
CLIP を直接微調整して文章を生成するのとは異なり、適応トレーニング プロセスを導入して、CLIP のビジュアル エンコーダーを適応させ、テキストの説明に基づいて画像ペアの違いをキャプチャして調整します。
CLEVR-Change、Spot-the-Diff、および Image-Editing-Request の 3 つの IDC ベンチマーク データセットでの実験は、CLIP4IDC の有効性を示しています。
要約(オリジナル)
Image Difference Captioning (IDC) aims at generating sentences to describe differences between two similar-looking images. Conventional approaches learn an IDC model with a pre-trained and usually frozen visual feature extractor. Accordingly, two major issues may arise: (1) a large domain gap usually exists between the pre-training datasets used for training such a visual encoder and that of the downstream IDC task, and (2) the visual feature extractor, when separately encoding two images, often does not effectively encode the visual changes between two images. Due to the excellent zero-shot performance of the recently proposed CLIP, we thus propose CLIP4IDC to transfer a CLIP model for the IDC task to address those issues. Different from directly fine-tuning CLIP to generate sentences, we introduce an adaptation training process to adapt CLIP’s visual encoder to capture and align differences in image pairs based on the textual descriptions. Experiments on three IDC benchmark datasets, CLEVR-Change, Spot-the-Diff, and Image-Editing-Request, demonstrate the effectiveness of CLIP4IDC.
arxiv情報
著者 | Zixin Guo,Tzu-Jui Julius Wang,Jorma Laaksonen |
発行日 | 2022-10-18 12:30:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google