VIXEN: Visual Text Comparison Network for Image Difference Captioning

要約

私たちは VIXEN を紹介します。これは、存在するコンテンツ操作を強調するために、一対の画像間の視覚的な違いをテキストで簡潔に要約する技術です。
私たちが提案するネットワークは、画像の特徴をペアごとに線形にマッピングし、事前トレーニングされた大規模言語モデルのソフト プロンプトを構築します。
私たちは、プロンプトツープロンプト編集フレームワークを介して生成された最近の InstructPix2Pix データセットから合成的に操作された画像をトレーニングすることで、既存の画像差分キャプション (IDC) データセットにおけるトレーニング データの量が少なく、操作の多様性が欠如しているという課題に対処します。
このデータセットを GPT-3 経由で生成された変更概要で強化します。
私たちは、VIXEN がさまざまな画像コンテンツや編集タイプに対して最先端のわかりやすい差分キャプションを生成し、操作された画像コンテンツを介して広められる誤った情報に対する潜在的な軽減策を提供することを示します。
コードとデータは http://github.com/alexblck/vixen で入手できます。

要約(オリジナル)

We present VIXEN – a technique that succinctly summarizes in text the visual differences between a pair of images in order to highlight any content manipulation present. Our proposed network linearly maps image features in a pairwise manner, constructing a soft prompt for a pretrained large language model. We address the challenge of low volume of training data and lack of manipulation variety in existing image difference captioning (IDC) datasets by training on synthetically manipulated images from the recent InstructPix2Pix dataset generated via prompt-to-prompt editing framework. We augment this dataset with change summaries produced via GPT-3. We show that VIXEN produces state-of-the-art, comprehensible difference captions for diverse image contents and edit types, offering a potential mitigation against misinformation disseminated via manipulated image content. Code and data are available at http://github.com/alexblck/vixen

arxiv情報

著者 Alexander Black,Jing Shi,Yifei Fai,Tu Bui,John Collomosse
発行日 2024-02-29 12:56:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク