要約
過去数年間の生成モデルの品質の向上により、編集された画像のバリエーションを重要なスケールで生成できるようになりました。
このようなテクノロジーの悪影響に対抗するために、Image Difference Captioning (IDC) タスクは 2 つの画像間の違いを説明することを目的としています。
このタスクは、単純な 3D レンダリング イメージでは正常に処理されますが、現実世界のイメージでは困難になります。
その理由は 2 つあります。1 つはトレーニング データの不足、もう 1 つは複雑な画像間のきめ細かい違いを捕捉することの難しさです。
これらの問題に対処するために、本稿では、既存の画像キャプション モデルを IDC タスクに適応させ、IDC データセットを拡張するための、シンプルかつ効果的なフレームワークを提案します。
我々は、低い計算コストで BLIP2 を IDC タスクに適応させた BLIP2IDC を導入し、それが現実世界の IDC データセットで 2 ストリーム アプローチを大幅に上回るパフォーマンスを示すことを示します。
また、合成拡張を使用して、不可知的な方法で IDC モデルのパフォーマンスを向上させることも提案します。
私たちの合成拡張戦略が高品質のデータを提供し、Syned1 という名前の IDC に最適な挑戦的な新しいデータセットにつながることを示します。
要約(オリジナル)
The rise of the generative models quality during the past years enabled the generation of edited variations of images at an important scale. To counter the harmful effects of such technology, the Image Difference Captioning (IDC) task aims to describe the differences between two images. While this task is successfully handled for simple 3D rendered images, it struggles on real-world images. The reason is twofold: the training data-scarcity, and the difficulty to capture fine-grained differences between complex images. To address those issues, we propose in this paper a simple yet effective framework to both adapt existing image captioning models to the IDC task and augment IDC datasets. We introduce BLIP2IDC, an adaptation of BLIP2 to the IDC task at low computational cost, and show it outperforms two-streams approaches by a significant margin on real-world IDC datasets. We also propose to use synthetic augmentation to improve the performance of IDC models in an agnostic fashion. We show that our synthetic augmentation strategy provides high quality data, leading to a challenging new dataset well-suited for IDC named Syned1.
arxiv情報
著者 | Gautier Evennou,Antoine Chaffin,Vivien Chappelier,Ewa Kijak |
発行日 | 2024-12-20 14:32:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google