ObjectCompose: Evaluating Resilience of Vision-Based Models on Object-to-Background Compositional Changes

要約

最近のビジョンベースのモデルの大規模なマルチモーダル トレーニングとその汎化機能を考慮すると、その堅牢性の程度を理解することは、実際の展開に不可欠です。
この研究では、オブジェクトから背景までのコンテキストの多様な変化に対する現在のビジョンベースのモデルの回復力を評価します。
ロバスト性評価手法の大部分は、合成データセットを導入してオブジェクトの特性 (視点、スケール、色) に変更を誘発するか、実際の画像に対して画像変換技術 (敵対的な変更、一般的な破損) を利用して分布のシフトをシミュレートしています。
最近の研究では、大規模な言語モデルと拡散モデルを活用してバックグラウンドで変化を生成することが検討されています。
ただし、これらのメソッドは、行われる変更を制御できなかったり、オブジェクトのセマンティクスを歪めたりするため、タスクには適していません。
一方、私たちの方法では、オブジェクトの元のセマンティクスと外観を維持しながら、オブジェクトから背景へのさまざまな変更を引き起こすことができます。
この目標を達成するために、テキストから画像へ、画像からテキストへ、画像からセグメントへのモデルの生成機能を利用して、オブジェクトから背景への広範な変更を自動的に生成します。
テキストプロンプトを変更するか、テキストから画像へのモデルの潜在およびテキスト埋め込みを最適化することにより、自然な背景と敵対的な背景の両方の変化を誘発します。
これにより、ディープ ニューラル ネットワークの堅牢性と一般化を理解する際の背景コンテキストの役割を定量化することができます。
私たちは、標準視覚データセット (ImageNet、COCO) のさまざまなバージョンを作成し、多様でリアルな背景を画像に組み込んだり、背景に色、テクスチャ、敵対的な変更を導入したりします。
私たちは、さまざまなタスクにわたるオブジェクトと背景のコンテキストの変動に対するビジョンベースのモデルの堅牢性を分析するために広範な実験を行っています。

要約(オリジナル)

Given the large-scale multi-modal training of recent vision-based models and their generalization capabilities, understanding the extent of their robustness is critical for their real-world deployment. In this work, we evaluate the resilience of current vision-based models against diverse object-to-background context variations. The majority of robustness evaluation methods have introduced synthetic datasets to induce changes to object characteristics (viewpoints, scale, color) or utilized image transformation techniques (adversarial changes, common corruptions) on real images to simulate shifts in distributions. Recent works have explored leveraging large language models and diffusion models to generate changes in the background. However, these methods either lack in offering control over the changes to be made or distort the object semantics, making them unsuitable for the task. Our method, on the other hand, can induce diverse object-to-background changes while preserving the original semantics and appearance of the object. To achieve this goal, we harness the generative capabilities of text-to-image, image-to-text, and image-to-segment models to automatically generate a broad spectrum of object-to-background changes. We induce both natural and adversarial background changes by either modifying the textual prompts or optimizing the latents and textual embedding of text-to-image models. This allows us to quantify the role of background context in understanding the robustness and generalization of deep neural networks. We produce various versions of standard vision datasets (ImageNet, COCO), incorporating either diverse and realistic backgrounds into the images or introducing color, texture, and adversarial changes in the background. We conduct extensive experiment to analyze the robustness of vision-based models against object-to-background context variations across diverse tasks.

arxiv情報

著者 Hashmat Shadab Malik,Muhammad Huzaifa,Muzammal Naseer,Salman Khan,Fahad Shahbaz Khan
発行日 2024-03-07 17:48:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク