X-Paste: Revisiting Scalable Copy-Paste for Instance Segmentation using CLIP and StableDiffusion

要約

コピー&ペーストは、インスタンスのセグメンテーションのためのシンプルで効果的なデータ拡張戦略です。
オブジェクト インスタンスを新しい背景画像にランダムに貼り付けることで、新しいトレーニング データが無料で作成され、特にまれなオブジェクト カテゴリのセグメンテーション パフォーマンスが大幅に向上します。
コピー&ペーストで使用される多様で高品質のオブジェクト インスタンスによりパフォーマンスが向上しますが、以前の作品では、人間が注釈を付けたインスタンス セグメンテーション データセットまたは 3D オブジェクト モデルからレンダリングされたオブジェクト インスタンスを利用しており、どちらのアプローチもスケールアップして取得するにはコストが高すぎます。
良い多様性。
このペーパーでは、新たに登場したゼロショット認識モデル (CLIP など) と text2image モデル (StableDiffusion など) を活用して、大規模なコピー&ペーストを再検討します。
私たちは、text2image モデルを使用して画像を生成したり、ゼロショット認識モデルを使用してさまざまなオブジェクト カテゴリのノイズを発生させてクロールされた画像をフィルタリングしたりすることが、コピー アンド ペーストを真にスケーラブルにする実現可能な方法であることを初めて実証しました。
このような成功を実現するために、私たちは「X-Paste」と呼ばれるデータ収集および処理フレームワークを設計し、それに基づいて体系的な調査を実施します。
LVIS データセットでは、X-Paste は Swin-L をバックボーンとして持つ強力なベースライン CenterNet2 に比べて目覚ましい改善をもたらします。
具体的には、すべてのクラスで +2.6 ボックス AP および +2.1 マスク AP のゲインがアーカイブされ、ロングテール クラスでは +6.8 ボックス AP、+6.5 マスク AP というさらに大幅なゲインがアーカイブされます。
コードとモデルは https://github.com/yoctta/XPaste で入手できます。

要約(オリジナル)

Copy-Paste is a simple and effective data augmentation strategy for instance segmentation. By randomly pasting object instances onto new background images, it creates new training data for free and significantly boosts the segmentation performance, especially for rare object categories. Although diverse, high-quality object instances used in Copy-Paste result in more performance gain, previous works utilize object instances either from human-annotated instance segmentation datasets or rendered from 3D object models, and both approaches are too expensive to scale up to obtain good diversity. In this paper, we revisit Copy-Paste at scale with the power of newly emerged zero-shot recognition models (e.g., CLIP) and text2image models (e.g., StableDiffusion). We demonstrate for the first time that using a text2image model to generate images or zero-shot recognition model to filter noisily crawled images for different object categories is a feasible way to make Copy-Paste truly scalable. To make such success happen, we design a data acquisition and processing framework, dubbed “X-Paste’, upon which a systematic study is conducted. On the LVIS dataset, X-Paste provides impressive improvements over the strong baseline CenterNet2 with Swin-L as the backbone. Specifically, it archives +2.6 box AP and +2.1 mask AP gains on all classes and even more significant gains with +6.8 box AP, +6.5 mask AP on long-tail classes. Our code and models are available at https://github.com/yoctta/XPaste.

arxiv情報

著者 Hanqing Zhao,Dianmo Sheng,Jianmin Bao,Dongdong Chen,Dong Chen,Fang Wen,Lu Yuan,Ce Liu,Wenbo Zhou,Qi Chu,Weiming Zhang,Nenghai Yu
発行日 2023-05-31 14:57:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク