A Simple and Generalist Approach for Panoptic Segmentation

要約

ジェネラリスト ビジョン モデルは、さまざまなビジョン タスクに対応する 1 つの同じアーキテクチャを目指しています。
このような共有アーキテクチャは魅力的に見えるかもしれませんが、ジェネラリスト モデルは、特にパノプティック セグメンテーションの場合、特注モデルよりも優れたパフォーマンスを発揮する傾向があります。
私たちは、ジェネラリスト モデルの望ましい特性を損なうことなく、2 つの重要な貢献を導入することでこの問題に対処します。
これらの貢献は次のとおりです。(i) 重心回帰を改善するための位置埋め込み (PE) ベースの損失。
(ii) インスタンス境界をより適切に分離するためのエッジ ディスタンス サンプリング (EDS)。
PE ベースの損失により、関連するインスタンスの重心のピクセルごとの回帰が容易になります。一方、EDS は、空白領域 (ラベルの欠落によって引き起こされる) と小さなインスタンスを慎重に処理することで貢献します。
これら 2 つのシンプルかつ効果的な変更により、確立されたベースラインが大幅に改善され、すべての汎用ソリューションの中で最先端の結果が得られます。
より具体的には、私たちの方法は COCO データセットで 52.5 のパノラマ品質 (PQ) を達成しました。これは、同様のアプローチを使用した最良のモデル (Painter) よりも 10 ポイント改善されており、最もパフォーマンスの高い拡散ベースの方法よりも 2 ポイント優れています。
Pix2Seq-$\mathcal{D}$。
さらに、徹底的な実験を通じて、私たちの貢献に対する洞察と詳細な分析を提供します。
ソースコードとモデルの重みは公開されます。

要約(オリジナル)

Generalist vision models aim for one and the same architecture for a variety of vision tasks. While such shared architecture may seem attractive, generalist models tend to be outperformed by their bespoken counterparts, especially in the case of panoptic segmentation. We address this problem by introducing two key contributions, without compromising the desirable properties of generalist models. These contributions are: (i) a positional-embedding (PE) based loss for improved centroid regressions; (ii) Edge Distance Sampling (EDS) for the better separation of instance boundaries. The PE-based loss facilitates a better per-pixel regression of the associated instance’s centroid, whereas EDS contributes by carefully handling the void regions (caused by missing labels) and smaller instances. These two simple yet effective modifications significantly improve established baselines, while achieving state-of-the-art results among all generalist solutions. More specifically, our method achieves a panoptic quality(PQ) of 52.5 on the COCO dataset, which is an improvement of 10 points over the best model with similar approach (Painter), and is superior by 2 to the best performing diffusion-based method Pix2Seq-$\mathcal{D}$. Furthermore, we provide insights into and an in-depth analysis of our contributions through exhaustive experiments. Our source code and model weights will be made publicly available.

arxiv情報

著者 Nedyalko Prisadnikov,Wouter Van Gansbeke,Danda Pani Paudel,Luc Van Gool
発行日 2024-08-29 13:02:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク