要約
パノプティックセグメンテーションは重要なコンピュータービジョンタスクです。この場合、現在の最先端のソリューションでは、パフォーマンスを発揮するために特殊なコンポーネントが必要です。
ピクセルごとの予測を備えたディープエンコーダー – 浅いデコーダーアーキテクチャに基づいて、シンプルなジェネラリストフレームワークを提案します。
本質的に、最小限の追加コンポーネントを備えた非常に優先される画像モデルを微調整します。
素朴にこの方法では良い結果が得られません。
これは、トレーニング中の不均衡によるものであり、スペクトル位置埋め込みの空間での重心回帰を減らすための新しい方法を提案します。
私たちの方法は、挑戦的なMS-COCOデータセットで55.1のパノプティック品質(PQ)を達成します。
要約(オリジナル)
Panoptic segmentation is an important computer vision task, where the current state-of-the-art solutions require specialized components to perform well. We propose a simple generalist framework based on a deep encoder – shallow decoder architecture with per-pixel prediction. Essentially fine-tuning a massively pretrained image model with minimal additional components. Naively this method does not yield good results. We show that this is due to imbalance during training and propose a novel method for reducing it – centroid regression in the space of spectral positional embeddings. Our method achieves panoptic quality (PQ) of 55.1 on the challenging MS-COCO dataset, state-of-the-art performance among generalist methods.
arxiv情報
著者 | Nedyalko Prisadnikov,Wouter Van Gansbeke,Danda Pani Paudel,Luc Van Gool |
発行日 | 2025-03-07 13:26:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google