RT-K-Net: Revisiting K-Net for Real-Time Panoptic Segmentation

要約

パノプティックセグメンテーションは、セマンティックセグメンテーションとインスタンスセグメンテーションを組み合わせた、最も困難なシーンパーシングタスクの1つである。多くの進歩が見られる一方で、パノプティックセグメンテーション手法のリアルタイムアプリケーションに焦点を当てた研究は少ない。本稿では、最近導入されたK-Netアーキテクチャを再検討する。我々は、アーキテクチャ、学習、推論手順に重要な変更を提案し、待ち時間を大幅に短縮し、性能を向上させる。その結果、RT-K-Netは、Cityscapesデータセットにおいて、リアルタイム汎光セグメンテーション手法の最先端性能を達成し、難易度の高いMapillary Vistasデータセットにおいても有望な結果を示した。Cityscapesでは、RT-K-Netは60.2%のPQを達成し、Titan RTX GPUを1つ使用したフル解像度1024×2048ピクセルの画像の平均推論時間は32ミリ秒でした。Mapillary Vistasでは、RT-K-Netは33.2%のPQを達成し、平均推論時間は69ミリ秒でした。ソースコードはhttps://github.com/markusschoen/RT-K-Net。

要約(オリジナル)

Panoptic segmentation is one of the most challenging scene parsing tasks, combining the tasks of semantic segmentation and instance segmentation. While much progress has been made, few works focus on the real-time application of panoptic segmentation methods. In this paper, we revisit the recently introduced K-Net architecture. We propose vital changes to the architecture, training, and inference procedure, which massively decrease latency and improve performance. Our resulting RT-K-Net sets a new state-of-the-art performance for real-time panoptic segmentation methods on the Cityscapes dataset and shows promising results on the challenging Mapillary Vistas dataset. On Cityscapes, RT-K-Net reaches 60.2 % PQ with an average inference time of 32 ms for full resolution 1024×2048 pixel images on a single Titan RTX GPU. On Mapillary Vistas, RT-K-Net reaches 33.2 % PQ with an average inference time of 69 ms. Source code is available at https://github.com/markusschoen/RT-K-Net.

arxiv情報

著者 Markus Schön,Michael Buchholz,Klaus Dietmayer
発行日 2023-08-04 09:57:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク