要約
タイトル:リアルタイムパノプティックセグメンテーションのためのK-Netの再考
要約:
– パノプティックセグメンテーションは、セマンティックセグメンテーションとインスタンスセグメンテーションのタスクを組み合わせた、最も難しいシーンパーシングタスクの1つです。
– これまで多くの進歩がなされてきましたが、パノプティックセグメンテーション方法のリアルタイムアプリケーションに焦点を当てた作品はほとんどありません。
– この論文では、最近導入されたK-Netアーキテクチャを再考します。
– アーキテクチャ、トレーニング、推論手順に重要な変更を提案し、レイテンシを大幅に減少させ、性能を向上させます。
– 結果として得られたRT-K-Netは、Cityscapesデータセット上のリアルタイムパノプティックセグメンテーション方法の新たな最高性能を発揮し、Mapillary Vistasデータセットでも有望な結果を示します。
– Cityscapesでは、RT-K-Netは、シングルTitan RTX GPU上で全解像度1024×2048ピクセル画像の平均推論時間が32msで60.2%PQに到達します。
– Mapillary Vistasでは、RT-K-Netは、平均推論時間69msで33.2%PQに到達します。
– ソースコードはhttps://github.com/markusschoen/RT-K-Netで利用可能です。
要約(オリジナル)
Panoptic segmentation is one of the most challenging scene parsing tasks, combining the tasks of semantic segmentation and instance segmentation. While much progress has been made, few works focus on the real-time application of panoptic segmentation methods. In this paper, we revisit the recently introduced K-Net architecture. We propose vital changes to the architecture, training, and inference procedure, which massively decrease latency and improve performance. Our resulting RT-K-Net sets a new state-of-the-art performance for real-time panoptic segmentation methods on the Cityscapes dataset and shows promising results on the challenging Mapillary Vistas dataset. On Cityscapes, RT-K-Net reaches 60.2 % PQ with an average inference time of 32 ms for full resolution 1024×2048 pixel images on a single Titan RTX GPU. On Mapillary Vistas, RT-K-Net reaches 33.2 % PQ with an average inference time of 69 ms. Source code is available at https://github.com/markusschoen/RT-K-Net.
arxiv情報
著者 | Markus Schön,Michael Buchholz,Klaus Dietmayer |
発行日 | 2023-05-02 08:36:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI