要約
RGB-D セマンティック画像セグメンテーション用のトレーニング画像の多様なセットを収集することは、常に可能であるとは限りません。
特に、ロボットが家庭などのプライバシーが重視される場所で動作する必要がある場合、収集は少数の場所に限定されることがよくあります。
結果として、注釈付き画像には外観の多様性が欠けており、RGB-D セマンティック画像セグメンテーションのアプローチはトレーニング データに過剰適合する傾向があります。
そこでこの論文では、この問題に対処するためにセマンティック RGB-D 画像合成を紹介します。
指定されたセマンティック ラベル マップに対して、現実的に見える RGB-D イメージを合成する必要があります。
しかし、現在のアプローチは単一モードであり、マルチモーダル データに対処できません。
実際、ユニモーダルアプローチをマルチモーダルデータに拡張してもうまく機能しないことを示しています。
そこで本論文では、セマンティックレイアウトのモーダル非依存情報を、RGB画像と深度画像のそれぞれ生成に必要なモーダル依存情報から分離するマルチモーダルデータ生成器を提案する。
さらに、ラベルマップと生成された画像の間の意味上の一貫性、および実際の画像と生成された画像の間の知覚的な類似性を保証する識別器を提案します。
私たちの包括的な実験は、提案された方法が以前のユニモーダル方法よりも大幅に優れていること、およびトレーニング中に実際の画像と生成された画像を混合することで RGB-D セマンティック セグメンテーションのアプローチの精度を大幅に向上できることを示しています。
要約(オリジナル)
Collecting diverse sets of training images for RGB-D semantic image segmentation is not always possible. In particular, when robots need to operate in privacy-sensitive areas like homes, the collection is often limited to a small set of locations. As a consequence, the annotated images lack diversity in appearance and approaches for RGB-D semantic image segmentation tend to overfit the training data. In this paper, we thus introduce semantic RGB-D image synthesis to address this problem. It requires synthesising a realistic-looking RGB-D image for a given semantic label map. Current approaches, however, are uni-modal and cannot cope with multi-modal data. Indeed, we show that extending uni-modal approaches to multi-modal data does not perform well. In this paper, we therefore propose a generator for multi-modal data that separates modal-independent information of the semantic layout from the modal-dependent information that is needed to generate an RGB and a depth image, respectively. Furthermore, we propose a discriminator that ensures semantic consistency between the label maps and the generated images and perceptual similarity between the real and generated images. Our comprehensive experiments demonstrate that the proposed method outperforms previous uni-modal methods by a large margin and that the accuracy of an approach for RGB-D semantic segmentation can be significantly improved by mixing real and generated images during training.
arxiv情報
著者 | Shijie Li,Rong Li,Juergen Gall |
発行日 | 2023-08-22 11:16:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google