A Dense Material Segmentation Dataset for Indoor and Outdoor Scene Parsing

要約

世界を理解するための重要なアルゴリズムは、各ピクセルにラベル(金属、ガラスなど)を割り当てる材料セグメンテーションです。
既存のデータでトレーニングされたモデルは一部の設定でパフォーマンスが低いことがわかり、既存のデータの23倍のセグメントである44,560の屋内および屋外画像上の320万の密なセグメントの大規模データセットでこれに対処することを提案します。
私たちのデータは、より多様なシーン、オブジェクト、視点、素材のセットをカバーし、肌のタイプのより公平な分布を含んでいます。
データでトレーニングされたモデルが、データセットと視点全体で最先端のモデルよりも優れていることを示します。
ピクセルあたり0.729の精度、0.585の平均クラス精度、0.420の平均IoUの大規模なシーン解析ベンチマークとベースラインを46のマテリアルで提案します。

要約(オリジナル)

A key algorithm for understanding the world is material segmentation, which assigns a label (metal, glass, etc.) to each pixel. We find that a model trained on existing data underperforms in some settings and propose to address this with a large-scale dataset of 3.2 million dense segments on 44,560 indoor and outdoor images, which is 23x more segments than existing data. Our data covers a more diverse set of scenes, objects, viewpoints and materials, and contains a more fair distribution of skin types. We show that a model trained on our data outperforms a state-of-the-art model across datasets and viewpoints. We propose a large-scale scene parsing benchmark and baseline of 0.729 per-pixel accuracy, 0.585 mean class accuracy and 0.420 mean IoU across 46 materials.

arxiv情報

著者 Paul Upchurch,Ransen Niu
発行日 2022-07-21 17:15:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク