Learning Zero-Shot Material States Segmentation, by Implanting Natural Image Patterns in Synthetic Data

要約

物質とその状態を視覚的に理解してセグメント化することは、物理世界を理解するための基礎です。
マテリアルによって形成される無限のテクスチャ、形状、および多くの場合曖昧な境界により、このタスクを一般化することが特に困難になります。
表面の湿った領域、岩石中の鉱物、植物の感染領域、または水の汚染の識別のいずれであっても、物質の状態はそれぞれ独自の形状を持っています。
ニューラルネットがクラスに依存しないマテリアルのセグメンテーションを学習するには、まずこの複雑さを捉えるデータを収集し、注釈を付ける必要があります。
実世界の画像を収集して手動で注釈を付けるには、コストと手作業による精度の限界の両方によって限界があります。
対照的に、合成データは精度が高く、コストはほとんどかかりませんが、物質世界の広大な多様性を再現することはできません。
この研究では、現実世界の画像から抽出したパターンを合成データに埋め込むことで、この重大なギャップを埋める方法を提案します。
したがって、自然画像から自動的に収集されたパターンは、マテリアルを合成シーンにマッピングするために使用されます。
この教師なしアプローチにより、合成データの精度と規模を維持しながら、生成されたデータで現実世界の膨大な複雑さを捉えることができます。
また、クラスに依存しない材料状態セグメンテーションの最初の一般ベンチマークも示します。
ベンチマーク画像には、調理、食品、岩石、建設、植物、液体に至るまで、さまざまな状態 (濡れた/乾燥した/汚れた/調理した/焦げた/磨耗した/錆びた/堆積物/
フォーム…)。
注釈には、類似しているが同一ではないマテリアルを含む領域間の部分的な類似性と、まったく同じマテリアル状態の点のみのハード セグメンテーションの両方が含まれます。
我々は、MatSeg 上のネット トレーニングが、このタスクに関して既存の最先端の方法よりも大幅に優れていることを示します。

要約(オリジナル)

Visual understanding and segmentation of materials and their states is fundamental for understanding the physical world. The infinite textures, shapes and often blurry boundaries formed by material make this task particularly hard to generalize. Whether it’s identifying wet regions of a surface, minerals in rocks, infected regions in plants, or pollution in water, each material state has its own unique form. For neural nets to learn class-agnostic materials segmentation it is necessary to first collect and annotate data that capture this complexity. Collecting real-world images and manually annotating is limited both by the cost and limited precision of manual labor. In contrast, synthetic data is highly accurate and almost cost-free but fails to replicate the vast diversity of the material world. In this work, we suggest a method to bridge this crucial gap, by implanting patterns extracted from real-world images, in synthetic data. Hence, patterns automatically collected from natural images are used to map materials into synthetic scenes. This unsupervised approach allows the generated data to capture the vast complexity of the real world while maintaining the precision and scale of synthetic data. We also present the first general benchmark for class-agnostic material state segmentation. The benchmark images contain a wide range of real-world images of material states, from cooking, food, rocks, construction, plants, and liquids each in various states (wet/dry/stained/cooked/burned/worned/rusted/sediment/foam…). The annotation includes both partial similarity between regions with similar but not identical materials, and hard segmentation of only points of the exact same material state. We show that net trains on MatSeg significantly outperform existing state-of-the-art methods on this task.

arxiv情報

著者 Sagi Eppel,Jolina Li,Manuel Drehwald,Alan Aspuru-Guzik
発行日 2024-03-07 17:43:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク