Learning Zero-Shot Material States Segmentation, by Implanting Natural Image Patterns in Synthetic Data

要約

物質とその状態を視覚的に理解してセグメント化することは、物理世界を理解するための基礎です。
マテリアルによって形成される無数のテクスチャ、形状、および多くの場合境界が曖昧であるため、このタスクを一般化するのは特に困難です。
表面の湿った領域、岩石中の鉱物、植物の感染領域、または水の汚染の識別のいずれであっても、物質の状態はそれぞれ独自の形状を持っています。
ニューラル ネットワークが一般的なクラスに依存しないマテリアル セグメンテーションを学習するには、まずこの複雑さを捉えるデータを収集し、注釈を付ける必要があります。
実世界の画像を収集して手動で注釈を付けることは、手作業のコストと精度によって制限されます。
対照的に、合成 CGI データは精度が高く、コストはほとんどかかりませんが、物質世界の広大な多様性を再現することはできません。
この研究は、現実世界の画像から抽出したパターンを合成データに埋め込むことで、この重大なギャップを埋める方法を提供します。
したがって、自然画像から自動的に収集されたパターンは、マテリアルを合成シーンにマッピングするために使用されます。
この教師なしアプローチにより、合成データの精度と規模を維持しながら、生成されたデータで現実世界の膨大な複雑さを捉えることができます。
また、ゼロショット材料状態セグメンテーションの最初の一般ベンチマークも示します。
ベンチマークには、食品、岩石、建築物、植物、液体など、さまざまな状態 (濡れた/乾燥した/汚れた/調理した/焦げた/磨耗した/錆びた/堆積物など) の物質の状態を表す広範な現実世界の画像が含まれています。
/泡など)。
注釈には、類似しているが同一ではないマテリアルを含む領域間の部分的な類似性と、まったく同じマテリアル状態にある点のみのハード セグメンテーションの両方が含まれます。
我々は、MatSeg 上のネット トレーニングが、このタスクに関して既存の最先端の方法よりも大幅に優れていることを示します。
データセット、コード、トレーニング済みモデルが利用可能です

要約(オリジナル)

Visual understanding and segmentation of materials and their states is fundamental to understanding the physical world. The myriad textures, shapes, and often blurry boundaries formed by materials make this task particularly hard to generalize. Whether it’s identifying wet regions of a surface, minerals in rocks, infected regions in plants, or pollution in water, each material state has its own unique form. For neural nets to learn general class-agnostic material segmentation, it is necessary to first collect and annotate data that captures this complexity. Collecting and manually annotating real-world images is limited by the cost and precision of manual labor. In contrast, synthetic CGI data is highly accurate and almost cost-free, but fails to replicate the vast diversity of the material world. This work offers a method to bridge this crucial gap by implanting patterns extracted from real-world images in synthetic data. Hence, patterns automatically collected from natural images are used to map materials into synthetic scenes. This unsupervised approach allows the generated data to capture the vast complexity of the real world while maintaining the precision and scale of synthetic data. We also present the first general benchmark for zero-shot material state segmentation. The benchmark contains a wide range of real-world images of material states, like food, rocks, construction, plants, liquids, and many others, each in various states (wet/dry/stained/cooked/burned/worn/rusted/sediment/foam, etc.). The annotation includes both partial similarity between regions with similar but not identical materials, and hard segmentation of only points in the exact same material state. We show that net trains on MatSeg significantly outperform existing state-of-the-art methods on this task. The dataset, code, and trained model are available

arxiv情報

著者 Sagi Eppel,Jolina Li,Manuel Drehwald,Alan Aspuru-Guzik
発行日 2024-04-09 13:44:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク