Few-shot Structure-Informed Machinery Part Segmentation with Foundation Models and Graph Neural Networks

要約

この論文では、空間的および階層的な関係を示す複数の部品を備えた機械に対する少数ショットのセマンティック セグメンテーションに対する新しいアプローチを提案します。
私たちの手法は、基礎モデル CLIPSeg およびセグメント何でもモデル (SAM) を特徴点検出器 SuperPoint およびグラフ畳み込みネットワーク (GCN) と統合して、機械部品を正確にセグメント化します。
1 ~ 25 個の注釈付きサンプルを提供することで、トラックに搭載された積み込みクレーンを表す純粋に合成されたデータセットで評価されたモデルは、さまざまな詳細レベルにわたって効果的なセグメンテーションを実現します。
コンシューマー向け GPU ではトレーニング時間は 5 分未満に抑えられます。
このモデルは実データに対する堅牢な汎化を実証し、10 個の合成サポート サンプルを使用して実データで $J\&F$ スコア 92.2 の定性的な合成から実への汎化を達成します。
DAVIS 2017 データセットでベンチマークを行うと、3 つのサポート サンプルを使用した半教師ありビデオ セグメンテーションで $J\&F$ スコア 71.5 を達成しました。
この方法のトレーニング時間の短縮と実際のデータへの効果的な一般化により、機械やインフラストラクチャと対話する自律システムにとって貴重なツールとなり、数ショットのセグメンテーション タスクに対する統合および調整された基礎モデルの可能性が示されます。

要約(オリジナル)

This paper proposes a novel approach to few-shot semantic segmentation for machinery with multiple parts that exhibit spatial and hierarchical relationships. Our method integrates the foundation models CLIPSeg and Segment Anything Model (SAM) with the interest point detector SuperPoint and a graph convolutional network (GCN) to accurately segment machinery parts. By providing 1 to 25 annotated samples, our model, evaluated on a purely synthetic dataset depicting a truck-mounted loading crane, achieves effective segmentation across various levels of detail. Training times are kept under five minutes on consumer GPUs. The model demonstrates robust generalization to real data, achieving a qualitative synthetic-to-real generalization with a $J\&F$ score of 92.2 on real data using 10 synthetic support samples. When benchmarked on the DAVIS 2017 dataset, it achieves a $J\&F$ score of 71.5 in semi-supervised video segmentation with three support samples. This method’s fast training times and effective generalization to real data make it a valuable tool for autonomous systems interacting with machinery and infrastructure, and illustrate the potential of combined and orchestrated foundation models for few-shot segmentation tasks.

arxiv情報

著者 Michael Schwingshackl,Fabio Francisco Oberweger,Markus Murschitz
発行日 2025-01-17 09:55:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク