Human-in-the-Loop Segmentation of Multi-species Coral Imagery

要約

水中探査機による大規模な海洋調査により、サンゴ礁画像の利用可能性は大幅に高まりますが、専門分野の専門家が画像にラベルを付けるにはコストと時間がかかります。
ポイント ラベルの伝播は、まばらなポイント ラベルでラベル付けされた既存のイメージ データを活用するために使用されるアプローチです。
生成された拡張グラウンド トゥルースは、セマンティック セグメンテーション モデルのトレーニングに使用されます。
ここでは、基礎モデルの最近の進歩により、事前トレーニングやカスタム設計のアルゴリズムを必要とせずに、ノイズ除去された DINOv2 特徴と K 最近傍法 (KNN) を使用して、複数種のサンゴ拡張グラウンド トゥルース マスクを生成できることを初めて示します。
ラベルが非常にまばらな画像の場合、人間参加型の原則に基づいたラベル付け方式を提案します。その結果、アノテーション効率が大幅に向上します。画像ごとに 5 ポイントのラベルのみが利用可能な場合、私たちが提案する人間参加型アプローチは、
最先端のものよりピクセル精度で 17.3%、mIoU で 22.6% 向上しています。
画像ごとに 10 ポイントのラベルが使用可能な場合は、10.6% および 19.1% 増加します。
人間参加型のラベル付け方式が使用されていない場合でも、KNN を使用したノイズ除去された DINOv2 機能は、ピクセル精度で 3.5%、mIoU (5 グリッド ポイント) で 5.7% と、従来の最先端技術を上回っています。
また、ポイント ラベルのスタイルと画像ごとのポイントの量がポイント ラベルの伝播品質にどのように影響するかについて詳細な分析を提供し、ポイント ラベルの効率を最大化するための一般的な推奨事項を提供します。

要約(オリジナル)

Broad-scale marine surveys performed by underwater vehicles significantly increase the availability of coral reef imagery, however it is costly and time-consuming for domain experts to label images. Point label propagation is an approach used to leverage existing image data labeled with sparse point labels. The resulting augmented ground truth generated is then used to train a semantic segmentation model. Here, we first demonstrate that recent advances in foundation models enable generation of multi-species coral augmented ground truth masks using denoised DINOv2 features and K-Nearest Neighbors (KNN), without the need for any pre-training or custom-designed algorithms. For extremely sparsely labeled images, we propose a labeling regime based on human-in-the-loop principles, resulting in significant improvement in annotation efficiency: If only 5 point labels per image are available, our proposed human-in-the-loop approach improves on the state-of-the-art by 17.3% for pixel accuracy and 22.6% for mIoU; and by 10.6% and 19.1% when 10 point labels per image are available. Even if the human-in-the-loop labeling regime is not used, the denoised DINOv2 features with a KNN outperforms the prior state-of-the-art by 3.5% for pixel accuracy and 5.7% for mIoU (5 grid points). We also provide a detailed analysis of how point labeling style and the quantity of points per image affects the point label propagation quality and provide general recommendations on maximizing point label efficiency.

arxiv情報

著者 Scarlett Raine,Ross Marchant,Brano Kusy,Frederic Maire,Niko Suenderhauf,Tobias Fischer
発行日 2024-04-15 01:47:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.HC, cs.LG, cs.RO パーマリンク