HAISTA-NET: Human Assisted Instance Segmentation Through Attention


インスタンス分割は画像検出の一種で、オブジェクトの絞り込み、医療画像解析、画像/動画編集など、さまざまな用途に使用され、いずれも高い精度が要求される。しかし、この精度は、最新の完全自動化インスタンス分割アルゴリズムでさえも、しばしばその範囲を超えることがあります。特に、小さくて複雑なオブジェクトの場合、その性能差は非常に大きくなります。そのため、一般的には、手動によるアノテーションを行うことになるが、これは手間のかかる作業となる可能性がある。この問題を克服するために、我々は、高曲率、複雑、かつ小規模なオブジェクトに対して、より正確な予測を可能にし、より高品質なセグメンテーションマスクを生成する新しいアプローチを提案する。我々の人間支援セグメンテーションモデルであるHAISTA-NETは、既存のStrong Mask R-CNNネットワークを拡張し、人間が指定した部分境界を取り込む。また、手描きの部分オブジェクト境界のデータセットを提示し、これを人間の注意マップと呼ぶ。さらに、Partial Sketch Object Boundaries (PSOB) データセットには、手描きの部分オブジェクト境界が含まれており、これはオブジェクトのグランドトゥルースマスクの曲率を数ピクセルで表している。PSOBデータセットを用いた広範な評価により、HAISTA-NETはMask R-CNN、Strong Mask R-CNN、Mask2Formerといった最先端の手法を凌駕し、AP-Maskメトリクスでそれぞれ+36.7、+29.6、+26.5ポイントの増加を達成することが示されました。私たちは、私たちの新しいアプローチが、完全に自動化されたインスタンス分割アーキテクチャと対話的なインスタンス分割アーキテクチャを組み合わせることによって、将来の人間支援型ディープラーニングモデルのベースラインを設定することを期待しています。


Instance segmentation is a form of image detection which has a range of applications, such as object refinement, medical image analysis, and image/video editing, all of which demand a high degree of accuracy. However, this precision is often beyond the reach of what even state-of-the-art, fully automated instance segmentation algorithms can deliver. The performance gap becomes particularly prohibitive for small and complex objects. Practitioners typically resort to fully manual annotation, which can be a laborious process. In order to overcome this problem, we propose a novel approach to enable more precise predictions and generate higher-quality segmentation masks for high-curvature, complex and small-scale objects. Our human-assisted segmentation model, HAISTA-NET, augments the existing Strong Mask R-CNN network to incorporate human-specified partial boundaries. We also present a dataset of hand-drawn partial object boundaries, which we refer to as human attention maps. In addition, the Partial Sketch Object Boundaries (PSOB) dataset contains hand-drawn partial object boundaries which represent curvatures of an object’s ground truth mask with several pixels. Through extensive evaluation using the PSOB dataset, we show that HAISTA-NET outperforms state-of-the art methods such as Mask R-CNN, Strong Mask R-CNN, and Mask2Former, achieving respective increases of +36.7, +29.6, and +26.5 points in AP-Mask metrics for these three models. We hope that our novel approach will set a baseline for future human-aided deep learning models by combining fully automated and interactive instance segmentation architectures.


著者 Muhammed Korkmaz,Tolga Buyukyazi,T. Metin Sezgin
発行日 2023-05-12 09:43:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV パーマリンク