要約
ディープラーニングは、画像解析の基本タスクであるセマンティックセグメンテーションに特に有用であることが証明されている。しかし、標準的なディープラーニング手法では、真実の画素単位のアノテーションを持つ多くの学習画像が必要であり、その取得には通常手間がかかり、場合によっては(例えば、医療画像)ドメインの専門知識が必要となる。そこで、画素単位の注釈の代わりに、取得が容易でありながら情報量の多い画像注釈、すなわち前景オブジェクトのサイズに注目する。我々はオブジェクトサイズを前景画素と背景の間の最大距離と定義する。我々は、少数のピクセル単位の注釈付き画像と、既知のオブジェクトサイズを持つ多数の画像からなるデータセットから、深いセグメンテーションネットワークを学習するアルゴリズムを提案する。このアルゴリズムは、勾配をサンプリングし、標準的なバックプロパゲーションアルゴリズムを用いることで、オブジェクトサイズに対して定義された離散(非微分)損失関数を最小化するものである。我々は、学習時間と汎化誤差の観点から、本アプローチの性能を研究する。
要約(オリジナル)
Deep learning has proved particularly useful for semantic segmentation, a fundamental image analysis task. However, the standard deep learning methods need many training images with ground-truth pixel-wise annotations, which are usually laborious to obtain and, in some cases (e.g., medical images), require domain expertise. Therefore, instead of pixel-wise annotations, we focus on image annotations that are significantly easier to acquire but still informative, namely the size of foreground objects. We define the object size as the maximum distance between a foreground pixel and the background. We propose an algorithm for training a deep segmentation network from a dataset of a few pixel-wise annotated images and many images with known object sizes. The algorithm minimizes a discrete (non-differentiable) loss function defined over the object sizes by sampling the gradient and then using the standard back-propagation algorithm. We study the performance of our approach in terms of training time and generalization error.
arxiv情報
著者 | Denis Baručić,Jan Kybic |
発行日 | 2022-07-01 09:34:44+00:00 |
arxivサイト | arxiv_id(pdf) |