要約
境界は、人間やコンピュータビジョンシステムで使用される主要な視覚的手がかりの一つである。境界検出における重要な問題の一つはラベル表現であり、これは一般的にクラスの不均衡を招き、その結果、境界が厚くなり、薄くするために非差異的な後処理段階を必要とする。本論文では、境界を1次元曲面として再解釈し、1対1のベクトル変換関数を定式化することで、クラスの不均衡の問題を完全に回避した境界予測の学習を可能にする。具体的には、任意の点における境界表現を、最も近い境界面を指し示す単位ベクトルと定義する。この問題定式化により、境界の方向だけでなく、より豊富な文脈情報を推定することができ、また、必要に応じて、学習時にゼロピクセルの薄い境界を利用することもできる。本手法では、学習時の損失にはハイパーパラメータを用いず、推論時には固定の安定したハイパーパラメータを用いる。また、ベクトル変換表現の理論的な正当性、考察を行う。提案する損失法を標準的なアーキテクチャを用いて評価し、いくつかのデータセットにおいて、他の損失や表現よりも優れた性能を示す。コードは https://github.com/edomel/BoundaryVT で公開されている.
要約(オリジナル)
Boundaries are among the primary visual cues used by human and computer vision systems. One of the key problems in boundary detection is the label representation, which typically leads to class imbalance and, as a consequence, to thick boundaries that require non-differential post-processing steps to be thinned. In this paper, we re-interpret boundaries as 1-D surfaces and formulate a one-to-one vector transform function that allows for training of boundary prediction completely avoiding the class imbalance issue. Specifically, we define the boundary representation at any point as the unit vector pointing to the closest boundary surface. Our problem formulation leads to the estimation of direction as well as richer contextual information of the boundary, and, if desired, the availability of zero-pixel thin boundaries also at training time. Our method uses no hyper-parameter in the training loss and a fixed stable hyper-parameter at inference. We provide theoretical justification/discussions of the vector transform representation. We evaluate the proposed loss method using a standard architecture and show the excellent performance over other losses and representations on several datasets. Code is available at https://github.com/edomel/BoundaryVT.
arxiv情報
| 著者 | Edoardo Mello Rella,Ajad Chhatkuli,Yun Liu,Ender Konukoglu,Luc Van Gool |
| 発行日 | 2022-09-08 17:56:08+00:00 |
| arxivサイト | arxiv_id(pdf) |