Split, Merge, and Refine: Fitting Tight Bounding Boxes via Over-Segmentation and Iterative Search

要約

完全な網羅性を保証しつつ、形状のタイトなバウンディングボックスを達成することは、効率的な幾何演算や教師なし意味的部分検出にとって不可欠な課題である。しかし、これまでの方法では、完全な網羅性と緊密性の両方を達成することができない。ニューラルネットワークベースの手法は、目的の非微分性によりこれらの目的には適しておらず、古典的な反復探索手法は、初期化に対する感度に苦しむ。我々は、オーバーセグメンテーションと反復的なマージと精密化により、3次元形状のタイトなバウンディングボックスの集合を見つけるための新しいフレームワークを提案する。その結果、適切な目的を持つ効果的な探索手法を利用することが、両方の特性を持つバウンディングボックスを生成する鍵であることが示される。我々は、形状を分割し、オーバーセグメンテーションを得るために、既存のプレセグメンテーションを採用する。次に、我々の新しい稠密性を考慮したマージと停止基準による階層的マージを適用する。また、初期化に対する感度を克服するために、より広い探索を促進するソフトな報酬関数を持つマルコフ決定過程(MDP)設定において、バウンディングボックスのパラメータを洗練するためのアクションを定義する。最後に、モンテカルロ木探索(MCTS)に基づくマルチアクション空間探索により、洗練ステップをさらに改善する。多様な3次元形状に対する入念な評価により、我々は、学習データや監視を必要とすることなく、本手法の完全な網羅性、緊密性、および適切な数のバウンディングボックスを実証する。従って、本手法は、コンピュータビジョンやグラフィックスにおける様々な下流タスクに適用可能である。

要約(オリジナル)

Achieving tight bounding boxes of a shape while guaranteeing complete boundness is an essential task for efficient geometric operations and unsupervised semantic part detection. But previous methods fail to achieve both full coverage and tightness. Neural-network-based methods are not suitable for these goals due to the non-differentiability of the objective, while classic iterative search methods suffer from their sensitivity to the initialization. We propose a novel framework for finding a set of tight bounding boxes of a 3D shape via over-segmentation and iterative merging and refinement. Our result shows that utilizing effective search methods with appropriate objectives is the key to producing bounding boxes with both properties. We employ an existing pre-segmentation to split the shape and obtain over-segmentation. Then, we apply hierarchical merging with our novel tightness-aware merging and stopping criteria. To overcome the sensitivity to the initialization, we also define actions to refine the bounding box parameters in an Markov Decision Process (MDP) setup with a soft reward function promoting a wider exploration. Lastly, we further improve the refinement step with Monte Carlo Tree Search (MCTS) based multi-action space exploration. By thoughtful evaluation on diverse 3D shapes, we demonstrate full coverage, tightness, and an adequate number of bounding boxes of our method without requiring any training data or supervision. It thus can be applied to various downstream tasks in computer vision and graphics.

arxiv情報

著者 Chanhyeok Park,Minhyuk Sung
発行日 2023-12-01 14:07:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク