要約
本論文では、センサデータを条件とする生成プロセスとして再構成を定式化しながら、爆発的に増加する生成AIの中で新たな機械である拡散モデル(DM)を用いて視覚センサデータをポリゴン形状に変換する新しい構造化再構成アルゴリズムであるPolyDiffuseを提示する。1)構造化された形状は「集合」(例えば、間取り図のポリゴンの集合)であり、$N$要素のサンプルは$N!$異なるが同等の表現を持ち、ノイズ除去を非常に曖昧にする。我々の技術的貢献は、ガイダンスセット拡散モデルの導入である。1)順方向拡散プロセスは、ノイズ注入を制御するガイダンスネットワークを学習し、サンプルの1つの表現が他の順列変種と異なる状態を維持し、ノイズ除去の曖昧さを解決する。2)逆方向ノイズ除去プロセスは、センサデータに従う条件付き生成プロセスとして、ガイダンスネットワークによって初期化および指示されたポリゴン形状を再構築する。我々は、ポリゴンの集合体としての平面図とポリラインの集合体としての自律走行車用HDマップという2種類のポリゴン形状を再構成するアプローチについて評価した。標準的なベンチマークを用いた広範な実験を通じて、PolyDiffuseが現在の技術水準を大幅に向上させ、より広範な実用化を可能にすることを実証しています。
要約(オリジナル)
This paper presents PolyDiffuse, a novel structured reconstruction algorithm that transforms visual sensor data into polygonal shapes with Diffusion Models (DM), an emerging machinery amid exploding generative AI, while formulating reconstruction as a generation process conditioned on sensor data. The task of structured reconstruction poses two fundamental challenges to DM: 1) A structured geometry is a “set” (e.g., a set of polygons for a floorplan geometry), where a sample of $N$ elements has $N!$ different but equivalent representations, making the denoising highly ambiguous; and 2) A “reconstruction” task has a single solution, where an initial noise needs to be chosen carefully, while any initial noise works for a generation task. Our technical contribution is the introduction of a Guided Set Diffusion Model where 1) the forward diffusion process learns guidance networks to control noise injection so that one representation of a sample remains distinct from its other permutation variants, thus resolving denoising ambiguity; and 2) the reverse denoising process reconstructs polygonal shapes, initialized and directed by the guidance networks, as a conditional generation process subject to the sensor data. We have evaluated our approach for reconstructing two types of polygonal shapes: floorplan as a set of polygons and HD map for autonomous cars as a set of polylines. Through extensive experiments on standard benchmarks, we demonstrate that PolyDiffuse significantly advances the current state of the art and enables broader practical applications.
arxiv情報
著者 | Jiacheng Chen,Ruizhi Deng,Yasutaka Furukawa |
発行日 | 2023-06-02 11:38:04+00:00 |
arxivサイト | arxiv_id(pdf) |