DiffAssemble: A Unified Graph-Diffusion Model for 2D and 3D Reassembly

要約

再アセンブリ タスクは多くの分野で基本的な役割を果たしており、特定の再アセンブリ問題を解決するために複数のアプローチが存在します。
これに関連して、入力データの種類 (画像、3D など) に関係なく、一般的な統一モデルがそれらすべてに効果的に対処できると仮定します。
拡散モデル定式化を使用して再アセンブリ タスクを解決する方法を学習する、グラフ ニューラル ネットワーク (GNN) ベースのアーキテクチャである DiffAssemble を紹介します。
私たちの方法では、2D パッチの断片であろうと 3D オブジェクトのフラグメントであろうと、セットの要素を空間グラフのノードとして扱います。
トレーニングは、要素の位置と回転にノイズを導入し、繰り返しノイズを除去して一貫した初期ポーズを再構築することによって実行されます。
DiffAssemble は、ほとんどの 2D および 3D 再組み立てタスクで最先端 (SOTA) の結果を実現し、回転と平行移動の両方について 2D パズルを解く初の学習ベースのアプローチです。
さらに、実行時間が大幅に短縮され、パズルを解くための最も迅速な最適化ベースの方法よりも 11 倍高速に実行されることを強調します。
コードは https://github.com/IIT-PAVIS/DiffAssemble で入手できます

要約(オリジナル)

Reassembly tasks play a fundamental role in many fields and multiple approaches exist to solve specific reassembly problems. In this context, we posit that a general unified model can effectively address them all, irrespective of the input data type (images, 3D, etc.). We introduce DiffAssemble, a Graph Neural Network (GNN)-based architecture that learns to solve reassembly tasks using a diffusion model formulation. Our method treats the elements of a set, whether pieces of 2D patch or 3D object fragments, as nodes of a spatial graph. Training is performed by introducing noise into the position and rotation of the elements and iteratively denoising them to reconstruct the coherent initial pose. DiffAssemble achieves state-of-the-art (SOTA) results in most 2D and 3D reassembly tasks and is the first learning-based approach that solves 2D puzzles for both rotation and translation. Furthermore, we highlight its remarkable reduction in run-time, performing 11 times faster than the quickest optimization-based method for puzzle solving. Code available at https://github.com/IIT-PAVIS/DiffAssemble

arxiv情報

著者 Gianluca Scarpellini,Stefano Fiorini,Francesco Giuliari,Pietro Morerio,Alessio Del Bue
発行日 2024-02-29 16:09:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク