Mesh Denoising Transformer

要約

メッシュのノイズ除去は、特徴構造を維持しながら入力メッシュからノイズを除去することを目的としており、実用的ではありますが、困難なタスクです。
近年の学習ベースのメッシュノイズ除去手法の目覚ましい進歩にも関わらず、そのネットワーク設計はしばしば 2 つの主要な欠点に直面します。1 つは単一モードの幾何学的表現への依存であり、メッシュの多面的な属性を捉えるには不十分であること、もう 1 つは効果的なグローバルな表現が欠如していることです。
特徴が集約され、メッシュの包括的な構造を完全に理解する能力が妨げられます。
これらの問題に取り組むために、私たちは先駆的な Transformer ベースのメッシュノイズ除去フレームワークである SurfaceFormer を提案します。
私たちの最初の貢献は、ローカル サーフェス記述子として知られる新しい表現の開発です。これは、各メッシュ面に極座標系を確立し、続いて測地線を使用して隣接するサーフェスから点をサンプリングすることによって作成されます。
これらの点の法線は 2D パッチに編成され、画像を模倣して局所的な幾何学的複雑さをキャプチャします。一方、極と頂点の座標は空間情報を具体化するために点群に統合されます。
この進歩により、メッシュ データの不規則かつ非ユークリッド特性によってもたらされるハードルが克服され、Transformer アーキテクチャとのスムーズな統合が促進されます。
次に、ジオメトリ エンコーダ ブランチと空間エンコーダ ブランチで構成されるデュアル ストリーム構造を提案します。これらは、ローカル ジオメトリの詳細と空間情報を共同エンコードして、メッシュのノイズ除去のためのマルチモーダル情報を完全に調査します。
後続の Denoising Transformer モジュールはマルチモーダル情報を受信し、セルフ アテンション オペレーターを通じて効率的なグローバル特徴の集約を実現します。
私たちの実験的評価は、この新しいアプローチが客観的評価と主観的評価の両方で既存の最先端の方法を上回っており、メッシュのノイズ除去において大きな進歩を遂げていることを示しています。

要約(オリジナル)

Mesh denoising, aimed at removing noise from input meshes while preserving their feature structures, is a practical yet challenging task. Despite the remarkable progress in learning-based mesh denoising methodologies in recent years, their network designs often encounter two principal drawbacks: a dependence on single-modal geometric representations, which fall short in capturing the multifaceted attributes of meshes, and a lack of effective global feature aggregation, hindering their ability to fully understand the mesh’s comprehensive structure. To tackle these issues, we propose SurfaceFormer, a pioneering Transformer-based mesh denoising framework. Our first contribution is the development of a new representation known as Local Surface Descriptor, which is crafted by establishing polar systems on each mesh face, followed by sampling points from adjacent surfaces using geodesics. The normals of these points are organized into 2D patches, mimicking images to capture local geometric intricacies, whereas the poles and vertex coordinates are consolidated into a point cloud to embody spatial information. This advancement surmounts the hurdles posed by the irregular and non-Euclidean characteristics of mesh data, facilitating a smooth integration with Transformer architecture. Next, we propose a dual-stream structure consisting of a Geometric Encoder branch and a Spatial Encoder branch, which jointly encode local geometry details and spatial information to fully explore multimodal information for mesh denoising. A subsequent Denoising Transformer module receives the multimodal information and achieves efficient global feature aggregation through self-attention operators. Our experimental evaluations demonstrate that this novel approach outperforms existing state-of-the-art methods in both objective and subjective assessments, marking a significant leap forward in mesh denoising.

arxiv情報

著者 Wenbo Zhao,Xianming Liu,Deming Zhai,Junjun Jiang,Xiangyang Ji
発行日 2024-05-10 15:27:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク