ToMiE: Towards Modular Growth in Enhanced SMPL Skeleton for 3D Human with Animatable Garments

要約

この論文では、ほとんどの 3D 人間のタスク、つまり複雑な衣服を着た人間のモデリングにおいて、重要でありながらも見落とされがちな要素に焦点を当てます。
SMPL のパラメータ化された処方は人間の皮膚にフィットすることが知られています。
一方、手に持つ物やゆったりとした衣服などの複雑な衣服は、通常、その動きが人体と切り離されているため、統一されたフレームワーク内でモデル化することが困難です。
この状況に対応して SMPL スケルトンの機能を強化するために、スケルトンのジョイント ツリーを適応的に拡張できるようにするモジュール成長戦略を提案します。
具体的には、ToMiE と呼ばれる私たちの手法は、親関節の位置特定と外部関節の最適化で構成されています。
親ジョイントの位置特定には、LBS ブレンディング ウェイトとモーション カーネルの両方によって導かれる勾配ベースのアプローチを採用します。
外部ジョイントが取得されたら、SE(3) でさまざまなフレームにわたるその変換の最適化に進み、レンダリングと明示的なアニメーションを有効にします。
ToMiE は、衣服のさまざまなケースにおいて、レンダリング品質だけでなく、成長した関節の無料アニメーションを提供することにより、他の方法よりも優れたパフォーマンスを実現し、それにより、より幅広いアプリケーション向けに SMPL スケルトンの表現能力を強化します。

要約(オリジナル)

In this paper, we highlight a critical yet often overlooked factor in most 3D human tasks, namely modeling humans with complex garments. It is known that the parameterized formulation of SMPL is able to fit human skin; while complex garments, e.g., hand-held objects and loose-fitting garments, are difficult to get modeled within the unified framework, since their movements are usually decoupled with the human body. To enhance the capability of SMPL skeleton in response to this situation, we propose a modular growth strategy that enables the joint tree of the skeleton to expand adaptively. Specifically, our method, called ToMiE, consists of parent joints localization and external joints optimization. For parent joints localization, we employ a gradient-based approach guided by both LBS blending weights and motion kernels. Once the external joints are obtained, we proceed to optimize their transformations in SE(3) across different frames, enabling rendering and explicit animation. ToMiE manages to outperform other methods across various cases with garments, not only in rendering quality but also by offering free animation of grown joints, thereby enhancing the expressive ability of SMPL skeleton for a broader range of applications.

arxiv情報

著者 Yifan Zhan,Qingtian Zhu,Muyao Niu,Mingze Ma,Jiancheng Zhao,Zhihang Zhong,Xiao Sun,Yu Qiao,Yinqiang Zheng
発行日 2024-10-10 16:25:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | ToMiE: Towards Modular Growth in Enhanced SMPL Skeleton for 3D Human with Animatable Garments はコメントを受け付けていません

Distribution Guidance Network for Weakly Supervised Point Cloud Semantic Segmentation

要約

完全に監視された方法に固有の高密度のアノテーションへの依存が軽減されるにもかかわらず、弱く監視された点群セマンティック セグメンテーションは、不適切な監視信号に悩まされます。
この課題に応えて、弱い監視の下で特徴空間を調整することによって補助的な制約を与える新しい視点を導入します。
私たちの最初の調査では、どの分布が特徴空間を正確に特徴づけているかを特定し、その後、このアプリオリを活用して、弱く教師された埋め込みの位置合わせをガイドします。
具体的には、いくつかの一般的な分布候補間のフォン ミーゼス フィッシャー分布の混合 (moVMF) の優位性を分析します。
したがって、我々は、弱教師学習ブランチと配信調整ブランチで構成される配信ガイダンス ネットワーク (DGNet) を開発します。
弱教師学習ブランチから導出された信頼性の高いクラスタリング初期化を利用して、分布調整ブランチは moVMF とネットワークのパラメータを交互に更新し、moVMF で定義された潜在空間との調整を保証します。
広範な実験により、ディストリビューションの選択とネットワーク設計の合理性と有効性が検証されます。
その結果、DGNet は、複数のデータセットとさまざまな弱く監視された設定の下で最先端のパフォーマンスを実現します。

要約(オリジナル)

Despite alleviating the dependence on dense annotations inherent to fully supervised methods, weakly supervised point cloud semantic segmentation suffers from inadequate supervision signals. In response to this challenge, we introduce a novel perspective that imparts auxiliary constraints by regulating the feature space under weak supervision. Our initial investigation identifies which distributions accurately characterize the feature space, subsequently leveraging this priori to guide the alignment of the weakly supervised embeddings. Specifically, we analyze the superiority of the mixture of von Mises-Fisher distributions (moVMF) among several common distribution candidates. Accordingly, we develop a Distribution Guidance Network (DGNet), which comprises a weakly supervised learning branch and a distribution alignment branch. Leveraging reliable clustering initialization derived from the weakly supervised learning branch, the distribution alignment branch alternately updates the parameters of the moVMF and the network, ensuring alignment with the moVMF-defined latent space. Extensive experiments validate the rationality and effectiveness of our distribution choice and network design. Consequently, DGNet achieves state-of-the-art performance under multiple datasets and various weakly supervised settings.

arxiv情報

著者 Zhiyi Pan,Wei Gao,Shan Liu,Ge Li
発行日 2024-10-10 16:33:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Distribution Guidance Network for Weakly Supervised Point Cloud Semantic Segmentation はコメントを受け付けていません

UW-SDF: Exploiting Hybrid Geometric Priors for Neural SDF Reconstruction from Underwater Multi-view Monocular Images

要約

水中環境の独特な特性により、水中探査やマッピングなどのタスクでは、水中の物体の正確な 3D 再構成が困難な問題を引き起こします。
3D 再構築のために複数のセンサー データに依存する従来の方法は時間がかかり、水中シナリオでのデータ取得において課題に直面しています。
我々はニューラルSDFに基づいて多視点水中画像から対象物体を再構成するフレームワークUW-SDFを提案する。
ハイブリッド幾何事前分布を導入して再構成プロセスを最適化し、ニューラル SDF 再構成の品質と効率を大幅に向上させます。
さらに、マルチビュー画像のセグメンテーションの一貫性という課題に対処するために、汎用セグメンテーション モデル (SAM) を使用した新しい少数ショットのマルチビュー ターゲット セグメンテーション戦略を提案し、目に見えないオブジェクトの迅速な自動セグメンテーションを可能にします。
多様なデータセットに対する広範な定性的および定量的実験を通じて、私たちが提案する方法が、水中3D再構成の分野における従来の水中3D再構成方法や他のニューラルレンダリングアプローチよりも優れていることを実証します。

要約(オリジナル)

Due to the unique characteristics of underwater environments, accurate 3D reconstruction of underwater objects poses a challenging problem in tasks such as underwater exploration and mapping. Traditional methods that rely on multiple sensor data for 3D reconstruction are time-consuming and face challenges in data acquisition in underwater scenarios. We propose UW-SDF, a framework for reconstructing target objects from multi-view underwater images based on neural SDF. We introduce hybrid geometric priors to optimize the reconstruction process, markedly enhancing the quality and efficiency of neural SDF reconstruction. Additionally, to address the challenge of segmentation consistency in multi-view images, we propose a novel few-shot multi-view target segmentation strategy using the general-purpose segmentation model (SAM), enabling rapid automatic segmentation of unseen objects. Through extensive qualitative and quantitative experiments on diverse datasets, we demonstrate that our proposed method outperforms the traditional underwater 3D reconstruction method and other neural rendering approaches in the field of underwater 3D reconstruction.

arxiv情報

著者 Zeyu Chen,Jingyi Tang,Gu Wang,Shengquan Li,Xinghui Li,Xiangyang Ji,Xiu Li
発行日 2024-10-10 16:33:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | UW-SDF: Exploiting Hybrid Geometric Priors for Neural SDF Reconstruction from Underwater Multi-view Monocular Images はコメントを受け付けていません

CrackSegDiff: Diffusion Probability Model-based Multi-modal Crack Segmentation

要約

グレースケールデータと深度データを道路検査ロボットに統合すると、道路状況評価の精度、信頼性、包括性が向上し、メンテナンス戦略の改善とより安全なインフラストラクチャにつながる可能性があります。
ただし、これらのデータ ソースは、舗装からの重大なバックグラウンド ノイズによって損なわれることがよくあります。
拡散確率モデル (DPM) の最近の進歩は、SegDiff \cite{amit2021segdiff} などの研究で証明されているように、画像セグメンテーション タスクで目覚ましい成功を収め、強力なノイズ除去機能を示しています。
これらの進歩にもかかわらず、現在の DPM ベースのセグメンタは元の画像データの可能性を十分に活用していません。
この論文では、グレースケール画像と距離/深さ画像を独自に融合する、CrackSegDiff と呼ばれる亀裂セグメンテーションのための新しい DPM ベースのアプローチを提案します。
この方法は、DPM によるローカル特徴抽出とグローバル特徴抽出の間の相互作用を強化することにより、逆拡散プロセスを強化します。
グローバル機能に Transformer を利用する従来の方法とは異なり、私たちのアプローチでは Vm-unet \cite{ruan2024vm} を採用して、元のデータの長距離情報を効率的にキャプチャします。
機能の統合は、Channel Fusion Module (CFM) と Shallow Feature Compensation Module (SFCM) という 2 つの革新的なモジュールを通じてさらに洗練されています。
FIND データセット内の 3 クラスの亀裂画像セグメンテーション タスクに関する実験的評価では、CrackSegDiff が最先端の方法よりも優れた性能を発揮し、特に浅い亀裂の検出に優れていることが実証されました。
コードは https://github.com/sky-visionX/CrackSegDiff で入手できます。

要約(オリジナル)

Integrating grayscale and depth data in road inspection robots could enhance the accuracy, reliability, and comprehensiveness of road condition assessments, leading to improved maintenance strategies and safer infrastructure. However, these data sources are often compromised by significant background noise from the pavement. Recent advancements in Diffusion Probabilistic Models (DPM) have demonstrated remarkable success in image segmentation tasks, showcasing potent denoising capabilities, as evidenced in studies like SegDiff \cite{amit2021segdiff}. Despite these advancements, current DPM-based segmentors do not fully capitalize on the potential of original image data. In this paper, we propose a novel DPM-based approach for crack segmentation, named CrackSegDiff, which uniquely fuses grayscale and range/depth images. This method enhances the reverse diffusion process by intensifying the interaction between local feature extraction via DPM and global feature extraction. Unlike traditional methods that utilize Transformers for global features, our approach employs Vm-unet \cite{ruan2024vm} to efficiently capture long-range information of the original data. The integration of features is further refined through two innovative modules: the Channel Fusion Module (CFM) and the Shallow Feature Compensation Module (SFCM). Our experimental evaluation on the three-class crack image segmentation tasks within the FIND dataset demonstrates that CrackSegDiff outperforms state-of-the-art methods, particularly excelling in the detection of shallow cracks. Code is available at https://github.com/sky-visionX/CrackSegDiff.

arxiv情報

著者 Xiaoyan Jiang,Licheng Jiang,Anjie Wang,Kaiying Zhu,Yongbin Gao
発行日 2024-10-10 16:44:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | CrackSegDiff: Diffusion Probability Model-based Multi-modal Crack Segmentation はコメントを受け付けていません

IncEventGS: Pose-Free Gaussian Splatting from a Single Event Camera

要約

新しいビュー合成のための暗黙的ニューラル表現と明示的 3D ガウス スプラッティング (3D-GS) は、最近、フレームベースのカメラ (RGB カメラや RGB-D カメラなど) で目覚ましい進歩を遂げています。
フレームベースのカメラと比較して、新しいタイプの生体からインスピレーションを得た視覚センサー、つまりイベント カメラは、高時間解像度、高ダイナミック レンジ、低消費電力、低遅延という利点を実証しています。
独自の非同期で不規則なデータ キャプチャ プロセスのため、イベント カメラにニューラル表現または 3D ガウス スプラッティングを適用するために提案されている作業は限られています。
この研究では、単一のイベント カメラを使用したインクリメンタル 3D ガウス スプラッティング再構成アルゴリズムである IncEventGS を紹介します。
3D シーン表現を段階的に復元するために、IncEventGS の従来の SLAM パイプラインの追跡およびマッピング パラダイムを利用します。
受信イベント ストリームが与えられると、トラッカーはまず、以前に再構築された 3D-GS シーン表現に基づいて初期カメラの動きを推定します。
次に、マッパーは、トラッカーから事前に推定されたモーション軌跡に基づいて、3D シーン表現とカメラ モーションの両方を共同で調整します。
実験結果は、グラウンドトゥルース カメラのポーズがない場合でも、IncEventGS が以前の NeRF ベースの手法やその他の関連ベースラインと比較して優れたパフォーマンスを提供することを示しています。
さらに、私たちの方法は、カメラの動きの推定に関して、最先端のイベントビジュアルオドメトリ方法と比較して優れたパフォーマンスを提供することもできます。
コードは https://github.com/wu-cvgl/IncEventGS で公開されています。

要約(オリジナル)

Implicit neural representation and explicit 3D Gaussian Splatting (3D-GS) for novel view synthesis have achieved remarkable progress with frame-based camera (e.g. RGB and RGB-D cameras) recently. Compared to frame-based camera, a novel type of bio-inspired visual sensor, i.e. event camera, has demonstrated advantages in high temporal resolution, high dynamic range, low power consumption and low latency. Due to its unique asynchronous and irregular data capturing process, limited work has been proposed to apply neural representation or 3D Gaussian splatting for an event camera. In this work, we present IncEventGS, an incremental 3D Gaussian Splatting reconstruction algorithm with a single event camera. To recover the 3D scene representation incrementally, we exploit the tracking and mapping paradigm of conventional SLAM pipelines for IncEventGS. Given the incoming event stream, the tracker firstly estimates an initial camera motion based on prior reconstructed 3D-GS scene representation. The mapper then jointly refines both the 3D scene representation and camera motion based on the previously estimated motion trajectory from the tracker. The experimental results demonstrate that IncEventGS delivers superior performance compared to prior NeRF-based methods and other related baselines, even we do not have the ground-truth camera poses. Furthermore, our method can also deliver better performance compared to state-of-the-art event visual odometry methods in terms of camera motion estimation. Code is publicly available at: https://github.com/wu-cvgl/IncEventGS.

arxiv情報

著者 Jian Huang,Chengrui Dong,Peidong Liu
発行日 2024-10-10 16:54:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | IncEventGS: Pose-Free Gaussian Splatting from a Single Event Camera はコメントを受け付けていません

Parameter-Efficient Fine-Tuning in Spectral Domain for Point Cloud Learning

要約

最近、事前トレーニング技術を活用して点群モデルを強化することが注目の研究テーマになっています。
ただし、既存のアプローチでは通常、下流のタスクで満足のいくパフォーマンスを達成するために、事前トレーニングされたモデルを完全に微調整する必要があり、ストレージ集約型で計算負荷が高くなります。
この問題に対処するために、我々は、PointGST (Point Cloud Graph Spectral Tuning) と呼ばれる、点群のための新しい Parameter-Efficient Fine-Tuning (PEFT) 方法を提案します。
PointGST は、事前トレーニングされたモデルをフリーズし、軽量でトレーニング可能な点群スペクトル アダプター (PCSA) を導入して、スペクトル ドメインのパラメーターを微調整します。
核となるアイデアは 2 つの観察に基づいて構築されています。1) 凍結されたモデルからの内部トークンは、空間領域で混乱を引き起こす可能性があります。
2) タスク固有の固有情報は、一般的な知識を下流のタスクに転送するために重要です。
具体的には、PointGST はポイント トークンを空間ドメインからスペクトル ドメインに転送し、分離に直交成分を使用することでトークン間の混乱を効果的に非相関化します。
さらに、生成されたスペクトル基底には下流の点群に関する固有の情報が含まれており、よりターゲットを絞った調整が可能になります。
その結果、PointGST は、トレーニング コストを大幅に削減しながら、一般知識を下流のタスクに効率的に伝達することを容易にします。
さまざまなタスクにわたる困難な点群データセットに関する広範な実験により、PointGST が完全に微調整された対応物よりも優れたパフォーマンスを発揮するだけでなく、トレーニング可能なパラメータが大幅に削減され、効率的な点群学習のための有望なソリューションとなることが実証されました。
堅調なベースラインから +2.28%、1.16%、2.78% 向上し、ScanObjNN OBJ BG、OBJ OBLY、PB T50 RS データセットではそれぞれ 99.48%、97.76%、96.18% となりました。
この進歩により、トレーニング可能なパラメータのわずか 0.67% を使用して、新たな最先端技術が確立されました。

要約(オリジナル)

Recently, leveraging pre-training techniques to enhance point cloud models has become a hot research topic. However, existing approaches typically require full fine-tuning of pre-trained models to achieve satisfied performance on downstream tasks, accompanying storage-intensive and computationally demanding. To address this issue, we propose a novel Parameter-Efficient Fine-Tuning (PEFT) method for point cloud, called PointGST (Point cloud Graph Spectral Tuning). PointGST freezes the pre-trained model and introduces a lightweight, trainable Point Cloud Spectral Adapter (PCSA) to fine-tune parameters in the spectral domain. The core idea is built on two observations: 1) The inner tokens from frozen models might present confusion in the spatial domain; 2) Task-specific intrinsic information is important for transferring the general knowledge to the downstream task. Specifically, PointGST transfers the point tokens from the spatial domain to the spectral domain, effectively de-correlating confusion among tokens via using orthogonal components for separating. Moreover, the generated spectral basis involves intrinsic information about the downstream point clouds, enabling more targeted tuning. As a result, PointGST facilitates the efficient transfer of general knowledge to downstream tasks while significantly reducing training costs. Extensive experiments on challenging point cloud datasets across various tasks demonstrate that PointGST not only outperforms its fully fine-tuning counterpart but also significantly reduces trainable parameters, making it a promising solution for efficient point cloud learning. It improves upon a solid baseline by +2.28%, 1.16%, and 2.78%, resulting in 99.48%, 97.76%, and 96.18% on the ScanObjNN OBJ BG, OBJ OBLY, and PB T50 RS datasets, respectively. This advancement establishes a new state-of-the-art, using only 0.67% of the trainable parameters.

arxiv情報

著者 Dingkang Liang,Tianrui Feng,Xin Zhou,Yumeng Zhang,Zhikang Zou,Xiang Bai
発行日 2024-10-10 17:00:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Parameter-Efficient Fine-Tuning in Spectral Domain for Point Cloud Learning はコメントを受け付けていません

Medical Image Quality Assessment based on Probability of Necessity and Sufficiency

要約

医用画像品質評価 (MIQA) は、信頼性の高い医用画像分析に不可欠です。
ディープラーニングはこの分野で有望であることが示されていますが、現在のモデルはデータから学習した偽の相関によって誤解される可能性があり、配布外 (OOD) シナリオに苦戦する可能性があります。
そのために、私たちは因果推論の概念である必要性と十分性の確率 (PNS) に基づいた MIQA フレームワークを提案します。
PNS は、一連の特徴が特定の結果に対して必要 (結果に対して常に存在する) である可能性と十分である (結果を保証できる) 可能性の両方を測定します。
私たちのアプローチは、品質予測のために高い PNS 値を持つ医療画像から隠された特徴を学習することによってこの概念を活用します。
これにより、モデルがより重要な予測情報を取得することが促進され、OOD シナリオに対する堅牢性が強化されます。
MIQA タスクの前眼部光コヒーレンス断層撮影 (AS-OCT) データセットに関するフレームワークを評価し、実験結果によりフレームワークの有効性が実証されました。

要約(オリジナル)

Medical image quality assessment (MIQA) is essential for reliable medical image analysis. While deep learning has shown promise in this field, current models could be misled by spurious correlations learned from data and struggle with out-of-distribution (OOD) scenarios. To that end, we propose an MIQA framework based on a concept from causal inference: Probability of Necessity and Sufficiency (PNS). PNS measures how likely a set of features is to be both necessary (always present for an outcome) and sufficient (capable of guaranteeing an outcome) for a particular result. Our approach leverages this concept by learning hidden features from medical images with high PNS values for quality prediction. This encourages models to capture more essential predictive information, enhancing their robustness to OOD scenarios. We evaluate our framework on an Anterior Segment Optical Coherence Tomography (AS-OCT) dataset for the MIQA task and experimental results demonstrate the effectiveness of our framework.

arxiv情報

著者 Boyu Chen,Ameenat L. Solebo,Weiye Bao,Paul Taylor
発行日 2024-10-10 17:01:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Medical Image Quality Assessment based on Probability of Necessity and Sufficiency はコメントを受け付けていません

Q-VLM: Post-training Quantization for Large Vision-Language Models

要約

この論文では、効率的なマルチモーダル推論のための大規模ビジョン言語モデル (LVLM) のトレーニング後の量子化フレームワークを提案します。
従来の量子化手法は、活性化離散化誤差を最小限に抑えて層ごとの丸め関数を逐次探索するため、層間の依存性を考慮せずに最適な量子化戦略を取得できません。
逆に、視覚言語モデル全体の離散化誤差に大きな影響を与える層間依存関係をマイニングし、この依存関係を低探索コストで最適な量子化戦略探索に埋め込みます。
具体的には、活性化エントロピーと出力離散化誤差に関する層間依存性との間に強い相関関係があることが観察されます。
したがって、ブロックを最適に分割するためのプロキシとしてエントロピーを使用します。これは、離散化エラーと検索コストの間で満足のいくトレードオフを達成することを目的としています。
さらに、ビジュアル エンコーダを最適化して、探索空間をきめ細かく分解するための層間の依存関係を解消し、量子化精度を損なうことなく探索コストをさらに削減します。
実験結果は、私たちの方法が、多様なマルチモーダル推論タスクでパフォーマンスを低下させることなく、メモリを 2.78 倍圧縮し、約 13B LLaVA モデルの生成速度を 1.44 倍向上させることを示しています。
コードは https://github.com/ChangyuanWang17/QVLM で入手できます。

要約(オリジナル)

In this paper, we propose a post-training quantization framework of large vision-language models (LVLMs) for efficient multi-modal inference. Conventional quantization methods sequentially search the layer-wise rounding functions by minimizing activation discretization errors, which fails to acquire optimal quantization strategy without considering cross-layer dependency. On the contrary, we mine the cross-layer dependency that significantly influences discretization errors of the entire vision-language model, and embed this dependency into optimal quantization strategy searching with low search cost. Specifically, we observe the strong correlation between the activation entropy and the cross-layer dependency concerning output discretization errors. Therefore, we employ the entropy as the proxy to partition blocks optimally, which aims to achieve satisfying trade-offs between discretization errors and the search cost. Moreover, we optimize the visual encoder to disentangle the cross-layer dependency for fine-grained decomposition of search space, so that the search cost is further reduced without harming the quantization accuracy. Experimental results demonstrate that our method compresses the memory by 2.78x and increase generate speed by 1.44x about 13B LLaVA model without performance degradation on diverse multi-modal reasoning tasks. Code is available at https://github.com/ChangyuanWang17/QVLM.

arxiv情報

著者 Changyuan Wang,Ziwei Wang,Xiuwei Xu,Yansong Tang,Jie Zhou,Jiwen Lu
発行日 2024-10-10 17:02:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Q-VLM: Post-training Quantization for Large Vision-Language Models はコメントを受け付けていません

RISE-SDF: a Relightable Information-Shared Signed Distance Field for Glossy Object Inverse Rendering

要約

この論文では、形状と材料特性の高品質な再構築を実現し、高品質の再照明を可能にする、新しいエンドツーエンドの再照明可能なニューラル インバース レンダリング システムを提案します。
私たちの方法の基礎は、シーン パラメーターのより適切な因数分解を学習するための 2 段階のアプローチです。
最初の段階では、ジオメトリ表現として神経符号付き距離フィールド (SDF) を使用して反射を意識した放射輝度フィールドを開発し、間接照明を推定するために MLP (多層パーセプトロン) を展開します。
第 2 段階では、シーンの放射フィールドと物理ベースの因数分解を共同で学習するための新しい情報共有ネットワーク構造を導入します。
物理ベースの因数分解では、モンテカルロ サンプリングによって生じるノイズを低減するために、簡略化された Disney BRDF とキューブ ミップマップを環境光の表現として使用した分割和近似を適用します。
再照明フェーズでは、間接照明の品質を向上させるために、スプリットサム レンダリング フレームワークの下で二次光線を追跡するための 2 番目のスプリットサム アルゴリズムを提案します。
さらに、光沢のあるオブジェクトの逆レンダリング パフォーマンスを定量的に評価するために利用できるデータセットやプロトコルはありません。
マテリアルの再構築と再ライティングの品質を評価するために、グラウンド トゥルースの BRDF パラメーターと再ライティングの結果を含む新しいデータセットを作成しました。
私たちの実験では、私たちのアルゴリズムが逆レンダリングと再ライティングにおいて最先端のパフォーマンスを達成し、特に反射率の高いオブジェクトの再構築において優れた結果が得られることが実証されました。

要約(オリジナル)

In this paper, we propose a novel end-to-end relightable neural inverse rendering system that achieves high-quality reconstruction of geometry and material properties, thus enabling high-quality relighting. The cornerstone of our method is a two-stage approach for learning a better factorization of scene parameters. In the first stage, we develop a reflection-aware radiance field using a neural signed distance field (SDF) as the geometry representation and deploy an MLP (multilayer perceptron) to estimate indirect illumination. In the second stage, we introduce a novel information-sharing network structure to jointly learn the radiance field and the physically based factorization of the scene. For the physically based factorization, to reduce the noise caused by Monte Carlo sampling, we apply a split-sum approximation with a simplified Disney BRDF and cube mipmap as the environment light representation. In the relighting phase, to enhance the quality of indirect illumination, we propose a second split-sum algorithm to trace secondary rays under the split-sum rendering framework. Furthermore, there is no dataset or protocol available to quantitatively evaluate the inverse rendering performance for glossy objects. To assess the quality of material reconstruction and relighting, we have created a new dataset with ground truth BRDF parameters and relighting results. Our experiments demonstrate that our algorithm achieves state-of-the-art performance in inverse rendering and relighting, with particularly strong results in the reconstruction of highly reflective objects.

arxiv情報

著者 Deheng Zhang,Jingyu Wang,Shaofei Wang,Marko Mihajlovic,Sergey Prokudin,Hendrik P. A. Lensch,Siyu Tang
発行日 2024-10-10 17:05:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR | RISE-SDF: a Relightable Information-Shared Signed Distance Field for Glossy Object Inverse Rendering はコメントを受け付けていません

Efficient Perspective-Correct 3D Gaussian Splatting Using Hybrid Transparency

要約

3D ガウス スプラット (3DGS) は、逆レンダリングとシーンのリアルタイム探索の両方において、多用途のレンダリング プリミティブであることが証明されています。
これらのアプリケーションでは、シーン再構成の堅牢な収束やアーティファクトのないフライスルーのいずれであっても、カメラ フレームと複数のビューにわたる一貫性が非常に重要です。
最近の取り組みでは、一貫性のない透明度の並べ替えや (2D) スプラットの遠近法が正しい輪郭によるポップ アーティファクトなど、マルチビューの一貫性を損なうアーティファクトの軽減を開始しました。
同時に、リアルタイム要件により、このような実装は 3D ガウスの大きなアセンブリの透明性を解決する方法について妥協を受け入れることを余儀なくされ、その結果、他の方法で一貫性が損なわれてしまいました。
私たちの作業では、リアルタイムのフレーム レートを維持するために、ピクセルごとのレベルで正確なブレンディングとハイブリッド透明度の高品質な近似を使用しながら、完全に遠近法が正しい 3D ガウスをレンダリングすることで、コヒーレンスを最大化することを目指しています。
3D ガウスを評価するための高速かつ透視的に正確なアプローチは、行列の反転を必要としないため、数値的安定性が確保され、縮退スプラットの特別な処理の必要性がなくなり、ブレンド用のハイブリッド透明度の定式化により、完全に解像度されたピクセルごとの透明度と同様の品質が維持されます。
レンダリングコストの一部。
さらに、これら 2 つのコンポーネントのそれぞれを独立してガウス スプラッティング システムに統合できることを示します。
これらを組み合わせることで、一般的なベンチマークで従来の 3DGS と比較して、最大 2$\倍$ 高いフレーム レート、2$\倍$ 高速な最適化、およびレンダリング アーティファクトの少ない同等以上の画質を実現します。

要約(オリジナル)

3D Gaussian Splats (3DGS) have proven a versatile rendering primitive, both for inverse rendering as well as real-time exploration of scenes. In these applications, coherence across camera frames and multiple views is crucial, be it for robust convergence of a scene reconstruction or for artifact-free fly-throughs. Recent work started mitigating artifacts that break multi-view coherence, including popping artifacts due to inconsistent transparency sorting and perspective-correct outlines of (2D) splats. At the same time, real-time requirements forced such implementations to accept compromises in how transparency of large assemblies of 3D Gaussians is resolved, in turn breaking coherence in other ways. In our work, we aim at achieving maximum coherence, by rendering fully perspective-correct 3D Gaussians while using a high-quality approximation of accurate blending, hybrid transparency, on a per-pixel level, in order to retain real-time frame rates. Our fast and perspectively accurate approach for evaluation of 3D Gaussians does not require matrix inversions, thereby ensuring numerical stability and eliminating the need for special handling of degenerate splats, and the hybrid transparency formulation for blending maintains similar quality as fully resolved per-pixel transparencies at a fraction of the rendering costs. We further show that each of these two components can be independently integrated into Gaussian splatting systems. In combination, they achieve up to 2$\times$ higher frame rates, 2$\times$ faster optimization, and equal or better image quality with fewer rendering artifacts compared to traditional 3DGS on common benchmarks.

arxiv情報

著者 Florian Hahlbohm,Fabian Friederichs,Tim Weyrich,Linus Franke,Moritz Kappel,Susana Castillo,Marc Stamminger,Martin Eisemann,Marcus Magnor
発行日 2024-10-10 17:14:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR | Efficient Perspective-Correct 3D Gaussian Splatting Using Hybrid Transparency はコメントを受け付けていません