Compensating Spatiotemporally Inconsistent Observations for Online Dynamic 3D Gaussian Splatting

要約

動的シーンのオンライン再構成は、既存のオフライン動的再構成手法が録画されたビデオ入力に依存しているのに対し、ライブストリーミングビデオ入力からシーンを学習できる点で重要である。しかし、これまでのオンライン再構成手法は、主に効率とレンダリング品質に焦点を当てており、その結果の時間的一貫性を見落としている。本論文では、実世界の録画におけるノイズのような誤差が、オンライン再構成における時間的一貫性に影響を与えることを明らかにする。我々は、カメラにおいて不可避である時間的不整合を伴う観測から、オンライン再構成における時間的整合性を向上させる方法を提案する。本手法は、学習された誤差を差し引くことで、理想的な観測を復元することを示す。本手法を様々なベースラインに適用することで、データセット間で時間的一貫性とレンダリング品質の両方が大幅に向上することを実証する。コード、動画結果、チェックポイントはhttps://bbangsik13.github.io/OR2。

要約(オリジナル)

Online reconstruction of dynamic scenes is significant as it enables learning scenes from live-streaming video inputs, while existing offline dynamic reconstruction methods rely on recorded video inputs. However, previous online reconstruction approaches have primarily focused on efficiency and rendering quality, overlooking the temporal consistency of their results, which often contain noticeable artifacts in static regions. This paper identifies that errors such as noise in real-world recordings affect temporal inconsistency in online reconstruction. We propose a method that enhances temporal consistency in online reconstruction from observations with temporal inconsistency which is inevitable in cameras. We show that our method restores the ideal observation by subtracting the learned error. We demonstrate that applying our method to various baselines significantly enhances both temporal consistency and rendering quality across datasets. Code, video results, and checkpoints are available at https://bbangsik13.github.io/OR2.

arxiv情報

著者 Youngsik Yun,Jeongmin Bae,Hyunseung Son,Seoha Kim,Hahyun Lee,Gun Bang,Youngjung Uh
発行日 2025-05-02 12:50:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | Compensating Spatiotemporally Inconsistent Observations for Online Dynamic 3D Gaussian Splatting はコメントを受け付けていません

CAV-MAE Sync: Improving Contrastive Audio-Visual Mask Autoencoders via Fine-Grained Alignment

要約

オーディオビジュアル学習における最近の進歩は、モダリティを超えた表現の学習において有望な結果を示している。しかし、ほとんどのアプローチは、視覚フレームとのきめ細かな時間的対応を捉えることができないグローバルな音声表現に依存している。さらに、既存の手法は、再構成とクロスモーダルアライメントを共同で学習しようとするとき、しばしば相反する最適化目的に悩まされる。本研究では、CAV-MAE Syncを、自己教師ありオーディオビジュアル学習のための、オリジナルのCAV-MAEフレームワークのシンプルかつ効果的な拡張として提案する。我々は3つの重要な課題に取り組む:第一に、大域的な表現を用いるのではなく、オーディオをビデオフレームと整列した時間的シーケンスとして扱うことで、モダリティ間の粒度の不一致に取り組む。第二に、専用のグローバルトークンを用いて、対比目的と再構成目的を分離することで、相反する最適化目標を解決する。第三に、学習可能なレジスタトークンを導入することで、パッチトークンの意味的負荷を軽減し、空間定位を改善する。提案アプローチを、AudioSet、VGG Sound、ADE20K Soundデータセットを用いて、ゼロショット検索、分類、定位タスクで評価し、最先端の性能を実証し、より複雑なアーキテクチャを凌駕する。

要約(オリジナル)

Recent advances in audio-visual learning have shown promising results in learning representations across modalities. However, most approaches rely on global audio representations that fail to capture fine-grained temporal correspondences with visual frames. Additionally, existing methods often struggle with conflicting optimization objectives when trying to jointly learn reconstruction and cross-modal alignment. In this work, we propose CAV-MAE Sync as a simple yet effective extension of the original CAV-MAE framework for self-supervised audio-visual learning. We address three key challenges: First, we tackle the granularity mismatch between modalities by treating audio as a temporal sequence aligned with video frames, rather than using global representations. Second, we resolve conflicting optimization goals by separating contrastive and reconstruction objectives through dedicated global tokens. Third, we improve spatial localization by introducing learnable register tokens that reduce semantic load on patch tokens. We evaluate the proposed approach on AudioSet, VGG Sound, and the ADE20K Sound dataset on zero-shot retrieval, classification and localization tasks demonstrating state-of-the-art performance and outperforming more complex architectures.

arxiv情報

著者 Edson Araujo,Andrew Rouditchenko,Yuan Gong,Saurabhchand Bhati,Samuel Thomas,Brian Kingsbury,Leonid Karlinsky,Rogerio Feris,James R. Glass
発行日 2025-05-02 12:59:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | CAV-MAE Sync: Improving Contrastive Audio-Visual Mask Autoencoders via Fine-Grained Alignment はコメントを受け付けていません

Can Foundation Models Really Segment Tumors? A Benchmarking Odyssey in Lung CT Imaging

要約

正確な肺腫瘍のセグメンテーションは、腫瘍学の診断、治療計画、患者の転帰を改善するために極めて重要である。しかし、腫瘍の形態、大きさ、位置の複雑さは、自動セグメンテーションに大きな課題をもたらす。本研究では、深層学習ベースのセグメンテーションモデルの包括的なベンチマーク分析を行い、U-NetやDeepLabV3のような従来のアーキテクチャ、nnUNetのような自己構成モデル、MedSAMやMedSAM~2のような基礎モデルを比較する。 2つの肺腫瘍セグメンテーションデータセットにわたる性能を評価し、少数ショット学習や微調整を含む様々な学習パラダイム下でのセグメンテーション精度と計算効率を評価する。その結果、従来のモデルが腫瘍の描出に苦戦する一方で、基礎モデル、特にMedSAM~2が、精度と計算効率の両方でそれらを上回ることが明らかになった。これらの知見は、肺腫瘍のセグメンテーションにおける基礎モデルの可能性を強調するものであり、臨床ワークフローと患者の転帰を改善する上での応用可能性を強調するものである。

要約(オリジナル)

Accurate lung tumor segmentation is crucial for improving diagnosis, treatment planning, and patient outcomes in oncology. However, the complexity of tumor morphology, size, and location poses significant challenges for automated segmentation. This study presents a comprehensive benchmarking analysis of deep learning-based segmentation models, comparing traditional architectures such as U-Net and DeepLabV3, self-configuring models like nnUNet, and foundation models like MedSAM, and MedSAM~2. Evaluating performance across two lung tumor segmentation datasets, we assess segmentation accuracy and computational efficiency under various learning paradigms, including few-shot learning and fine-tuning. The results reveal that while traditional models struggle with tumor delineation, foundation models, particularly MedSAM~2, outperform them in both accuracy and computational efficiency. These findings underscore the potential of foundation models for lung tumor segmentation, highlighting their applicability in improving clinical workflows and patient outcomes.

arxiv情報

著者 Elena Mulero Ayllón,Massimiliano Mantegna,Linlin Shen,Paolo Soda,Valerio Guarrasi,Matteo Tortora
発行日 2025-05-02 13:04:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, eess.IV | Can Foundation Models Really Segment Tumors? A Benchmarking Odyssey in Lung CT Imaging はコメントを受け付けていません

Fusing Foveal Fixations Using Linear Retinal Transformations and Bayesian Experimental Design

要約

人間(および多くの脊椎動物)は、シーンの複数の固視を融合して全体の表現を得るという問題に直面している。本論文では、既知の形状を利用し、シーンの高解像度潜像の線形ダウンサンプリングとして、固視の網膜変換を明示的に表現する。この線形変換により、情景の因子分析(FA)やFAモデルの混合における潜在変数の厳密な推論が可能になる。さらに、これにより、「次にどこを見るか」の選択を、期待情報利得基準を用いたベイズ実験計画問題として定式化し、解くことができる。Freyの顔とMNISTデータセットを用いた実験により、我々のモデルの有効性が実証された。

要約(オリジナル)

Humans (and many vertebrates) face the problem of fusing together multiple fixations of a scene in order to obtain a representation of the whole, where each fixation uses a high-resolution fovea and decreasing resolution in the periphery. In this paper we explicitly represent the retinal transformation of a fixation as a linear downsampling of a high-resolution latent image of the scene, exploiting the known geometry. This linear transformation allows us to carry out exact inference for the latent variables in factor analysis (FA) and mixtures of FA models of the scene. Further, this allows us to formulate and solve the choice of ‘where to look next’ as a Bayesian experimental design problem using the Expected Information Gain criterion. Experiments on the Frey faces and MNIST datasets demonstrate the effectiveness of our models.

arxiv情報

著者 Christopher K. I. Williams
発行日 2025-05-02 13:17:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG | Fusing Foveal Fixations Using Linear Retinal Transformations and Bayesian Experimental Design はコメントを受け付けていません

CAMELTrack: Context-Aware Multi-cue ExpLoitation for Online Multi-Object Tracking

要約

オンラインマルチオブジェクトトラッキングは、トラックレット表現、特徴フュージョン、マルチステージマッチングのためのますます洗練されたヒューリスティックスに依存しているトラッキングバイディテクション(TbD)メソッドによって、近年支配されています。TbDの主な強みは、そのモジュール設計にあり、動き予測や再識別のような特殊な既製モデルの統合を可能にします。しかしながら、時間的関連付けのために人間が作成したルールを多用するため、これらの手法は様々なトラッキングキュー間の複雑な相互作用を捉える能力において本質的に限界がある。この研究では、TbDの貴重なモジュール性を維持しながら、手作業によるヒューリスティックから脱却し、データから直接弾力性のある関連付け戦略を学習する、Context-Aware Multi-Cue ExpLoitationのための新しい関連付けモジュールであるCAMELを紹介する。CAMELは、2つの変換器ベースのモジュールを採用し、追跡されたターゲットとその様々な関連キューとの間の複雑な相互作用を効果的にモデル化するために、新しい関連中心の学習スキームに依存しています。エンド・ツー・エンドの検出による追跡アプローチとは異なり、我々の手法は軽量かつ高速な学習を維持しながら、外部の既製のモデルを活用することができる。我々の提案するオンライン追跡パイプラインCAMELTrackは、複数の追跡ベンチマークにおいて最先端のパフォーマンスを達成している。我々のコードはhttps://github.com/TrackingLaboratory/CAMELTrack。

要約(オリジナル)

Online multi-object tracking has been recently dominated by tracking-by-detection (TbD) methods, where recent advances rely on increasingly sophisticated heuristics for tracklet representation, feature fusion, and multi-stage matching. The key strength of TbD lies in its modular design, enabling the integration of specialized off-the-shelf models like motion predictors and re-identification. However, the extensive usage of human-crafted rules for temporal associations makes these methods inherently limited in their ability to capture the complex interplay between various tracking cues. In this work, we introduce CAMEL, a novel association module for Context-Aware Multi-Cue ExpLoitation, that learns resilient association strategies directly from data, breaking free from hand-crafted heuristics while maintaining TbD’s valuable modularity. At its core, CAMEL employs two transformer-based modules and relies on a novel association-centric training scheme to effectively model the complex interactions between tracked targets and their various association cues. Unlike end-to-end detection-by-tracking approaches, our method remains lightweight and fast to train while being able to leverage external off-the-shelf models. Our proposed online tracking pipeline, CAMELTrack, achieves state-of-the-art performance on multiple tracking benchmarks. Our code is available at https://github.com/TrackingLaboratory/CAMELTrack.

arxiv情報

著者 Vladimir Somers,Baptiste Standaert,Victor Joos,Alexandre Alahi,Christophe De Vleeschouwer
発行日 2025-05-02 13:26:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG | CAMELTrack: Context-Aware Multi-cue ExpLoitation for Online Multi-Object Tracking はコメントを受け付けていません

FlowDubber: Movie Dubbing with LLM-based Semantic-aware Learning and Flow Matching based Voice Enhancing

要約

ムービーダビングは、与えられた短い参照音声のボーカルの音色を維持しながら、時間的および感情的な側面の両方において、与えられたムービークリップに沿ったスピーチにスクリプトを変換することを目的としています。既存の手法は、主に単語誤り率を減らすことに焦点を当て、リップシンクや音響品質の重要性を無視している。これらの問題に対処するために、我々は、FlowDubberと名付けられたダビングのための大規模言語モデル(LLM)ベースのフローマッチングアーキテクチャを提案する。FlowDubberは、大規模音声言語モデルとデュアルコントラストアライニングを組み込むことにより、高品質のオーディオビジュアル同期と発音を達成する一方で、提案された音声拡張フローマッチングにより、従来の作品よりも優れた音響品質を達成する。まず、Qwen2.5をLLMのバックボーンとして導入し、映画のスクリプトと参照音声から文脈内のシーケンスを学習する。次に、提案する意味認識学習は、音素レベルでLLMの意味知識を取り込むことに重点を置く。次に、デュアルコントラストアライニング(DCA)は、唇の動きとの相互アライメントを強化し、類似の音素が混同される可能性のある曖昧性を低減する。最後に、提案するフローベースボイスエンハンシング(FVE)は、LLMに基づく音響フローマッチングガイダンスを導入して明瞭度を強化し、アフィンスタイル事前処理を用いて、勾配ベクトル場予測によりメルスペクトログラムにノイズを復元する際の同一性を強化することで、2つの側面から音響品質を改善する。広範な実験により、我々の手法が2つの主要なベンチマークにおいていくつかの最新手法を上回ることが実証された。デモは{href{https://galaxycong.github.io/LLM-Flow-Dubber/}}{textcolor{red}}{https://galaxycong.github.io/LLM-Flow-Dubber/}}で利用可能である。

要約(オリジナル)

Movie Dubbing aims to convert scripts into speeches that align with the given movie clip in both temporal and emotional aspects while preserving the vocal timbre of a given brief reference audio. Existing methods focus primarily on reducing the word error rate while ignoring the importance of lip-sync and acoustic quality. To address these issues, we propose a large language model (LLM) based flow matching architecture for dubbing, named FlowDubber, which achieves high-quality audio-visual sync and pronunciation by incorporating a large speech language model and dual contrastive aligning while achieving better acoustic quality via the proposed voice-enhanced flow matching than previous works. First, we introduce Qwen2.5 as the backbone of LLM to learn the in-context sequence from movie scripts and reference audio. Then, the proposed semantic-aware learning focuses on capturing LLM semantic knowledge at the phoneme level. Next, dual contrastive aligning (DCA) boosts mutual alignment with lip movement, reducing ambiguities where similar phonemes might be confused. Finally, the proposed Flow-based Voice Enhancing (FVE) improves acoustic quality in two aspects, which introduces an LLM-based acoustics flow matching guidance to strengthen clarity and uses affine style prior to enhance identity when recovering noise into mel-spectrograms via gradient vector field prediction. Extensive experiments demonstrate that our method outperforms several state-of-the-art methods on two primary benchmarks. The demos are available at {\href{https://galaxycong.github.io/LLM-Flow-Dubber/}{\textcolor{red}{https://galaxycong.github.io/LLM-Flow-Dubber/}}}.

arxiv情報

著者 Gaoxiang Cong,Liang Li,Jiadong Pan,Zhedong Zhang,Amin Beheshti,Anton van den Hengel,Yuankai Qi,Qingming Huang
発行日 2025-05-02 13:30:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | FlowDubber: Movie Dubbing with LLM-based Semantic-aware Learning and Flow Matching based Voice Enhancing はコメントを受け付けていません

Diffusion-based Adversarial Purification from the Perspective of the Frequency Domain

要約

拡散に基づく敵対的浄化法は、順方向処理によって敵対的摂動を等方性ノイズの一部に紛れ込ませ、逆方向処理によってきれいな画像を復元しようとするものである。画素領域では敵対的摂動に関する分布情報がないため、正常な意味論が損なわれることはしばしば避けられない。我々は周波数領域の観点に目を向け、画像を振幅スペクトルと位相スペクトルに分解する。両スペクトルにおいて、敵対的摂動によるダメージは周波数とともに単調に増加する傾向があることがわかる。これは、ダメージの少ない周波数成分から、元のきれいなサンプルの内容と構造情報を抽出できることを意味する。一方、理論的な解析によれば、既存の精製方法は全ての周波数成分に無差別にダメージを与え、画像に過剰なダメージを与える。そこで我々は、原画像の内容と構造を最大限に保存しつつ、敵対的な摂動を除去できる浄化法を提案する。具体的には、逆プロセスの各時間ステップにおいて、振幅スペクトルについては、推定画像の振幅スペクトルの低周波成分を敵対画像の対応する部分と置き換える。位相スペクトルについては、推定画像の位相を敵対画像の位相スペクトルの指定された範囲に投影し、低周波に焦点を当てる。広範な実験から得られた経験的証拠は、我々の方法が現在のほとんどの防御方法を大幅に上回ることを実証している。

要約(オリジナル)

The diffusion-based adversarial purification methods attempt to drown adversarial perturbations into a part of isotropic noise through the forward process, and then recover the clean images through the reverse process. Due to the lack of distribution information about adversarial perturbations in the pixel domain, it is often unavoidable to damage normal semantics. We turn to the frequency domain perspective, decomposing the image into amplitude spectrum and phase spectrum. We find that for both spectra, the damage caused by adversarial perturbations tends to increase monotonically with frequency. This means that we can extract the content and structural information of the original clean sample from the frequency components that are less damaged. Meanwhile, theoretical analysis indicates that existing purification methods indiscriminately damage all frequency components, leading to excessive damage to the image. Therefore, we propose a purification method that can eliminate adversarial perturbations while maximizing the preservation of the content and structure of the original image. Specifically, at each time step during the reverse process, for the amplitude spectrum, we replace the low-frequency components of the estimated image’s amplitude spectrum with the corresponding parts of the adversarial image. For the phase spectrum, we project the phase of the estimated image into a designated range of the adversarial image’s phase spectrum, focusing on the low frequencies. Empirical evidence from extensive experiments demonstrates that our method significantly outperforms most current defense methods.

arxiv情報

著者 Gaozheng Pei,Ke Ma,Yingfei Sun,Qianqian Xu,Qingming Huang
発行日 2025-05-02 13:41:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | Diffusion-based Adversarial Purification from the Perspective of the Frequency Domain はコメントを受け付けていません

MASH: Masked Anchored SpHerical Distances for 3D Shape Representation and Generation

要約

我々は、3D形状の新しいマルチビュー・パラメトリック表現であるMasked Anchored SpHerical Distances (MASH)を紹介する。多視点幾何学に触発され、3D形状の学習における知覚的形状理解の重要性に動機づけられ、MASHは3D形状を観察可能な局所表面パッチの集まりとして表現する。MASH関数をエンコードするために、球面ハーモニクスのコンパクト性をさらに活用し、局所性を達成するために球面関数の空間的広がりをマスクするパラメータ化されたベースを持つ一般化されたビューコーンと組み合わせる。我々は、任意の形状とトポロジーを持つ地上の真実の表面を正確に近似するMASH表現に、任意の点群を変換できる微分可能な最適化アルゴリズムを開発する。広範な実験により、MASHが表面再構成、形状生成、補完、ブレンディングを含む様々な用途に汎用性があり、陰的特徴と陽的特徴の両方を包含するユニークな表現により優れた性能を達成することを実証する。

要約(オリジナル)

We introduce Masked Anchored SpHerical Distances (MASH), a novel multi-view and parametrized representation of 3D shapes. Inspired by multi-view geometry and motivated by the importance of perceptual shape understanding for learning 3D shapes, MASH represents a 3D shape as a collection of observable local surface patches, each defined by a spherical distance function emanating from an anchor point. We further leverage the compactness of spherical harmonics to encode the MASH functions, combined with a generalized view cone with a parameterized base that masks the spatial extent of the spherical function to attain locality. We develop a differentiable optimization algorithm capable of converting any point cloud into a MASH representation accurately approximating ground-truth surfaces with arbitrary geometry and topology. Extensive experiments demonstrate that MASH is versatile for multiple applications including surface reconstruction, shape generation, completion, and blending, achieving superior performance thanks to its unique representation encompassing both implicit and explicit features.

arxiv情報

著者 Changhao Li,Yu Xin,Xiaowei Zhou,Ariel Shamir,Hao Zhang,Ligang Liu,Ruizhen Hu
発行日 2025-05-02 14:16:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CG, cs.CV | MASH: Masked Anchored SpHerical Distances for 3D Shape Representation and Generation はコメントを受け付けていません

A Neural Architecture Search Method using Auxiliary Evaluation Metric based on ResNet Architecture

要約

本稿では、ResNetをフレームワークとして用いたニューラル・アーキテクチャの探索空間を提案する。探索目的には、畳み込み、プーリング、完全接続層、残差ネットワークの接続性などのパラメータが含まれる。本論文では、認識精度に加え、検証集合における損失値を最適化の副次的な目的として用いる。実験結果は、MNIST、Fashion-MNIST、CIFAR100データセットにおいて、本稿の探索空間と最適化アプローチにより、競争力のあるネットワークアーキテクチャを発見できることを示している。

要約(オリジナル)

This paper proposes a neural architecture search space using ResNet as a framework, with search objectives including parameters for convolution, pooling, fully connected layers, and connectivity of the residual network. In addition to recognition accuracy, this paper uses the loss value on the validation set as a secondary objective for optimization. The experimental results demonstrate that the search space of this paper together with the optimisation approach can find competitive network architectures on the MNIST, Fashion-MNIST and CIFAR100 datasets.

arxiv情報

著者 Shang Wang,Huanrong Tang,Jianquan Ouyang
発行日 2025-05-02 14:39:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.NE | A Neural Architecture Search Method using Auxiliary Evaluation Metric based on ResNet Architecture はコメントを受け付けていません

FreeInsert: Disentangled Text-Guided Object Insertion in 3D Gaussian Scene without Spatial Priors

要約

3Dシーンにおけるテキスト駆動オブジェクト挿入は、自然言語による直感的なシーン編集を可能にする新たなタスクである。しかし、既存の2D編集ベースの手法は、多くの場合、2Dマスクや3Dバウンディングボックスのような空間プリオールに依存しており、挿入されたオブジェクトの一貫性を確保するのに苦労している。これらの制限は、実世界のアプリケーションにおける柔軟性と拡張性を妨げる。本論文では、MLLM、LGM、拡散モデルなどの基礎モデルを活用し、オブジェクト生成と空間配置を切り離す新しいフレームワークFreeInsertを提案する。これにより、空間的事前分布を持たない、教師なしかつ柔軟な3Dシーンへのオブジェクト挿入が可能となる。FreeInsertはMLLMベースのパーサーから始まり、オブジェクトのタイプ、空間的関係、アタッチメント領域を含む構造化されたセマンティクスをユーザの指示から抽出します。これらのセマンティクスは、挿入されたオブジェクトの3D一貫性の再構築と、その自由度の学習の両方を導く。我々は、MLLMの空間的推論能力を活用して、オブジェクトのポーズとスケールを初期化する。階層的で空間を意識した精密化段階は、空間的意味論とMLLMに推測された事前分布をさらに統合し、配置を強化する。最後に、視覚的忠実度を高めるために、挿入されたオブジェクト画像を用いてオブジェクトの外観を改善する。実験結果は、FreeInsertが、空間プリアに依存することなく、意味的に首尾一貫し、空間的に正確で、視覚的にリアルな3D挿入を達成し、ユーザーフレンドリーで柔軟な編集体験を提供することを実証している。

要約(オリジナル)

Text-driven object insertion in 3D scenes is an emerging task that enables intuitive scene editing through natural language. However, existing 2D editing-based methods often rely on spatial priors such as 2D masks or 3D bounding boxes, and they struggle to ensure consistency of the inserted object. These limitations hinder flexibility and scalability in real-world applications. In this paper, we propose FreeInsert, a novel framework that leverages foundation models including MLLMs, LGMs, and diffusion models to disentangle object generation from spatial placement. This enables unsupervised and flexible object insertion in 3D scenes without spatial priors. FreeInsert starts with an MLLM-based parser that extracts structured semantics, including object types, spatial relationships, and attachment regions, from user instructions. These semantics guide both the reconstruction of the inserted object for 3D consistency and the learning of its degrees of freedom. We leverage the spatial reasoning capabilities of MLLMs to initialize object pose and scale. A hierarchical, spatially aware refinement stage further integrates spatial semantics and MLLM-inferred priors to enhance placement. Finally, the appearance of the object is improved using the inserted-object image to enhance visual fidelity. Experimental results demonstrate that FreeInsert achieves semantically coherent, spatially precise, and visually realistic 3D insertions without relying on spatial priors, offering a user-friendly and flexible editing experience.

arxiv情報

著者 Chenxi Li,Weijie Wang,Qiang Li,Bruno Lepri,Nicu Sebe,Weizhi Nie
発行日 2025-05-02 14:53:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | FreeInsert: Disentangled Text-Guided Object Insertion in 3D Gaussian Scene without Spatial Priors はコメントを受け付けていません