Stimulus Motion Perception Studies Imply Specific Neural Computations in Human Visual Stabilization

要約

固定中であっても、人間の目は常に低振幅の動きであり、最大100Hzのランダムな方向に小さな角度でジッタリングします。
この動きは、網膜上の画像のすべての特徴を絶えず多くのコーンを通過しますが、世界で安定したオブジェクトは安定していると認識されており、世界で動いているオブジェクトは動いていると認識されています。
数十年にわたって行われた一連の実験により、視覚安定化の精神物理学は、たとえば、カメラ画像の安定化の仕組みや、進化的な観点から最も単純な解決策と想定されるものから想定されるよりも微妙であることが明らかになりました。
実験によって明らかにされた精神物理学は、観察された安定化挙動をもたらす網膜信号の特定の操作セットを強く意味します。
プレゼンテーションは2つのレベルです。
1つ目は、実験的に観察された行動の原因となる可能性が非常に高いメカニズムの作用の機能的な説明です。
2番目は、機能的動作を実装する可能性のある回路レベルのニューラル要素のより投機的な提案です。

要約(オリジナル)

Even during fixation the human eye is constantly in low amplitude motion, jittering over small angles in random directions at up to 100Hz. This motion results in all features of the image on the retina constantly traversing a number of cones, yet objects which are stable in the world are perceived to be stable, and any object which is moving in the world is perceived to be moving. A series of experiments carried out over a dozen years revealed the psychophysics of visual stabilization to be more nuanced than might be assumed, say, from the mechanics of stabilization of camera images, or what might be assumed to be the simplest solution from an evolutionary perspective. The psychophysics revealed by the experiments strongly implies a specific set of operations on retinal signals resulting in the observed stabilization behavior. The presentation is in two levels. First is a functional description of the action of the mechanism that is very likely responsible for the experimentally observed behavior. Second is a more speculative proposal of circuit-level neural elements that might implement the functional behavior.

arxiv情報

著者 David W Arathorn,Josephine C. D’Angelo,Austin Roorda
発行日 2025-06-16 14:00:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, q-bio.NC | コメントする

Multiview Geometric Regularization of Gaussian Splatting for Accurate Radiance Fields

要約

2Dガウスのスプラッティングやガウスの不透明度フィールドなどの最近の方法は、優れたレンダリング品質を保持しながら、3Dガウスのスプラッティングの幾何学的な不正確さに対処することを目指しています。
ただし、これらのアプローチは、特にポイントごとの外観モデリングとシングルビューの最適化制約のために、特に視点で大きな色の変動を持つシーンでスムーズで信頼できるジオメトリを再構築するのに苦労しています。
このホワイトペーパーでは、マルチビューステレオ(MVS)深度、RGB、および通常の制約をガウスのスプラットの初期化と最適化に統合する効果的なマルチビュー幾何学的正規化戦略を提案します。
私たちの重要な洞察は、MVS由来の深さポイントとガウスのスプラッティングが最適化された位置との補完的な関係です。MVSは、ローカルパッチベースのマッチングとエピポーラの制約を通じて高い色変動の領域でのジオメトリを堅牢に推定しますが、ガウスのスプラットは、より信頼性が高く、より軽度の深さの推定値を提供します。
この洞察を活用するために、MVS深度情報をガウスのスプラッティング最適化に効果的に統合して、不確実性の推定で深さベースのマルチビューの中央値の相対深さ損失を導入します。
また、ガウスが準最適な位置に陥るのを避けるために、MVS誘導ガウスのスプラットの初期化を提案します。
広範な実験では、私たちのアプローチがこれらの強度を正常に組み合わせて、幾何学的精度と多様な屋内および屋外のシーン全体で品質を向上させることを検証します。

要約(オリジナル)

Recent methods, such as 2D Gaussian Splatting and Gaussian Opacity Fields, have aimed to address the geometric inaccuracies of 3D Gaussian Splatting while retaining its superior rendering quality. However, these approaches still struggle to reconstruct smooth and reliable geometry, particularly in scenes with significant color variation across viewpoints, due to their per-point appearance modeling and single-view optimization constraints. In this paper, we propose an effective multiview geometric regularization strategy that integrates multiview stereo (MVS) depth, RGB, and normal constraints into Gaussian Splatting initialization and optimization. Our key insight is the complementary relationship between MVS-derived depth points and Gaussian Splatting-optimized positions: MVS robustly estimates geometry in regions of high color variation through local patch-based matching and epipolar constraints, whereas Gaussian Splatting provides more reliable and less noisy depth estimates near object boundaries and regions with lower color variation. To leverage this insight, we introduce a median depth-based multiview relative depth loss with uncertainty estimation, effectively integrating MVS depth information into Gaussian Splatting optimization. We also propose an MVS-guided Gaussian Splatting initialization to avoid Gaussians falling into suboptimal positions. Extensive experiments validate that our approach successfully combines these strengths, enhancing both geometric accuracy and rendering quality across diverse indoor and outdoor scenes.

arxiv情報

著者 Jungeon Kim,Geonsoo Park,Seungyong Lee
発行日 2025-06-16 14:02:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

A Semantically-Aware Relevance Measure for Content-Based Medical Image Retrieval Evaluation

要約

コンテンツベースの画像検索(CBIR)のパフォーマンス評価は、特に医療ドメインで今日では重要ではあるが未解決の問題のままです。
この問題を解決するために、文献ではさまざまな評価指標が議論されています。
既存のメトリックのほとんど(例:精度、リコール)は、グラウンドトゥルースとしてマニュアルラベルを必要とする分類タスクから採用されています。
ただし、そのようなラベルは多くの場合、高価であり、特定のテーマドメインでは利用できません。
さらに、医療画像は通常、(放射線学的)症例報告に関連付けられているか、文献図に記述的なキャプションが注釈されています。そのようなテキストには、CBIRの評価に役立つ情報が含まれています。テキストに隠された医療概念はCBIR評価の目的の基礎として役立つと主張しています。
ただし、これらの作品は、これらの医療概念を独立した孤立したラベルと見なすことがよくありますが、実際にはさまざまな概念間の微妙な関係は無視されています。
この作業では、知識グラフの使用を導入して、さまざまな医療概念間の距離を測定し、CBIRの評価のための新しい関連性尺度を提案します。

要約(オリジナル)

Performance evaluation for Content-Based Image Retrieval (CBIR) remains a crucial but unsolved problem today especially in the medical domain. Various evaluation metrics have been discussed in the literature to solve this problem. Most of the existing metrics (e.g., precision, recall) are adapted from classification tasks which require manual labels as ground truth. However, such labels are often expensive and unavailable in specific thematic domains. Furthermore, medical images are usually associated with (radiological) case reports or annotated with descriptive captions in literature figures, such text contains information that can help to assess CBIR.Several researchers have argued that the medical concepts hidden in the text can serve as the basis for CBIR evaluation purpose. However, these works often consider these medical concepts as independent and isolated labels while in fact the subtle relationships between various concepts are neglected. In this work, we introduce the use of knowledge graphs to measure the distance between various medical concepts and propose a novel relevance measure for the evaluation of CBIR by defining an approximate matching-based relevance score between two sets of medical concepts which allows us to indirectly measure the similarity between medical images.We quantitatively demonstrate the effectiveness and feasibility of our relevance measure using a public dataset.

arxiv情報

著者 Xiaoyang Wei,Camille Kurtz,Florence Cloppet
発行日 2025-06-16 14:04:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

Micro-macro Gaussian Splatting with Enhanced Scalability for Unconstrained Scene Reconstruction

要約

制約のない画像コレクションから3Dシーンを再構築することは、外観のばらつきのために大きな課題をもたらします。
このホワイトペーパーでは、シーン表現をグローバル、洗練された、および固有のコンポーネントに分解することにより、多様なスケール全体の3D再構成を強化する新しい方法である、スケーラブルなマイクロマクロベーブレットベースのガウススプラッティング(SMW-GS)を提案します。
SMW-GSには、次のイノベーションが組み込まれています。マイクロマクロ投影により、ガウスポイントは多様性を改善してマルチスケールの詳細をサンプリングできます。
また、頻度ドメイン情報を使用して機能表現を改良し、複雑なシーンの外観をよりよくキャプチャするウェーブレットベースのサンプリング。
スケーラビリティを実現するために、ガウスポイントへの貢献を最大化し、広大な環境でも一貫した高品質の再構築を達成することにより、カメラビューをシーンパーティションに最適に割り当てる大規模なシーンプロモーション戦略をさらに提案します。
広範な実験は、SMW-GSが再構成の品質とスケーラビリティの両方で既存の方法を大幅に上回ることを示しています。
プロジェクトはhttps://github.com/kidleyh/smw-gsで入手できます。

要約(オリジナル)

Reconstructing 3D scenes from unconstrained image collections poses significant challenges due to variations in appearance. In this paper, we propose Scalable Micro-macro Wavelet-based Gaussian Splatting (SMW-GS), a novel method that enhances 3D reconstruction across diverse scales by decomposing scene representations into global, refined, and intrinsic components. SMW-GS incorporates the following innovations: Micro-macro Projection, which enables Gaussian points to sample multi-scale details with improved diversity; and Wavelet-based Sampling, which refines feature representations using frequency-domain information to better capture complex scene appearances. To achieve scalability, we further propose a large-scale scene promotion strategy, which optimally assigns camera views to scene partitions by maximizing their contributions to Gaussian points, achieving consistent and high-quality reconstructions even in expansive environments. Extensive experiments demonstrate that SMW-GS significantly outperforms existing methods in both reconstruction quality and scalability, particularly excelling in large-scale urban environments with challenging illumination variations. Project is available at https://github.com/Kidleyh/SMW-GS.

arxiv情報

著者 Yihui Li,Chengxin Lv,Hongyu Yang,Di Huang
発行日 2025-06-16 14:11:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

Structureless VIO

要約

視覚的臭気(VO)は、通常、鶏肉と卵の問題と見なされます。これは、ローカリゼーションとマッピングモジュールがしっかりと結合されているためです。
視覚マップの推定は、正確なローカリゼーション情報に依存しています。
一方、ローカライズには、モーション制約を提供するために正確なマップポイントが必要です。
この古典的なデザインの原則は、視覚型臭気(VIO)によって自然に継承されます。
マップを必要としない効率的なローカリゼーションソリューションは完全に調査されていません。
この目的のために、視覚マップがodometryフレームワークから削除される新しい構造のないVioを提案します。
実験結果は、構造ベースのVioベースラインと比較して、私たちの構造のないVioが計算効率を大幅に改善するだけでなく、精度にも利点があることを実証しました。

要約(オリジナル)

Visual odometry (VO) is typically considered as a chicken-and-egg problem, as the localization and mapping modules are tightly-coupled. The estimation of a visual map relies on accurate localization information. Meanwhile, localization requires precise map points to provide motion constraints. This classical design principle is naturally inherited by visual-inertial odometry (VIO). Efficient localization solutions that do not require a map have not been fully investigated. To this end, we propose a novel structureless VIO, where the visual map is removed from the odometry framework. Experimental results demonstrated that, compared to the structure-based VIO baseline, our structureless VIO not only substantially improves computational efficiency but also has advantages in accuracy.

arxiv情報

著者 Junlin Song,Miguel Olivares-Mendez
発行日 2025-06-16 14:16:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | コメントする

Atomizer: Generalizing to new modalities by breaking satellite images down to a set of scalars

要約

地球観測衛星の数が増えているため、さまざまな空間、スペクトル、および時間的構成を備えた、ますます多様なリモートセンシングデータが生じています。
ほとんどの既存のモデルは、固定された入力形式とモダリティ固有のエンコーダーに依存しています。これは、新しい構成が導入されたときに再トレーニングが必要であり、モダリティ全体で一般化する能力を制限します。
リモートセンシング画像をスカラーのセットとして表す柔軟なアーキテクチャであるAtomizerを紹介します。
各スカラーには、コンテキストメタデータ(取得時間、空間分解能、波長、帯域幅)が濃縮されており、単一のエンコーダーが補間や再サンプリングなしで任意のモダリティを処理できる原子表現を生成します。
Atomizerは、フーリエ機能と不均一な放射状基底関数を使用した構造化されたトークン化を使用して、コンテンツとコンテキストをエンコードし、クロスアテナンスを介してトークンを潜在空間にマッピングします。
Modality-Disjoint評価では、Atomizerは標準モデルを上回り、さまざまな解像度と空間サイズで堅牢なパフォーマンスを示します。

要約(オリジナル)

The growing number of Earth observation satellites has led to increasingly diverse remote sensing data, with varying spatial, spectral, and temporal configurations. Most existing models rely on fixed input formats and modality-specific encoders, which require retraining when new configurations are introduced, limiting their ability to generalize across modalities. We introduce Atomizer, a flexible architecture that represents remote sensing images as sets of scalars, each corresponding to a spectral band value of a pixel. Each scalar is enriched with contextual metadata (acquisition time, spatial resolution, wavelength, and bandwidth), producing an atomic representation that allows a single encoder to process arbitrary modalities without interpolation or resampling. Atomizer uses structured tokenization with Fourier features and non-uniform radial basis functions to encode content and context, and maps tokens into a latent space via cross-attention. Under modality-disjoint evaluations, Atomizer outperforms standard models and demonstrates robust performance across varying resolutions and spatial sizes.

arxiv情報

著者 Hugo Riffaud de Turckheim,Sylvain Lobry,Roberto Interdonato,Diego Marcos
発行日 2025-06-16 14:30:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

Limited-Angle CBCT Reconstruction via Geometry-Integrated Cycle-domain Denoising Diffusion Probabilistic Models

要約

コーンビームCT(CBCT)は、画像誘導治療のために臨床放射線療法で広く使用されており、セットアップの精度、適応計画、およびモーション管理の改善があります。
ただし、ガントリーの回転が遅いことで、モーションアーティファクト、ぼやけ、および増加する用量を導入することにより、性能が制限されます。
この作業の目的は、連続した限定角度取得から高品質のCBCTボリュームを再構築するための臨床的に実行可能な方法を開発し、時間または用量の制約のある設定でのイメージングの課題に対処することを目的としています。
CBCT再構成のための限定角度(LA)ジオメトリ統合サイクルドメイン(LA-GICD)フレームワークを提案します。
Projection-DDPMは、欠落している投影を完了し、その後バックプロジェクションが続き、Image-DDPMがボリュームを改良します。
このデュアルドメイン設計は、投影および画像スペースからの補完的な事前を活用して、限られた角度(<= 90度)スキャンから高品質の再構築を実現します。 パフォーマンスは、全角再構成に対して評価されました。 4人の理事会認定医療物理学者が評価を実施しました。 一般的なCBCT形状の合計78の計画CTがトレーニングと評価に使用されました。 この方法は、35.5 hu、0.84のSSIM、および29.8 dBのPSNRの平均絶対誤差を達成し、目に見えて軟部組織の透明度が目に見えて減少しました。 LA-GICDのジオメトリ認識デュアルドメイン学習は、分析的フォワード/バックワードオペレーターに組み込まれており、1つの90度スキャンからのアーティファクトフリーの高コントラスト再構成を可能にし、取得時間を短縮し、4倍にします。 LA-GICDは、強力なデータの忠実度と解剖学的リアリズムを備えた限定角CBCT再構成を改善します。 これは、ショートARCの獲得のための実用的なソリューションを提供し、より正確でパーソナライズされた治療のためにスキャン時間と用量を短縮した臨床的に適用可能な画像を提供することにより、放射線療法でのCBCTの使用を強化します。

要約(オリジナル)

Cone-beam CT (CBCT) is widely used in clinical radiotherapy for image-guided treatment, improving setup accuracy, adaptive planning, and motion management. However, slow gantry rotation limits performance by introducing motion artifacts, blurring, and increased dose. This work aims to develop a clinically feasible method for reconstructing high-quality CBCT volumes from consecutive limited-angle acquisitions, addressing imaging challenges in time- or dose-constrained settings. We propose a limited-angle (LA) geometry-integrated cycle-domain (LA-GICD) framework for CBCT reconstruction, comprising two denoising diffusion probabilistic models (DDPMs) connected via analytic cone-beam forward and back projectors. A Projection-DDPM completes missing projections, followed by back-projection, and an Image-DDPM refines the volume. This dual-domain design leverages complementary priors from projection and image spaces to achieve high-quality reconstructions from limited-angle (<= 90 degrees) scans. Performance was evaluated against full-angle reconstruction. Four board-certified medical physicists conducted assessments. A total of 78 planning CTs in common CBCT geometries were used for training and evaluation. The method achieved a mean absolute error of 35.5 HU, SSIM of 0.84, and PSNR of 29.8 dB, with visibly reduced artifacts and improved soft-tissue clarity. LA-GICD's geometry-aware dual-domain learning, embedded in analytic forward/backward operators, enabled artifact-free, high-contrast reconstructions from a single 90-degree scan, reducing acquisition time and dose four-fold. LA-GICD improves limited-angle CBCT reconstruction with strong data fidelity and anatomical realism. It offers a practical solution for short-arc acquisitions, enhancing CBCT use in radiotherapy by providing clinically applicable images with reduced scan time and dose for more accurate, personalized treatments.

arxiv情報

著者 Yuan Gao,Shaoyan Pan,Mingzhe Hu,Huiqiao Xie,Jill Remick,Chih-Wei Chang,Justin Roper,Zhen Tian,Xiaofeng Yang
発行日 2025-06-16 14:32:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

A Comprehensive Survey on Video Scene Parsing:Advances, Challenges, and Prospects

要約

ビデオシーンの解析(VSP)は、コンピュータービジョンの基礎として浮上し、ダイナミックシーンでの多様な視覚エンティティの同時セグメンテーション、認識、追跡を促進しました。
この調査では、ビデオセマンティックセグメンテーション(VSS)、ビデオインスタンスセグメンテーション(VIS)、ビデオパノプティックセグメンテーション(VPS)、ビデオトラッキングとセグメンテーション(VTS)、およびオープンボカリックビデオセグメンテーション(OVVS)を含む幅広いビジョンタスクをカバーするVSPの最近の進歩の総合的なレビューを提示します。
従来の手作りの特徴から、完全に畳み込み的なネットワークから最新の変圧器ベースのアーキテクチャに至るまでの現代の深い学習パラダイムへの進化を体系的に分析し、ローカルおよびグローバルな時間的コンテキストの両方をキャプチャする際の有効性を評価します。
さらに、我々のレビューでは、時間的一貫性の維持から複雑なシーンのダイナミクスの処理に至るまで、技術的な課題について批判的に説明し、現在のベンチマーク基準を形成したデータセットと評価メトリックの包括的な比較研究を提供します。
最先端の方法論の重要な貢献と欠点を蒸留することにより、この調査は、現実世界のアプリケーションにおけるVSPの堅牢性と適応性をさらに高めることを約束する新たな傾向と将来の研究方向を強調しています。

要約(オリジナル)

Video Scene Parsing (VSP) has emerged as a cornerstone in computer vision, facilitating the simultaneous segmentation, recognition, and tracking of diverse visual entities in dynamic scenes. In this survey, we present a holistic review of recent advances in VSP, covering a wide array of vision tasks, including Video Semantic Segmentation (VSS), Video Instance Segmentation (VIS), Video Panoptic Segmentation (VPS), as well as Video Tracking and Segmentation (VTS), and Open-Vocabulary Video Segmentation (OVVS). We systematically analyze the evolution from traditional hand-crafted features to modern deep learning paradigms — spanning from fully convolutional networks to the latest transformer-based architectures — and assess their effectiveness in capturing both local and global temporal contexts. Furthermore, our review critically discusses the technical challenges, ranging from maintaining temporal consistency to handling complex scene dynamics, and offers a comprehensive comparative study of datasets and evaluation metrics that have shaped current benchmarking standards. By distilling the key contributions and shortcomings of state-of-the-art methodologies, this survey highlights emerging trends and prospective research directions that promise to further elevate the robustness and adaptability of VSP in real-world applications.

arxiv情報

著者 Guohuan Xie,Syed Ariff Syed Hesham,Wenya Guo,Bing Li,Ming-Ming Cheng,Guolei Sun,Yun Liu
発行日 2025-06-16 14:39:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

RelTopo: Enhancing Relational Modeling for Driving Scene Topology Reasoning

要約

正確な道路トポロジの推論は、自律的な運転にとって重要であり、効果的なナビゲーションと交通規制の順守を可能にします。
このタスクの中心は、車線認識とトポロジーの推論です。
ただし、既存の方法は通常、レーン検出またはレーン間(L2L)トポロジーの推論のいずれかに焦点を当てています。多くの場合、\ textit {無視}レーンとトラフィックエレメント(L2T)関係または\ textIT {失敗}これらのタスクを共同で最適化します。
さらに、ほとんどのアプローチは、道路要素間の固有の空間的関係にもかかわらず、リレーショナルモデリングを見落とすか、限られた範囲で適用します。
人間は道路要素認識とその接続性推論のために自然に文脈関係を活用するため、リレーショナルモデリングは知覚と推論の両方に有益であると主張します。
この目的のために、知覚と推論の両方にリレーショナルモデリングを導入します。
具体的には、次の提案を提案します。1)リレーショナル依存関係をキャプチャすることにより、幾何学的に偏った自己触たちと\ curve \ cross-attention \ cross-attentionを洗練する関係を認識するレーン検出器。
2)形状強化L2LヘッドとクロスビューL2Tヘッドを含む関係強化トポロジヘッドは、リレーショナルキューで推論を強化します。
3)関係の埋め込みを正規化するためのInfonceの損失を伴う対照的な学習戦略。
OpenLane-V2の広範な実験は、私たちのアプローチが検出とトポロジの推論メトリックの両方を大幅に改善し、Det $ _L $で+3.1を達成することを示しています。
コードがリリースされます。

要約(オリジナル)

Accurate road topology reasoning is critical for autonomous driving, enabling effective navigation and adherence to traffic regulations. Central to this task are lane perception and topology reasoning. However, existing methods typically focus on either lane detection or Lane-to-Lane (L2L) topology reasoning, often \textit{neglecting} Lane-to-Traffic-element (L2T) relationships or \textit{failing} to optimize these tasks jointly. Furthermore, most approaches either overlook relational modeling or apply it in a limited scope, despite the inherent spatial relationships among road elements. We argue that relational modeling is beneficial for both perception and reasoning, as humans naturally leverage contextual relationships for road element recognition and their connectivity inference. To this end, we introduce relational modeling into both perception and reasoning, \textit{jointly} enhancing structural understanding. Specifically, we propose: 1) a relation-aware lane detector, where our geometry-biased self-attention and \curve\ cross-attention refine lane representations by capturing relational dependencies; 2) relation-enhanced topology heads, including a geometry-enhanced L2L head and a cross-view L2T head, boosting reasoning with relational cues; and 3) a contrastive learning strategy with InfoNCE loss to regularize relationship embeddings. Extensive experiments on OpenLane-V2 demonstrate that our approach significantly improves both detection and topology reasoning metrics, achieving +3.1 in DET$_l$, +5.3 in TOP$_{ll}$, +4.9 in TOP$_{lt}$, and an overall +4.4 in OLS, setting a new state-of-the-art. Code will be released.

arxiv情報

著者 Yueru Luo,Changqing Zhou,Yiming Yang,Erlong Li,Chao Zheng,Shuqi Mei,Shuguang Cui,Zhen Li
発行日 2025-06-16 14:40:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

X-Scene: Large-Scale Driving Scene Generation with High Fidelity and Flexible Controllability

要約

拡散モデルは、現実的なデータ統合、予測エンドツーエンド計画、および閉ループシミュレーションを可能にすることにより、一時的に一貫した生成に焦点を当てて自律的な運転を進めています。
ただし、空間的一貫性を必要とする大規模な3Dシーンの生成は、既知のままです。
この論文では、柔軟な制御性を提供しながら、幾何学的複雑さと外観の忠実度の両方を達成する大規模な運転シーン生成のための新しいフレームワークであるX-Sceneを提案します。
具体的には、X-sceneは、詳細なシーン構成のためのユーザーが提供するレベルまたはテキスト駆動型のレイアウトや、ユーザーインテントやLLMが登録したテキストなどの高レベルのセマンティックガイダンスなど、効率的なカスタマイズのための高レベルのセマンティックガイダンスを含む、多顆粒コントロールをサポートします。
幾何学的および視覚的な忠実度を高めるために、3Dセマンティック占有率と対応するマルチビュー画像を順次生成し、モダリティ間のアライメントを確保する統一されたパイプラインを導入します。
さらに、生成されたローカル領域を、以前に生成された領域に条件付けられた新しい占有率と画像を推定し、空間の連続性を高め、視覚的な一貫性を維持する一貫性が認識されたシーンの上昇を通じて、生成されたローカル領域を大規模なシーンに拡張します。
結果のシーンは、高品質の3DGS表現に持ち上げられ、シーン探査などの多様なアプリケーションをサポートします。
包括的な実験は、X-Sceneが大規模な運転シーン生成の制御可能性と忠実度を大幅に高め、自律運転のデータ生成とシミュレーションを強化することを示しています。

要約(オリジナル)

Diffusion models are advancing autonomous driving by enabling realistic data synthesis, predictive end-to-end planning, and closed-loop simulation, with a primary focus on temporally consistent generation. However, the generation of large-scale 3D scenes that require spatial coherence remains underexplored. In this paper, we propose X-Scene, a novel framework for large-scale driving scene generation that achieves both geometric intricacy and appearance fidelity, while offering flexible controllability. Specifically, X-Scene supports multi-granular control, including low-level conditions such as user-provided or text-driven layout for detailed scene composition and high-level semantic guidance such as user-intent and LLM-enriched text prompts for efficient customization. To enhance geometrical and visual fidelity, we introduce a unified pipeline that sequentially generates 3D semantic occupancy and the corresponding multiview images, while ensuring alignment between modalities. Additionally, we extend the generated local region into a large-scale scene through consistency-aware scene outpainting, which extrapolates new occupancy and images conditioned on the previously generated area, enhancing spatial continuity and preserving visual coherence. The resulting scenes are lifted into high-quality 3DGS representations, supporting diverse applications such as scene exploration. Comprehensive experiments demonstrate that X-Scene significantly advances controllability and fidelity for large-scale driving scene generation, empowering data generation and simulation for autonomous driving.

arxiv情報

著者 Yu Yang,Alan Liang,Jianbiao Mei,Yukai Ma,Yong Liu,Gim Hee Lee
発行日 2025-06-16 14:43:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする