LayerPano3D: Layered 3D Panorama for Hyper-Immersive Scene Generation

要約

3D没入型シーン生成は、コンピュータービジョンとグラフィックスの挑戦的でありながら重要なタスクです。
目的の仮想3Dシーンは、1)全方向目的ビューの一貫性を示し、2)複雑なシーン階層で無料の探索を可能にする必要があります。
既存の方法は、パノラマ表現を開始することによる連続したシーンの拡張に依存しているか、大規模なFOVシーン環境を表現するために採用しています。
ただし、生成されたシーンは拡張中にセマンティックドリフトに苦しんでおり、シーンの階層間の閉塞を処理することができません。
これらの課題に取り組むために、単一のテキストプロンプトからフルビューの探索可能なパノラマ3Dシーン生成の新しいフレームワークであるLayerPano3Dを紹介します。
私たちの重要な洞察は、参照2Dパノラマを異なる深さレベルで複数の層に分解することです。各層は、拡散前の拡散ビューから目に見えない空間を明らかにします。
LayerPano3Dは、複数の専用デザインで構成されています。1)9K高品質で直立したパノラマ画像を含む新しいPanorama Dataset right360を導入し、高品質で直立した一貫したパノラマ世代のために、直立した360の高度なフラックスモデルを紹介します。
2)複雑なシーンの階層を管理し、3Dガウスに持ち上げて、制約のない視聴パスを備えた詳細な360度の全方向性シーンをスプラットするための基礎となる表現として層状の3Dパノラマを開拓します。
広範な実験は、私たちのフレームワークが、完全なビューの一貫性と没入型探索的経験の両方で、最先端の3Dパノラマシーンを生成することを示しています。
LayerPano3Dは、多数のアプリケーションで3Dパノラマシーンの作成を進めることの約束を保持していると考えています。

要約(オリジナル)

3D immersive scene generation is a challenging yet critical task in computer vision and graphics. A desired virtual 3D scene should 1) exhibit omnidirectional view consistency, and 2) allow for free exploration in complex scene hierarchies. Existing methods either rely on successive scene expansion via inpainting or employ panorama representation to represent large FOV scene environments. However, the generated scene suffers from semantic drift during expansion and is unable to handle occlusion among scene hierarchies. To tackle these challenges, we introduce Layerpano3D, a novel framework for full-view, explorable panoramic 3D scene generation from a single text prompt. Our key insight is to decompose a reference 2D panorama into multiple layers at different depth levels, where each layer reveals the unseen space from the reference views via diffusion prior. Layerpano3D comprises multiple dedicated designs: 1) We introduce a new panorama dataset Upright360, comprising 9k high-quality and upright panorama images, and finetune the advanced Flux model on Upright360 for high-quality, upright and consistent panorama generation. 2) We pioneer the Layered 3D Panorama as underlying representation to manage complex scene hierarchies and lift it into 3D Gaussians to splat detailed 360-degree omnidirectional scenes with unconstrained viewing paths. Extensive experiments demonstrate that our framework generates state-of-the-art 3D panoramic scene in both full view consistency and immersive exploratory experience. We believe that Layerpano3D holds promise for advancing 3D panoramic scene creation with numerous applications.

arxiv情報

著者 Shuai Yang,Jing Tan,Mengchen Zhang,Tong Wu,Yixuan Li,Gordon Wetzstein,Ziwei Liu,Dahua Lin
発行日 2025-02-21 16:06:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | LayerPano3D: Layered 3D Panorama for Hyper-Immersive Scene Generation はコメントを受け付けていません

AI and Entrepreneurship: Facial Recognition Technology Detects Entrepreneurs, Outperforming Human Experts

要約

起業家精神のような職業上の結果は、一般に、個人が開示する自律性を持つべき個人情報と見なされます。
人工知能(AI)が広く入手可能な人間中心のデータ(ソーシャルメディアなど)から私的な詳細を推測する能力があるため、AIがそのようなデータから個人の職業情報を正確に抽出できるかどうかを調査することが重要です。
この研究では、深いニューラルネットワークが、起業家精神データの主要なソースであるCrunchBaseから供給された顔の画像に基づいて、個人を高精度の起業家として分類できることを実証します。
起業家と非起業家の両方を含む40,728人の顔の画像で構成されるデータセットを利用して、顔の画像のペア(1人の起業家と1人の非中国者)のペアに基づく対照的な学習アプローチを使用して、畳み込みニューラルネットワーク(CNN)を訓練します。
人間の専門家(n = 650)と訓練を受けた参加者(n = 133)は、起業家を偶然レベル(> 50%)を超える正確さで分類することができませんでしたが、AIモデルは79.51%の分類精度を達成しました。
いくつかの堅牢性テストは、この高レベルの精度がさまざまな条件下で維持されていることを示しています。
これらの結果は、起業家のプライバシーリスクを示しています。

要約(オリジナル)

Occupational outcomes like entrepreneurship are generally considered personal information that individuals should have the autonomy to disclose. With the advancing capability of artificial intelligence (AI) to infer private details from widely available human-centric data (e.g., social media), it is crucial to investigate whether AI can accurately extract private occupational information from such data. In this study, we demonstrate that deep neural networks can classify individuals as entrepreneurs with high accuracy based on facial images sourced from Crunchbase, a premier source for entrepreneurship data. Utilizing a dataset comprising facial images of 40,728 individuals, including both entrepreneurs and non-entrepreneurs, we train a Convolutional Neural Network (CNN) using a contrastive learning approach based on pairs of facial images (one entrepreneur and one non-entrepreneur per pair). While human experts (n=650) and trained participants (n=133) were unable to classify entrepreneurs with accuracy above chance levels (>50%), our AI model achieved a classification accuracy of 79.51%. Several robustness tests indicate that this high level of accuracy is maintained under various conditions. These results indicate privacy risks for entrepreneurs.

arxiv情報

著者 Martin Obschonka,Christian Fisch,Tharindu Fernando,Clinton Fookes
発行日 2025-02-21 16:12:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | AI and Entrepreneurship: Facial Recognition Technology Detects Entrepreneurs, Outperforming Human Experts はコメントを受け付けていません

Bridging vision language model (VLM) evaluation gaps with a framework for scalable and cost-effective benchmark generation

要約

AIモデルの信頼できる評価は、科学的進歩と実用的な応用にとって重要です。
既存のVLMベンチマークはモデル機能に関する一般的な洞察を提供しますが、それらの不均一な設計といくつかのイメージングドメインへの焦点が限られていることは、クロスドメインのパフォーマンス比較とターゲットを絞ったドメイン固有の評価の両方に大きな課題をもたらします。
これに対処するために、3つの重要な貢献を提案します。(1)単一の既存のタスクから複数の多様なタスクを作成するためにタスクの増強によって有効になったドメイン固有のVLMベンチマークのリソース効率の高い作成のフレームワーク、(2)新しいVLMのリリース
同じ均一なプロトコルに従って作成された7つのドメインのベンチマーク、162,946の徹底的に人的検証された回答、および(3)広範囲に
合計37,171のタスクで22の最先端のVLMをベンチマークし、ドメインとタスク間のパフォーマンスの変動を明らかにし、それによってカスタマイズされたVLMベンチマークの必要性をサポートします。
私たちの方法論の採用は、モデルのリソース効率の良いドメイン固有の選択への道を開き、コアオープンな質問への対処に向けて将来の研究努力を導きます。

要約(オリジナル)

Reliable evaluation of AI models is critical for scientific progress and practical application. While existing VLM benchmarks provide general insights into model capabilities, their heterogeneous designs and limited focus on a few imaging domains pose significant challenges for both cross-domain performance comparison and targeted domain-specific evaluation. To address this, we propose three key contributions: (1) a framework for the resource-efficient creation of domain-specific VLM benchmarks enabled by task augmentation for creating multiple diverse tasks from a single existing task, (2) the release of new VLM benchmarks for seven domains, created according to the same homogeneous protocol and including 162,946 thoroughly human-validated answers, and (3) an extensive benchmarking of 22 state-of-the-art VLMs on a total of 37,171 tasks, revealing performance variances across domains and tasks, thereby supporting the need for tailored VLM benchmarks. Adoption of our methodology will pave the way for the resource-efficient domain-specific selection of models and guide future research efforts toward addressing core open questions.

arxiv情報

著者 Tim Rädsch,Leon Mayer,Simon Pavicic,A. Emre Kavur,Marcel Knopp,Barış Öztürk,Klaus Maier-Hein,Paul F. Jaeger,Fabian Isensee,Annika Reinke,Lena Maier-Hein
発行日 2025-02-21 16:24:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | Bridging vision language model (VLM) evaluation gaps with a framework for scalable and cost-effective benchmark generation はコメントを受け付けていません

TexLiDAR: Automated Text Understanding for Panoramic LiDAR Data

要約

LiDARデータをLidarClipなどのテキストに接続する努力は、主に3Dポイントクラウドをクリップテキストイメージスペースに埋め込むことに焦点を当てています。
ただし、これらのアプローチは3Dポイントクラウドに依存しており、効率とニューラルネットワーク処理のエンコードに課題があります。
3Dポイントクラウドに加えて、固定解像度の深さ、信号、および周囲のパノラマ2D画像を生成するOuster OS1などの高度なLidarセンサーの出現により、LIDARベースのタスクに新しい機会が現れます。
この作業では、3Dポイントクラウドの代わりにOS1センサーによって生成された2D画像を活用することにより、LIDARデータをテキストに接続する代替アプローチを提案します。
ゼロショット設定でフィレンツェ2の大きなモデルを使用して、画像キャプションとオブジェクトの検出を実行します。
私たちの実験は、Florence 2がより有益なキャプションを生成し、Clipなどの既存の方法と比較してオブジェクト検出タスクで優れたパフォーマンスを達成することを示しています。
高度なLidarセンサーデータと大規模な事前訓練モデルを組み合わせることにより、当社のアプローチは、高精度と堅牢性を必要とするリアルタイムアプリケーションなど、挑戦的な検出シナリオの堅牢で正確なソリューションを提供します。

要約(オリジナル)

Efforts to connect LiDAR data with text, such as LidarCLIP, have primarily focused on embedding 3D point clouds into CLIP text-image space. However, these approaches rely on 3D point clouds, which present challenges in encoding efficiency and neural network processing. With the advent of advanced LiDAR sensors like Ouster OS1, which, in addition to 3D point clouds, produce fixed resolution depth, signal, and ambient panoramic 2D images, new opportunities emerge for LiDAR based tasks. In this work, we propose an alternative approach to connect LiDAR data with text by leveraging 2D imagery generated by the OS1 sensor instead of 3D point clouds. Using the Florence 2 large model in a zero-shot setting, we perform image captioning and object detection. Our experiments demonstrate that Florence 2 generates more informative captions and achieves superior performance in object detection tasks compared to existing methods like CLIP. By combining advanced LiDAR sensor data with a large pre-trained model, our approach provides a robust and accurate solution for challenging detection scenarios, including real-time applications requiring high accuracy and robustness.

arxiv情報

著者 Naor Cohen,Roy Orfaig,Ben-Zion Bobrovsky
発行日 2025-02-21 16:39:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | TexLiDAR: Automated Text Understanding for Panoramic LiDAR Data はコメントを受け付けていません

Tuning the Frequencies: Robust Training for Sinusoidal Neural Networks

要約

正弦波ネットワークは、滑らかさと高い表現能力により、低次元信号の暗黙的な神経表現(INR)として効果的であることが示されています。
ただし、それらを初期化してトレーニングすることで、学習プロセスを導くためのより深い理解に欠けている経験的タスクのままです。
このギャップを埋めるために、私たちの作品は、正弦波ネットワークの容量特性を説明し、初期化とトレーニングのための堅牢な制御メカニズムを提供する理論的枠組みを紹介します。
私たちの分析は、正弦波多層パーセプトロンの新規振幅相拡張に基づいており、その層の組成が入力周波数の整数の組み合わせとして表される多数の新しい周波数を生成する方法を示しています。
この関係は、入力ニューロンをスペクトルサンプリングの形式として初期化し、トレーニング中にネットワークのスペクトルをバインドするために直接使用できます。
チューナー(シノソイドネットワークのチューニング)と呼ばれる私たちの方法は、正弦波INRトレーニングの安定性と収束を大幅に改善し、過剰適合を防ぎながら詳細な再構築につながります。

要約(オリジナル)

Sinusoidal neural networks have been shown effective as implicit neural representations (INRs) of low-dimensional signals, due to their smoothness and high representation capacity. However, initializing and training them remain empirical tasks which lack on deeper understanding to guide the learning process. To fill this gap, our work introduces a theoretical framework that explains the capacity property of sinusoidal networks and offers robust control mechanisms for initialization and training. Our analysis is based on a novel amplitude-phase expansion of the sinusoidal multilayer perceptron, showing how its layer compositions produce a large number of new frequencies expressed as integer combinations of the input frequencies. This relationship can be directly used to initialize the input neurons, as a form of spectral sampling, and to bound the network’s spectrum while training. Our method, referred to as TUNER (TUNing sinusoidal nEtwoRks), greatly improves the stability and convergence of sinusoidal INR training, leading to detailed reconstructions, while preventing overfitting.

arxiv情報

著者 Tiago Novello,Diana Aldana,Andre Araujo,Luiz Velho
発行日 2025-02-21 17:05:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Tuning the Frequencies: Robust Training for Sinusoidal Neural Networks はコメントを受け付けていません

WorldCraft: Photo-Realistic 3D World Creation and Customization via LLM Agents

要約

フォトリアリックな仮想世界の構築には、さまざまな分野でアプリケーションがありますが、多くの場合、従来の3Dモデリングソフトウェアを運営するために高度に訓練された専門家の広範な労働が必要です。
このプロセスを民主化するために、大規模な言語モデル(LLM)エージェントが手続き上の生成を活用してオブジェクトを入力した屋内および屋外シーンを作成し、ユーザーが個々のオブジェクト属性と直感的な自然言語コマンドを使用してシーンレイアウトを制御できるシステムであるWorldCraftを紹介します。
私たちのフレームワークでは、コーディネーターエージェントが全体的なプロセスを管理し、2つの専門LLMエージェントと連携してシーン作成を完了します。Forgeitは、個々のオブジェクトの正確なカスタマイズを可能にするために、絶えず成長するマニュアルを自動検証を通じて統合し、配置します。
人間工学的および審美的な考慮事項のバランスをとるレイアウトを実現するための階層的最適化の問題。
さらに、パイプラインには軌道制御エージェントが組み込まれているため、ユーザーはシーンをアニメーション化し、自然言語の相互作用を通じてカメラを操作できます。
また、私たちのシステムは、シーン資産を豊かにするための既製のディープ3Dジェネレーターとも互換性があります。
最先端の方法との評価と比較を通じて、単一のオブジェクトのカスタマイズから複雑な大規模なインテリア、外部シーンのデザインに至るまで、Worldcraftの汎用性を実証します。
このシステムは、非専門家が創造的なビジョンを実現することを可能にします。

要約(オリジナル)

Constructing photorealistic virtual worlds has applications across various fields, but it often requires the extensive labor of highly trained professionals to operate conventional 3D modeling software. To democratize this process, we introduce WorldCraft, a system where large language model (LLM) agents leverage procedural generation to create indoor and outdoor scenes populated with objects, allowing users to control individual object attributes and the scene layout using intuitive natural language commands. In our framework, a coordinator agent manages the overall process and works with two specialized LLM agents to complete the scene creation: ForgeIt, which integrates an ever-growing manual through auto-verification to enable precise customization of individual objects, and ArrangeIt, which formulates hierarchical optimization problems to achieve a layout that balances ergonomic and aesthetic considerations. Additionally, our pipeline incorporates a trajectory control agent, allowing users to animate the scene and operate the camera through natural language interactions. Our system is also compatible with off-the-shelf deep 3D generators to enrich scene assets. Through evaluations and comparisons with state-of-the-art methods, we demonstrate the versatility of WorldCraft, ranging from single-object customization to intricate, large-scale interior and exterior scene designs. This system empowers non-professionals to bring their creative visions to life.

arxiv情報

著者 Xinhang Liu,Chi-Keung Tang,Yu-Wing Tai
発行日 2025-02-21 17:18:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.GR | WorldCraft: Photo-Realistic 3D World Creation and Customization via LLM Agents はコメントを受け付けていません

HealthGPT: A Medical Large Vision-Language Model for Unifying Comprehension and Generation via Heterogeneous Knowledge Adaptation

要約

統一された自己回帰パラダイム内に医学的視覚的理解と生成能力を統合する強力な医療大規模視覚モデル(MED-LVLM)であるHealthGptを提示します。
私たちのブートストラップ哲学は、不均一な理解と生成の知識を事前に訓練された大手言語モデル(LLM)に徐々に適応させることです。
これは、カスタマイズされた階層的視覚知覚アプローチと3段階の学習戦略によって補完される、新しい不均一な低ランク適応(H-LORA)技術によって達成されます。
HealthGPTを効果的に学ぶために、VL-Healthと呼ばれる包括的な医療ドメイン固有の理解と生成データセットを考案します。
実験結果は、医療視覚統一タスクにおけるHealthGPTの並外れたパフォーマンスとスケーラビリティを示しています。
当社のプロジェクトは、https://github.com/dcdmllm/healthgptでアクセスできます。

要約(オリジナル)

We present HealthGPT, a powerful Medical Large Vision-Language Model (Med-LVLM) that integrates medical visual comprehension and generation capabilities within a unified autoregressive paradigm. Our bootstrapping philosophy is to progressively adapt heterogeneous comprehension and generation knowledge to pre-trained large language models (LLMs). This is achieved through a novel heterogeneous low-rank adaptation (H-LoRA) technique, which is complemented by a tailored hierarchical visual perception approach and a three-stage learning strategy. To effectively learn the HealthGPT, we devise a comprehensive medical domain-specific comprehension and generation dataset called VL-Health. Experimental results demonstrate exceptional performance and scalability of HealthGPT in medical visual unified tasks. Our project can be accessed at https://github.com/DCDmllm/HealthGPT.

arxiv情報

著者 Tianwei Lin,Wenqiao Zhang,Sijing Li,Yuqian Yuan,Binhe Yu,Haoyuan Li,Wanggui He,Hao Jiang,Mengze Li,Xiaohui Song,Siliang Tang,Jun Xiao,Hui Lin,Yueting Zhuang,Beng Chin Ooi
発行日 2025-02-21 17:39:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | HealthGPT: A Medical Large Vision-Language Model for Unifying Comprehension and Generation via Heterogeneous Knowledge Adaptation はコメントを受け付けていません

Self-Supervised Diffusion MRI Denoising via Iterative and Stable Refinement

要約

拡散MRI(DMRI)を含む磁気共鳴イメージング(MRI)は、解剖学的構造の「顕微鏡」として機能し、時間的または空間分解能を妥協することにより、低信号とノイズ比スキャンの影響を日常的に軽減します。
ただし、これらの妥協点は、効率と精度の両方に対する臨床的要求を満たすことができません。
したがって、特にクリーンデータが利用できないDMRIにとって、除去は重要な前処理ステップです。
このホワイトペーパーでは、後者の拡散ステップと適応サンプリングプロセスを活用する完全に自己監視された除去方法であるDIフュージョンを紹介します。
以前のアプローチとは異なり、単一ステージのフレームワークは、追加のノイズモデルトレーニングなしで効率的で安定したトレーニングを実現し、サンプリングプロセスで適応的で制御可能な結果を​​提供します。
実際のシミュレーションデータに関する徹底的な実験は、Di融合が微細構造モデリング、トラクトグラフィートラッキング、およびその他のダウンストリームタスクで最先端のパフォーマンスを達成することを示しています。
コードはhttps://github.com/fouierl/di-fusionで入手できます。

要約(オリジナル)

Magnetic Resonance Imaging (MRI), including diffusion MRI (dMRI), serves as a “microscope” for anatomical structures and routinely mitigates the influence of low signal-to-noise ratio scans by compromising temporal or spatial resolution. However, these compromises fail to meet clinical demands for both efficiency and precision. Consequently, denoising is a vital preprocessing step, particularly for dMRI, where clean data is unavailable. In this paper, we introduce Di-Fusion, a fully self-supervised denoising method that leverages the latter diffusion steps and an adaptive sampling process. Unlike previous approaches, our single-stage framework achieves efficient and stable training without extra noise model training and offers adaptive and controllable results in the sampling process. Our thorough experiments on real and simulated data demonstrate that Di-Fusion achieves state-of-the-art performance in microstructure modeling, tractography tracking, and other downstream tasks. Code is available at https://github.com/FouierL/Di-Fusion.

arxiv情報

著者 Chenxu Wu,Qingpeng Kong,Zihang Jiang,S. Kevin Zhou
発行日 2025-02-21 17:51:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | Self-Supervised Diffusion MRI Denoising via Iterative and Stable Refinement はコメントを受け付けていません

Continual Person Identification using Footstep-Induced Floor Vibrations on Heterogeneous Floor Structures

要約

人の識別は、スマートビルが健康監視、アクティビティ追跡、人事管理などのパーソナライズされたサービスを提供するために重要です。
ただし、以前の人の識別は、訪問者が通常予想される多くの建物や公共施設では非現実的であるすべての人からの事前に収集されたデータに依存しています。
これには、その場で人々のアイデンティティを徐々に学習する継続的な個人識別システムが必要です。
既存の研究では、この目標を達成するためにカメラを使用していますが、直接の視線が必要であり、公共の場でプライバシーの懸念を引き起こしています。
ウェアラブルや圧力マットなどのその他のモダリティは、デバイスのキャリーまたは密な展開の要件によって制限されます。
したがって、以前の研究では、足音誘発性の構造振動センシングが導入されました。これは、邪魔にならず、プライバシーに優しいと認識されています。
ただし、このアプローチには重要な課題があります。構造的な不均一性と人間の歩行の変動による振動データの高い変動性により、オンラインの個人識別アルゴリズムのパフォーマンスが低下します。
この論文では、正確なオンライン人の識別のために、足音誘発構造振動データの変動性を特徴付けます。
これを達成するために、さまざまな変動性のソースを定量化および分解し、特徴変換関数を設計して、各個人のデータ内の変動性を低下させて、異なる人々のデータをより分離可能にします。
20人のフィールド実験を通じてアプローチを評価します。
結果は、オンラインの個人識別の70%の変動性の低下と90%の精度を示しています。

要約(オリジナル)

Person identification is important for smart buildings to provide personalized services such as health monitoring, activity tracking, and personnel management. However, previous person identification relies on pre-collected data from everyone, which is impractical in many buildings and public facilities in which visitors are typically expected. This calls for a continual person identification system that gradually learns people’s identities on the fly. Existing studies use cameras to achieve this goal, but they require direct line-of-sight and also have raised privacy concerns in public. Other modalities such as wearables and pressure mats are limited by the requirement of device-carrying or dense deployment. Thus, prior studies introduced footstep-induced structural vibration sensing, which is non-intrusive and perceived as more privacy-friendly. However, this approach has a significant challenge: the high variability of vibration data due to structural heterogeneity and human gait variations, which makes online person identification algorithms perform poorly. In this paper, we characterize the variability in footstep-induced structural vibration data for accurate online person identification. To achieve this, we quantify and decompose different sources of variability and then design a feature transformation function to reduce the variability within each person’s data to make different people’s data more separable. We evaluate our approach through field experiments with 20 people. The results show a 70% variability reduction and a 90% accuracy for online person identification.

arxiv情報

著者 Yiwen Dong,Hae Young Noh
発行日 2025-02-21 18:00:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.SP, physics.app-ph | Continual Person Identification using Footstep-Induced Floor Vibrations on Heterogeneous Floor Structures はコメントを受け付けていません

RGB-Only Gaussian Splatting SLAM for Unbounded Outdoor Scenes

要約

3Dガウススプラッティング(3DG)は、高忠実度の斬新な見解を生み出すことができるため、SLAMで人気のあるソリューションになりました。
ただし、以前のGSベースの方法は、主に屋内シーンをターゲットにし、RGB-Dセンサーまたは事前に訓練された深度推定モデルに依存するため、屋外シナリオではパフォーマンスが低下しています。
この問題に対処するために、Unboundの屋外シーンであるOpengs-SlamのRGB​​のみのガウススプラッツスラム方法を提案します。
技術的には、最初にポイントマップ回帰ネットワークを使用して、ポーズ推定のためにフレーム間で一貫したポイントマップを生成します。
一般的に使用される深度マップと比較して、ポイントマップには、複数のビューにわたる空間的関係とシーンジオメトリが含まれており、堅牢なカメラポーズ推定を可能にします。
次に、推定カメラのポーズと3DGSレンダリングをエンドツーエンドの微分パイプラインとして統合することを提案します。
私たちの方法は、カメラのポーズと3DGSシーンパラメーターの同時最適化を実現し、システム追跡の精度を大幅に向上させます。
具体的には、3DGSマップ表現により正確なポイントマップマッピングを提供するPointmap Regressionネットワーク用の適応スケールマッパーも設計します。
WAYMOデータセットでの実験は、OpenGS-SLALが追跡エラーを以前の3DGSメソッドの9.8 \%に減らし、新しいビューの合成で最先端の結果を達成することを示しています。
プロジェクトページ:https://3dagentworld.github.io/opengs-slam/

要約(オリジナル)

3D Gaussian Splatting (3DGS) has become a popular solution in SLAM, as it can produce high-fidelity novel views. However, previous GS-based methods primarily target indoor scenes and rely on RGB-D sensors or pre-trained depth estimation models, hence underperforming in outdoor scenarios. To address this issue, we propose a RGB-only gaussian splatting SLAM method for unbounded outdoor scenes–OpenGS-SLAM. Technically, we first employ a pointmap regression network to generate consistent pointmaps between frames for pose estimation. Compared to commonly used depth maps, pointmaps include spatial relationships and scene geometry across multiple views, enabling robust camera pose estimation. Then, we propose integrating the estimated camera poses with 3DGS rendering as an end-to-end differentiable pipeline. Our method achieves simultaneous optimization of camera poses and 3DGS scene parameters, significantly enhancing system tracking accuracy. Specifically, we also design an adaptive scale mapper for the pointmap regression network, which provides more accurate pointmap mapping to the 3DGS map representation. Our experiments on the Waymo dataset demonstrate that OpenGS-SLAM reduces tracking error to 9.8\% of previous 3DGS methods, and achieves state-of-the-art results in novel view synthesis. Project Page: https://3dagentworld.github.io/opengs-slam/

arxiv情報

著者 Sicheng Yu,Chong Cheng,Yifan Zhou,Xiaojun Yang,Hao Wang
発行日 2025-02-21 18:02:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, I.2.10 | RGB-Only Gaussian Splatting SLAM for Unbounded Outdoor Scenes はコメントを受け付けていません