SpaRE: Enhancing Spatial Reasoning in Vision-Language Models with Synthetic Data

要約

ビジョン言語モデル(VLM)は、画像キャプションから視覚的な質問応答(VQA)に至るまでのタスクでうまく機能しますが、人間が優れている私たちの物理的な世界を理解するための重要なスキルである空間的推論と格闘しています。
広く使用されているVLデータセットでは一般的に空間関係はまれであり、十分に表現されているのは少数であり、ほとんどは過小評価されている関係の長い尾を形成していることがわかります。
このギャップにより、VLMSが装備が整っていて、多様な空間的関係を処理します。
それを橋渡しするために、ローカライズされた物語、docci、およびpixmo-capのハイパーセテル画像の説明から生成された空間的推論に焦点を当てた合成VQAデータセットを構築します。
データセットは、340万QAペアを含む455kのサンプルで構成されています。
このデータセットでトレーニングされた空間リレイニングの強化(予備の)VLMは、空間推論ベンチマークの強力な改善を示し、一般的なタスクの強力な結果を維持しながら、What’s Up Benchmarkで最大49%のパフォーマンスゲインを達成します。
私たちの作品は、人間とVLMの空間推論のギャップを狭め、ロボット工学やナビゲーションなどの実際のタスクでVLMをより能力に導きます。

要約(オリジナル)

Vision-language models (VLMs) work well in tasks ranging from image captioning to visual question answering (VQA), yet they struggle with spatial reasoning, a key skill for understanding our physical world that humans excel at. We find that spatial relations are generally rare in widely used VL datasets, with only a few being well represented, while most form a long tail of underrepresented relations. This gap leaves VLMs ill-equipped to handle diverse spatial relationships. To bridge it, we construct a synthetic VQA dataset focused on spatial reasoning generated from hyper-detailed image descriptions in Localized Narratives, DOCCI, and PixMo-Cap. Our dataset consists of 455k samples containing 3.4 million QA pairs. Trained on this dataset, our Spatial-Reasoning Enhanced (SpaRE) VLMs show strong improvements on spatial reasoning benchmarks, achieving up to a 49% performance gain on the What’s Up benchmark, while maintaining strong results on general tasks. Our work narrows the gap between human and VLM spatial reasoning and makes VLMs more capable in real-world tasks such as robotics and navigation.

arxiv情報

著者 Michael Ogezi,Freda Shi
発行日 2025-04-29 11:18:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | SpaRE: Enhancing Spatial Reasoning in Vision-Language Models with Synthetic Data はコメントを受け付けていません

Image deidentification in the XNAT ecosystem: use cases and solutions

要約

XNATは、研究プロジェクトのためにDICOM画像の大規模なデータベースをキュレーションするためにアカデミアで広く使用されているサーバーベースのデータ管理プラットフォームです。
XNATの「エコシステム」の独立したツールとともに、XNATの施設を使用したDICOMデータの偏見ワークフローを詳細に説明します。
私たちは、以前の経験に基づいて、明確化が必要になる可能性のあるさまざまなコンテキストをリストします。
医療イメージ脱同意ベンチマーク(MIDI-B)の課題への参加の出発点は、既存のローカル方法論のセットであり、チャレンジの検証フェーズで採用されました。
テストフェーズでの結果は97.91 \%で、主にチャレンジのシナプスプラットフォームとの方法論の秘術的な技術的互換性のために、私たちの仲間よりかなり低く、検証フェーズ中にフィードバックを受け取ることができませんでした。
提出後、主催者からの追加の矛盾レポート、およびMIDI-Bの連続ベンチマーク施設を介して、このスコアを99.61 \%に大幅に改善することができました。
完全にルールベースのアプローチは、テストコーパス内のすべての名前関連情報を削除できることが示されましたが、アドレスデータを完全に扱う障害を示しました。
公開された機械学習モデルを使用してアドレスを削除する最初の実験は部分的に成功しましたが、モデルが他のタイプのフリーテキストデータで「過剰攻撃的」であることが示され、パフォーマンスが99.54 \%にわずかに分解されました。
したがって、将来の開発は、住所認識能力の改善に焦点を当てますが、画像ピクセルに焼き付けられた識別可能なデータのより良い削除にも焦点を当てます。
「回答キー」に関連するいくつかの技術的側面は、チャレンジオーガナイザーとまだ議論されていますが、MIDI-Bテストコーパスの本物の識別障害の割合は現在0.19 \%であると推定しています。
(ARXIV提出のためにオリジナルから要約)

要約(オリジナル)

XNAT is a server-based data management platform widely used in academia for curating large databases of DICOM images for research projects. We describe in detail a deidentification workflow for DICOM data using facilities in XNAT, together with independent tools in the XNAT ‘ecosystem’. We list different contexts in which deidentification might be needed, based on our prior experience. The starting point for participation in the Medical Image De-Identification Benchmark (MIDI-B) challenge was a set of pre-existing local methodologies, which were adapted during the validation phase of the challenge. Our result in the test phase was 97.91\%, considerably lower than our peers, due largely to an arcane technical incompatibility of our methodology with the challenge’s Synapse platform, which prevented us receiving feedback during the validation phase. Post-submission, additional discrepancy reports from the organisers and via the MIDI-B Continuous Benchmarking facility, enabled us to improve this score significantly to 99.61\%. An entirely rule-based approach was shown to be capable of removing all name-related information in the test corpus, but exhibited failures in dealing fully with address data. Initial experiments using published machine-learning models to remove addresses were partially successful but showed the models to be ‘over-aggressive’ on other types of free-text data, leading to a slight overall degradation in performance to 99.54\%. Future development will therefore focus on improving address-recognition capabilities, but also on better removal of identifiable data burned into the image pixels. Several technical aspects relating to the ‘answer key’ are still under discussion with the challenge organisers, but we estimate that our percentage of genuine deidentification failures on the MIDI-B test corpus currently stands at 0.19\%. (Abridged from original for arXiv submission)

arxiv情報

著者 Alex Michie,Simon J Doran
発行日 2025-04-29 11:33:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, J.3 | Image deidentification in the XNAT ecosystem: use cases and solutions はコメントを受け付けていません

TrueFake: A Real World Case Dataset of Last Generation Fake Images also Shared on Social Networks

要約

AI生成された合成メディアは、実際のシナリオでますます使用されており、多くの場合、圧縮やその他の処理が偽の検出キューを分解できるソーシャルメディアプラットフォームを通じて誤った情報とプロパガンダを広めることを目的としています。
現在、多くの法医学ツールは、これらの野生の課題を説明できません。
この作業では、TrueFakeを紹介します。これは、トップノッチ生成技術を含む600,000の画像の大規模なベンチマークデータセットであり、3つの異なるソーシャルネットワークを介して共有しています。
このデータセットにより、非常に現実的で挑戦的な条件の下で、最先端の偽画像検出器を厳密に評価できます。
広範な実験を通じて、ソーシャルメディアの共有が検出パフォーマンスにどのように影響するかを分析し、現在の最も効果的な検出およびトレーニング戦略を特定します。
私たちの調査結果は、実際の使用を反映する条件で法医学モデルを評価する必要性を強調しています。

要約(オリジナル)

AI-generated synthetic media are increasingly used in real-world scenarios, often with the purpose of spreading misinformation and propaganda through social media platforms, where compression and other processing can degrade fake detection cues. Currently, many forensic tools fail to account for these in-the-wild challenges. In this work, we introduce TrueFake, a large-scale benchmarking dataset of 600,000 images including top notch generative techniques and sharing via three different social networks. This dataset allows for rigorous evaluation of state-of-the-art fake image detectors under very realistic and challenging conditions. Through extensive experimentation, we analyze how social media sharing impacts detection performance, and identify current most effective detection and training strategies. Our findings highlight the need for evaluating forensic models in conditions that mirror real-world use.

arxiv情報

著者 Stefano Dell’Anna,Andrea Montibeller,Giulia Boato
発行日 2025-04-29 11:33:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.MM | TrueFake: A Real World Case Dataset of Last Generation Fake Images also Shared on Social Networks はコメントを受け付けていません

Instruct-ReID++: Towards Universal Purpose Instruction-Guided Person Re-identification

要約

人間の知性は、視覚と言語の両方の説明に従って、すべての人を取得できます。
ただし、現在のコンピュータービジョンコミュニティは、特定の人の再識別(REID)のタスクを別々に研究しているため、現実世界のアプリケーションが制限されています。
この論文は、与えられた画像または言語の指示に従って画像を取得するためにモデルが必要とする新しい指示REIDタスクを提案することにより、この問題を解決するよう努めています。
Instruct-reidは、一般的なリード設定の最初の調査であり、既存の6つのReidタスクをさまざまな指示を割り当てることで特別なケースと見なすことができます。
この新しい指示REIDタスクの研究を促進するために、多様なデータと包括的な評価方法を備えた大規模なOmnireid ++ベンチマークを提案します。たとえば、タスク固有およびタスクフリーの評価設定。
タスク固有の評価設定では、ギャラリーセットは特定のReidタスクに従って分類されます。
統一されたフレームワーク内でさまざまな検索タスクを処理するための適応的なトリプレット損失を備えた新しいベースラインモデルIRMを提案します。
ターゲットパーソン画像がタスクに依存しないギャラリーセットから取得されるタスクフリー評価設定の場合、新しいメモリバンクアシスト学習を備えたIRM ++と呼ばれる新しい方法をさらに提案します。
Omnireid ++ベンチマークに関するIRMおよびIRM ++の広範な評価は、提案された方法の優位性を示し、10のテストセットで最先端のパフォーマンスを達成します。
データセット、モデル、およびコードはhttps://github.com/hwz-zju/instruct-reidで入手できます

要約(オリジナル)

Human intelligence can retrieve any person according to both visual and language descriptions. However, the current computer vision community studies specific person re-identification (ReID) tasks in different scenarios separately, which limits the applications in the real world. This paper strives to resolve this problem by proposing a novel instruct-ReID task that requires the model to retrieve images according to the given image or language instructions. Instruct-ReID is the first exploration of a general ReID setting, where existing 6 ReID tasks can be viewed as special cases by assigning different instructions. To facilitate research in this new instruct-ReID task, we propose a large-scale OmniReID++ benchmark equipped with diverse data and comprehensive evaluation methods e.g., task specific and task-free evaluation settings. In the task-specific evaluation setting, gallery sets are categorized according to specific ReID tasks. We propose a novel baseline model, IRM, with an adaptive triplet loss to handle various retrieval tasks within a unified framework. For task-free evaluation setting, where target person images are retrieved from task-agnostic gallery sets, we further propose a new method called IRM++ with novel memory bank-assisted learning. Extensive evaluations of IRM and IRM++ on OmniReID++ benchmark demonstrate the superiority of our proposed methods, achieving state-of-the-art performance on 10 test sets. The datasets, the model, and the code will be available at https://github.com/hwz-zju/Instruct-ReID

arxiv情報

著者 Weizhen He,Yiheng Deng,Yunfeng Yan,Feng Zhu,Yizhou Wang,Lei Bai,Qingsong Xie,Donglian Qi,Wanli Ouyang,Shixiang Tang
発行日 2025-04-29 11:49:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Instruct-ReID++: Towards Universal Purpose Instruction-Guided Person Re-identification はコメントを受け付けていません

Advance Fake Video Detection via Vision Transformers

要約

AIベースのマルチメディア生成における最近の進歩により、超現実的な画像とビデオの作成が可能になり、誤った情報の広がりにおける潜在的な使用に関する懸念が高まっています。
プロンプトまたは既存のメディアからの偽のマルチメディアの生産を可能にする生成技術の広範なアクセシビリティと、継続的な改良とともに、欧州デジタルAI法のような新しい規制によっても強調されている非常に正確で一般化可能なAI生成されたメディア検出方法の緊急の必要性を強調しています。
この論文では、Vision Transformer(VIT)ベースの偽の画像検出からインスピレーションを引き出し、このアイデアをビデオに拡張します。
{オリジナル}%革新的なフレームワークを提案します。これは、検出パフォーマンスを向上させるために、時間の経過とともにVIT埋め込みを効果的に統合します。
私たちの方法は、最先端の5つのオープンソース生成技術を使用して生成されたビデオの新しい、大規模で多様なデータセットにおける有望な精度、一般化、および少数の学習機能と、独自の生成方法によって生成されるビデオを含む別のデータセットを含むことを示しています。

要約(オリジナル)

Recent advancements in AI-based multimedia generation have enabled the creation of hyper-realistic images and videos, raising concerns about their potential use in spreading misinformation. The widespread accessibility of generative techniques, which allow for the production of fake multimedia from prompts or existing media, along with their continuous refinement, underscores the urgent need for highly accurate and generalizable AI-generated media detection methods, underlined also by new regulations like the European Digital AI Act. In this paper, we draw inspiration from Vision Transformer (ViT)-based fake image detection and extend this idea to video. We propose an {original} %innovative framework that effectively integrates ViT embeddings over time to enhance detection performance. Our method shows promising accuracy, generalization, and few-shot learning capabilities across a new, large and diverse dataset of videos generated using five open source generative techniques from the state-of-the-art, as well as a separate dataset containing videos produced by proprietary generative methods.

arxiv情報

著者 Joy Battocchio,Stefano Dell’Anna,Andrea Montibeller,Giulia Boato
発行日 2025-04-29 11:51:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.MM | Advance Fake Video Detection via Vision Transformers はコメントを受け付けていません

FBRT-YOLO: Faster and Better for Real-Time Aerial Image Detection

要約

視覚機能を備えた埋め込みフライトデバイスは、幅広いアプリケーションに不可欠になりました。
空中画像検出では、多くの既存の方法が小さなターゲット検出の問題に部分的に対処していますが、課題は小さなターゲット検出と検出の精度と効率のバランスを最適化することに残っています。
これらの問題は、リアルタイムの空中画像検出の進歩に対する重要な障害です。
この論文では、検出の精度と効率の不均衡に対処するために、FBRT-Yoloという名前の航空画像検出用のリアルタイム検出器の新しいファミリーを提案します。
この方法は、航空画像の小さなターゲットのオブジェクト知覚を強化するように設計された、特徴補完マッピングモジュール(FCM)とマルチカーネル知覚ユニット(MKP)の2つの軽量モジュールで構成されています。
FCMは、ディープネットワークでの小さなターゲット情報の損失によって引き起こされる情報の不均衡の問題を軽減することに焦点を当てています。
ターゲットの空間的位置情報をより深くネットワークに統合し、より深いレイヤーのセマンティック情報とより適切に調整して、小さなターゲットのローカリゼーションを改善することを目的としています。
MKPを導入します。MKPは、さまざまなサイズのカーネルと畳み込みを活用して、さまざまなスケールのターゲット間の関係を高め、異なるスケールでのターゲットの認識を向上させます。
Visdrone、UAVDT、およびAI-Todを含む3つの主要な航空画像データセットに関する広範な実験結果は、FBRT-Yoloがパフォーマンスと速度の点でさまざまなリアルタイム検出器を上回ることを示しています。

要約(オリジナル)

Embedded flight devices with visual capabilities have become essential for a wide range of applications. In aerial image detection, while many existing methods have partially addressed the issue of small target detection, challenges remain in optimizing small target detection and balancing detection accuracy with efficiency. These issues are key obstacles to the advancement of real-time aerial image detection. In this paper, we propose a new family of real-time detectors for aerial image detection, named FBRT-YOLO, to address the imbalance between detection accuracy and efficiency. Our method comprises two lightweight modules: Feature Complementary Mapping Module (FCM) and Multi-Kernel Perception Unit(MKP), designed to enhance object perception for small targets in aerial images. FCM focuses on alleviating the problem of information imbalance caused by the loss of small target information in deep networks. It aims to integrate spatial positional information of targets more deeply into the network,better aligning with semantic information in the deeper layers to improve the localization of small targets. We introduce MKP, which leverages convolutions with kernels of different sizes to enhance the relationships between targets of various scales and improve the perception of targets at different scales. Extensive experimental results on three major aerial image datasets, including Visdrone, UAVDT, and AI-TOD,demonstrate that FBRT-YOLO outperforms various real-time detectors in terms of performance and speed.

arxiv情報

著者 Yao Xiao,Tingfa Xu,Yu Xin,Jianan Li
発行日 2025-04-29 11:53:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | FBRT-YOLO: Faster and Better for Real-Time Aerial Image Detection はコメントを受け付けていません

Two-stage deep learning framework for the restoration of incomplete-ring PET images

要約

ポジトロン放出断層撮影(PET)は、医学で広く使用されている重要な分子イメージングツールです。
従来のペットシステムは、完全な角度カバレッジと信頼できるデータ収集のために、完全な検出器リングに依存しています。
ただし、ハードウェアの障害、コストの制約、または特定の臨床的ニーズにより、不完全リングペットスキャナーが出現しています。
標準の再構成アルゴリズムは、データの完全性と幾何学的な矛盾が低下しているため、これらのシステムでのパフォーマンスの低下に苦しむことがよくあります。
飛行時間(TOF)情報を組み込むことなく、約50%がCNNベースの方法で対処された損失レベルを2倍にして、高品質の画像をデータから復元する2段階の深い学習フレームワークを提示します。
パイプラインは2つの段階で動作します。投影ドメインの注意U-NETは、隣接するスライスから空間コンテキストを活用することにより、最初にシノグラムの欠落セクションを予測します。その後、完成したデータは、高蛍光の詳細を抑制しながら、残留アーティファクトを除去しながら、U-Net拡散モジュールに渡されます。
パブリックデータセットから206脳の量を使用して、このモデルが30.92 dBのPSNRと0.9708のSSIMでほとんどの解剖学的構造とトレーサー分布機能を維持することを示しています。
また、より高い推論速度を達成するため、不完全なリングペットイメージングの効果的なソリューションを提供します。

要約(オリジナル)

Positron Emission Tomography (PET) is an important molecular imaging tool widely used in medicine. Traditional PET systems rely on complete detector rings for full angular coverage and reliable data collection. However, incomplete-ring PET scanners have emerged due to hardware failures, cost constraints, or specific clinical needs. Standard reconstruction algorithms often suffer from performance degradation with these systems because of reduced data completeness and geometric inconsistencies. We present a two-stage deep-learning framework that, without incorporating any time-of-flight (TOF) information, restores high-quality images from data with about 50% missing coincidences – double the loss levels previously addressed by CNN-based methods. The pipeline operates in two stages: a projection-domain Attention U-Net first predicts the missing sections of the sinogram by leveraging spatial context from neighbouring slices, after which the completed data are reconstructed with OSEM algorithm and passed to a U-Net-diffusion module that removes residual artefacts while reinstating high-frequency detail. Using 206 brain volumes from a public dataset, the result shows that our model successfully preserves most anatomical structures and tracer distribution features with PSNR of 30.92 dB and SSIM of 0.9708. We also achieve higher inference speed, thus providing an effective solution for incomplete-ring PET imaging.

arxiv情報

著者 Yeqi Fang,Rong Zhou
発行日 2025-04-29 11:57:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, physics.med-ph | Two-stage deep learning framework for the restoration of incomplete-ring PET images はコメントを受け付けていません

Occlusion-aware Driver Monitoring System using the Driver Monitoring Dataset

要約

このホワイトペーパーでは、ドライバー監視データセット(DMD)を利用して、堅牢でオクルージョンアウェアドライバー監視システム(DMS)を紹介します。
このシステムは、ドライバーの識別、領域ごとの視線推定、および低光のシナリオに挑戦するなど、さまざまな照明条件下での対面閉塞検出を実行します。
EuroNCAPの推奨事項に合わせて、閉塞検出を含めると、システムのパフォーマンスがいつ劣化するかを示すことにより、状況認識とシステムの信頼性が高まります。
このシステムは、信頼できる機能を確保するために、RGBおよび赤外線(IR)画像でトレーニングされた個別のアルゴリズムを採用しています。
これらのアルゴリズムの開発と統合については、さまざまなセンサーとリアルカーの実装を操作することの課題に対処します。
DMDおよび現実世界のシナリオでの評価は、提案されたシステムの有効性を示しており、RGBベースのモデルの優れた性能とDMSにおける堅牢な閉塞検出の先駆的な貢献を強調しています。

要約(オリジナル)

This paper presents a robust, occlusion-aware driver monitoring system (DMS) utilizing the Driver Monitoring Dataset (DMD). The system performs driver identification, gaze estimation by regions, and face occlusion detection under varying lighting conditions, including challenging low-light scenarios. Aligned with EuroNCAP recommendations, the inclusion of occlusion detection enhances situational awareness and system trustworthiness by indicating when the system’s performance may be degraded. The system employs separate algorithms trained on RGB and infrared (IR) images to ensure reliable functioning. We detail the development and integration of these algorithms into a cohesive pipeline, addressing the challenges of working with different sensors and real-car implementation. Evaluation on the DMD and in real-world scenarios demonstrates the effectiveness of the proposed system, highlighting the superior performance of RGB-based models and the pioneering contribution of robust occlusion detection in DMS.

arxiv情報

著者 Paola Natalia Cañas,Alexander Diez,David Galvañ,Marcos Nieto,Igor Rodríguez
発行日 2025-04-29 11:58:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Occlusion-aware Driver Monitoring System using the Driver Monitoring Dataset はコメントを受け付けていません

OG-HFYOLO :Orientation gradient guidance and heterogeneous feature fusion for deformation table cell instance segmentation

要約

テーブル構造の認識は、ドキュメント分析の重要なタスクです。
ただし、変形テーブルの幾何学的変形は、コンテンツ情報と構造の間に弱い相関を引き起こし、下流のタスクが正確なコンテンツ情報を取得できないようになります。
細胞の細粒の空間座標を取得するために、勾配方向を認識した抽出器によるエッジ応答を強化するOG-Hfyoloモデルを提案し、異種カーネルクロスフュージョンモジュールとスケールに気を配る損失機能を組み合わせて、マルチスケールの客観的機能に適応し、従来の非マクシムサミングに代わって、従来の非マクシムサミングに代わって導入されます。
メカニズム。
さらに、データジェネレーターも提案し、ファイングレインの変形テーブルセル空間座標のローカリゼーションのためにデータセットのギャップを埋め、Deformation Wired Table(dwtal)という名前の大規模なデータセットを導き出します。
実験は、提案されたモデルがすべての主流インスタンスセグメンテーションモデルで優れたセグメンテーション精度を示していることを示しています。
データセットとソースコードは、https://github.com/justliulong/oghfyoloのオープンソースです。

要約(オリジナル)

Table structure recognition is a key task in document analysis. However, the geometric deformation in deformed tables causes a weak correlation between content information and structure, resulting in downstream tasks not being able to obtain accurate content information. To obtain fine-grained spatial coordinates of cells, we propose the OG-HFYOLO model, which enhances the edge response by Gradient Orientation-aware Extractor, combines a Heterogeneous Kernel Cross Fusion module and a scale-aware loss function to adapt to multi-scale objective features, and introduces mask-driven non-maximal suppression in the post-processing, which replaces the traditional bounding box suppression mechanism. Furthermore, we also propose a data generator, filling the gap in the dataset for fine-grained deformation table cell spatial coordinate localization, and derive a large-scale dataset named Deformation Wired Table (DWTAL). Experiments show that our proposed model demonstrates excellent segmentation accuracy on all mainstream instance segmentation models. The dataset and the source code are open source: https://github.com/justliulong/OGHFYOLO.

arxiv情報

著者 Long Liu,Cihui Yang
発行日 2025-04-29 12:02:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | OG-HFYOLO :Orientation gradient guidance and heterogeneous feature fusion for deformation table cell instance segmentation はコメントを受け付けていません

HI-SLAM2: Geometry-Aware Gaussian SLAM for Fast Monocular Scene Reconstruction

要約

RGB入力のみを使用して、高速かつ正確な単眼シーンの再構成を実現する幾何学的なガウススラムシステムであるHi-Slam2を提示します。
既存のニューラルSLAMまたは3DGSベースのSLAMメソッドは、品質のレンダリングと幾何学の精度の間でトレードオフすることがよくあります。私たちの研究は、両方がRGB入力のみと同時に達成できることを実証しています。
私たちのアプローチの重要なアイデアは、習慣の簡単な単眼のプリエアと学習ベースの密なスラムを組み合わせて、コアマップ表現として3Dガウスのスプラッティングを使用してシーンを効率的にモデル化することにより、幾何学推定の能力を高めることです。
ループの閉鎖時に、当社のメソッドは、固定されたキーフレームの更新に基づいて3Dガウスユニットを明示的に変形させることにより、効率的なポーズグラフバンドル調整とインスタントマップの更新により、オンザフライのグローバルな一貫性を保証します。
さらに、グリッドベースのスケールアライメント戦略を導入して、深さの詳細のために、以前の深さでのスケールの一貫性を改善します。
レプリカ、スキャネ、およびscannet ++での広範な実験を通じて、既存の神経スラム法に対する大幅な改善を示し、再構築とレンダリング品質の両方でRGB-Dベースの方法を上回ります。
プロジェクトページとソースコードは、https://hi-slam2.github.io/で利用可能になります。

要約(オリジナル)

We present HI-SLAM2, a geometry-aware Gaussian SLAM system that achieves fast and accurate monocular scene reconstruction using only RGB input. Existing Neural SLAM or 3DGS-based SLAM methods often trade off between rendering quality and geometry accuracy, our research demonstrates that both can be achieved simultaneously with RGB input alone. The key idea of our approach is to enhance the ability for geometry estimation by combining easy-to-obtain monocular priors with learning-based dense SLAM, and then using 3D Gaussian splatting as our core map representation to efficiently model the scene. Upon loop closure, our method ensures on-the-fly global consistency through efficient pose graph bundle adjustment and instant map updates by explicitly deforming the 3D Gaussian units based on anchored keyframe updates. Furthermore, we introduce a grid-based scale alignment strategy to maintain improved scale consistency in prior depths for finer depth details. Through extensive experiments on Replica, ScanNet, and ScanNet++, we demonstrate significant improvements over existing Neural SLAM methods and even surpass RGB-D-based methods in both reconstruction and rendering quality. The project page and source code will be made available at https://hi-slam2.github.io/.

arxiv情報

著者 Wei Zhang,Qing Cheng,David Skuddis,Niclas Zeller,Daniel Cremers,Norbert Haala
発行日 2025-04-29 12:03:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | HI-SLAM2: Geometry-Aware Gaussian SLAM for Fast Monocular Scene Reconstruction はコメントを受け付けていません