PE3R: Perception-Efficient 3D Reconstruction

要約

2Dから3Dの認識における最近の進歩により、2D画像からの3Dシーンの理解が大幅に向上しました。
ただし、既存の方法は、シーン全体の限られた一般化、準最適な知覚精度、再構築速度の遅いなど、重要な課題に直面しています。
これらの制限に対処するために、知覚効率の高い3D再構成(PE3R)を提案します。これは、精度と効率の両方を向上させるために設計された新しいフレームワークです。
PE3Rは、迅速な3Dセマンティックフィールド再構成を可能にするために、フィードフォワードアーキテクチャを採用しています。
このフレームワークは、再構築速度を大幅に改善しながら、多様なシーンやオブジェクトにわたって堅牢なゼロショット一般化を示しています。
2D-To-3Dから3Dのオープンボキャブラリーセグメンテーションと3D再構成に関する広範な実験により、PE3Rの有効性と汎用性が検証されます。
このフレームワークは、3Dセマンティックフィールド再構築で最低9倍のスピードアップを達成し、認識の精度と再構築の精度の大幅な利益を得て、フィールドに新しいベンチマークを設定します。
このコードは、https://github.com/hujiecpp/pe3rで公開されています。

要約(オリジナル)

Recent advancements in 2D-to-3D perception have significantly improved the understanding of 3D scenes from 2D images. However, existing methods face critical challenges, including limited generalization across scenes, suboptimal perception accuracy, and slow reconstruction speeds. To address these limitations, we propose Perception-Efficient 3D Reconstruction (PE3R), a novel framework designed to enhance both accuracy and efficiency. PE3R employs a feed-forward architecture to enable rapid 3D semantic field reconstruction. The framework demonstrates robust zero-shot generalization across diverse scenes and objects while significantly improving reconstruction speed. Extensive experiments on 2D-to-3D open-vocabulary segmentation and 3D reconstruction validate the effectiveness and versatility of PE3R. The framework achieves a minimum 9-fold speedup in 3D semantic field reconstruction, along with substantial gains in perception accuracy and reconstruction precision, setting new benchmarks in the field. The code is publicly available at: https://github.com/hujiecpp/PE3R.

arxiv情報

著者 Jie Hu,Shizun Wang,Xinchao Wang
発行日 2025-03-10 16:29:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | PE3R: Perception-Efficient 3D Reconstruction はコメントを受け付けていません

PointVLA: Injecting the 3D World into Vision-Language-Action Models

要約

Vision-Language-action(VLA)モデルは、大規模な2Dビジョン言語前の事前トレーニングを活用することでロボットタスクに優れていますが、RGBイメージへの依存により、実際の相互作用に重要な空間的推論が制限されます。
3Dデータを使用してこれらのモデルを再編成することは計算的に禁止されていますが、既存の2Dデータセットを破棄することは貴重なリソースを廃棄します。
このギャップを埋めるために、再訓練を必要とせずにポイントクラウド入力で事前に訓練されたVLAを強化するフレームワークであるPointVLAを提案します。
私たちの方法は、バニラアクションエキスパートをフリーズし、軽量モジュラーブロックを介して3D機能を注入します。
ポイントクラウド表現を統合する最も効果的な方法を特定するために、スキップブロック分析を実施して、バニラアクションエキスパートのあまり有用でないブロックを特定し、3D機能がこれらのブロックにのみ注入され、事前に訓練された表現の破壊を最小化することを保証します。
広範な実験は、PointVLAが、シミュレートされたロボットタスクと現実世界のロボットタスクの両方で、OpenVLA、拡散ポリシー、DexVLAなどの最先端の2D模倣学習方法を上回ることを示しています。
具体的には、ポイントクラウド統合によって有効になっているPointVLAのいくつかの重要な利点を強調します。(1)PointVLAがそれぞれ20のデモンストレーションを使用して4つの異なるタスクを正常に実行するいくつかのショットマルチタスク。
(2)Pointvlaが実際のオブジェクトを画像と区別し、3D世界知識を活用して安全性と信頼性を向上させる現実VS-Photo差別。
(3)高さの適応性は、従来の2D模倣学習方法とは異なり、PointVLAを使用すると、ロボットは列車のデータで見えないさまざまなテーブルの高さでオブジェクトに適応できます。
さらに、PointVLAは、動くコンベヤーベルトからオブジェクトをピッキングしたり梱包したりするなど、長期のタスクで強力なパフォーマンスを達成し、複雑で動的な環境を介して一般化する能力を紹介します。

要約(オリジナル)

Vision-Language-Action (VLA) models excel at robotic tasks by leveraging large-scale 2D vision-language pretraining, but their reliance on RGB images limits spatial reasoning critical for real-world interaction. Retraining these models with 3D data is computationally prohibitive, while discarding existing 2D datasets wastes valuable resources. To bridge this gap, we propose PointVLA, a framework that enhances pre-trained VLAs with point cloud inputs without requiring retraining. Our method freezes the vanilla action expert and injects 3D features via a lightweight modular block. To identify the most effective way of integrating point cloud representations, we conduct a skip-block analysis to pinpoint less useful blocks in the vanilla action expert, ensuring that 3D features are injected only into these blocks–minimizing disruption to pre-trained representations. Extensive experiments demonstrate that PointVLA outperforms state-of-the-art 2D imitation learning methods, such as OpenVLA, Diffusion Policy and DexVLA, across both simulated and real-world robotic tasks. Specifically, we highlight several key advantages of PointVLA enabled by point cloud integration: (1) Few-shot multi-tasking, where PointVLA successfully performs four different tasks using only 20 demonstrations each; (2) Real-vs-photo discrimination, where PointVLA distinguishes real objects from their images, leveraging 3D world knowledge to improve safety and reliability; (3) Height adaptability, Unlike conventional 2D imitation learning methods, PointVLA enables robots to adapt to objects at varying table height that unseen in train data. Furthermore, PointVLA achieves strong performance in long-horizon tasks, such as picking and packing objects from a moving conveyor belt, showcasing its ability to generalize across complex, dynamic environments.

arxiv情報

著者 Chengmeng Li,Junjie Wen,Yan Peng,Yaxin Peng,Feifei Feng,Yichen Zhu
発行日 2025-03-10 16:32:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO | PointVLA: Injecting the 3D World into Vision-Language-Action Models はコメントを受け付けていません

CPAny: Couple With Any Encoder to Refer Multi-Object Tracking

要約

参照マルチオブジェクト追跡(RMOT)は、ビデオの自然言語表現によって指定されたターゲット軌道をローカライズすることを目的としています。
既存のRMOTメソッドは、主に2つのパラダイム、つまり1段階の戦略と2段階の戦略に従います。
前者は共同で紹介することで追跡を訓練しますが、かなりの計算オーバーヘッドに苦しんでいます。
後者は計算効率を向上させますが、そのクリップにインスパイアされたデュアルタワーアーキテクチャは、他の視覚/テキストのバックボーンとの互換性を制限し、将来のプルーフではありません。
これらの制限を克服するために、2つのコアコンポーネントを導入する2段階のRMOTの新しいエンコーダーデコーダーフレームワークであるCPANYを提案します。
(2)並列セマンティックサマリザー(PSS)は、セマンティックレベルで視覚的および言語的特徴を並列で解読し、参照スコアを生成します。
エンコーダーの固有の機能アラインメントを自己構築された統一セマンティックスペースに置き換えることにより、CPANYは任意の新しい視覚 /テキストエンコーダと柔軟な互換性を実現します。
一方、CPANYは、一度だけエンコードすることでコンテキスト情報を集約し、複数の式を並列に処理し、計算冗長性を大幅に削減します。
Refer-KittiおよびRefer-Kitti-V2データセットに関する広範な実験は、CPANYが多様なエンコーダーの組み合わせ全体でSOTAメソッドを上回ることを示しており、参照キッティ-V2の特定の7.77 \%のHOTA改善があります。
コードはまもなく利用可能になります。

要約(オリジナル)

Referring Multi-Object Tracking (RMOT) aims to localize target trajectories specified by natural language expressions in videos. Existing RMOT methods mainly follow two paradigms, namely, one-stage strategies and two-stage ones. The former jointly trains tracking with referring but suffers from substantial computational overhead. Although the latter improves computational efficiency, its CLIP-inspired dual-tower architecture restricts compatibility with other visual/text backbones and is not future-proof. To overcome these limitations, we propose CPAny, a novel encoder-decoder framework for two-stage RMOT, which introduces two core components: (1) a Contextual Visual Semantic Abstractor (CVSA) performs context-aware aggregation on visual backbone features and projects them into a unified semantic space; (2) a Parallel Semantic Summarizer (PSS) decodes the visual and linguistic features at the semantic level in parallel and generates referring scores. By replacing the inherent feature alignment of encoders with a self-constructed unified semantic space, CPAny achieves flexible compatibility with arbitrary emerging visual / text encoders. Meanwhile, CPAny aggregates contextual information by encoding only once and processes multiple expressions in parallel, significantly reducing computational redundancy. Extensive experiments on the Refer-KITTI and Refer-KITTI-V2 datasets show that CPAny outperforms SOTA methods across diverse encoder combinations, with a particular 7.77\% HOTA improvement on Refer-KITTI-V2. Code will be available soon.

arxiv情報

著者 Weize Li,Yunhao Du,Qixiang Yin,Zhicheng Zhao,Fei Su,Daqi Liu
発行日 2025-03-10 16:38:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | CPAny: Couple With Any Encoder to Refer Multi-Object Tracking はコメントを受け付けていません

FastInstShadow: A Simple Query-Based Model for Instance Shadow Detection

要約

インスタンスシャドウ検出は、既存のメソッドが最初に影とオブジェクトを独立して検出し、次にそれらを関連付けるシャドウとオブジェクトのペアを検出するタスクです。
このペーパーでは、FastInstshadowを紹介します。これは、2つのデュアルパストランスデコーダーを備えたアソシエーショントランスデコーダーを備えたクエリベースのアーキテクチャを通じて検出精度を強化する方法を紹介し、検出中の影とオブジェクト間の関係を評価するためのアソシエーショントランスデコーダーです。
SOBAデータセットを使用した実験結果は、提案された方法がすべての基準にわたって既存のすべての方法よりも優れていることを示しました。
この方法により、最も正確な既存の方法であるSSISV2よりも精度が高い中程度の解像度画像では、リアルタイム処理が実行可能になります。
私たちのコードは、https://github.com/wlotkr/fastinstshadowで入手できます。

要約(オリジナル)

Instance shadow detection is the task of detecting pairs of shadows and objects, where existing methods first detect shadows and objects independently, then associate them. This paper introduces FastInstShadow, a method that enhances detection accuracy through a query-based architecture featuring an association transformer decoder with two dual-path transformer decoders to assess relationships between shadows and objects during detection. Experimental results using the SOBA dataset showed that the proposed method outperforms all existing methods across all criteria. This method makes real-time processing feasible for moderate-resolution images with better accuracy than SSISv2, the most accurate existing method. Our code is available at https://github.com/wlotkr/FastInstShadow.

arxiv情報

著者 Takeru Inoue,Ryusuke Miyamoto
発行日 2025-03-10 16:39:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | FastInstShadow: A Simple Query-Based Model for Instance Shadow Detection はコメントを受け付けていません

From Limited Labels to Open Domains: An Efficient Learning Paradigm for UAV-view Geo-Localization

要約

従来のUAV-Viewジオローカリゼーション(UVGL)監視されたパラダイムは、ポジティブなサンプル選択のためのペアのデータへの厳格な依存によって制約されており、これにより、対応のないデータからクロスビュードメインインバリアン表現を学習する能力が制限されています。
さらに、新しいドメインに展開する際に、シナリオ固有のトレーニングのための高価な再ラーベルコストとのペアリング関係を再構築する必要があります。
この問題に対処するために、クロスドメインの不変性サブネットワークとクロスドメイン転送サブネットワークを含む新しいクロスドメイン不変知識移転ネットワーク(CDIKTNET)を提案し、不変機能学習と知識転送の閉ループフレームワークを実現します。
クロスドメインの不変サブネットワークは、クロスビュー機能で構造的不変性と空間不変性を学習することにより、ドメイン全体で本質的に共有された機能空間を構築するために利用されます。
一方、クロスドメイン転送サブネットワークは、これらの不変機能をアンカーとして使用し、対応のないデータの潜在的なクロスドメイン相関パターンを採掘するためのデュアルパスコントラストメモリ学習メカニズムを採用しています。
広範な実験は、私たちの方法が完全に監視された条件下で最先端のパフォーマンスを達成することを示しています。
さらに重要なことに、わずか2 \%のペアのデータを使用すると、我々の方法は既存の監視されたパラダイムに匹敵するパフォーマンスを示し、他のシナリオのアプリケーションの資格を取得するために直接転送して、以前のペアリング関係なしに完全に転送する能力を持っています。

要約(オリジナル)

Traditional UAV-view Geo-Localization (UVGL) supervised paradigms are constrained by the strict reliance on paired data for positive sample selection, which limits their ability to learn cross-view domain-invariant representations from unpaired data. Moreover, it is necessary to reconstruct the pairing relationship with expensive re-labeling costs for scenario-specific training when deploying in a new domain, which fails to meet the practical demands of open-environment applications. To address this issue, we propose a novel cross-domain invariance knowledge transfer network (CDIKTNet), which comprises a cross-domain invariance sub-network and a cross-domain transfer sub-network to realize a closed-loop framework of invariance feature learning and knowledge transfer. The cross-domain invariance sub-network is utilized to construct an essentially shared feature space across domains by learning structural invariance and spatial invariance in cross-view features. Meanwhile, the cross-domain transfer sub-network uses these invariant features as anchors and employs a dual-path contrastive memory learning mechanism to mine latent cross-domain correlation patterns in unpaired data. Extensive experiments demonstrate that our method achieves state-of-the-art performance under fully supervised conditions. More importantly, with merely 2\% paired data, our method exhibits performance comparable to existing supervised paradigms and possesses the ability to transfer directly to qualify for applications in the other scenarios completely without any prior pairing relationship.

arxiv情報

著者 Zhongwei Chen,Zhao-Xu Yang,Hai-Jun Rong,Jiawei Lang
発行日 2025-03-10 16:46:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.IR | From Limited Labels to Open Domains: An Efficient Learning Paradigm for UAV-view Geo-Localization はコメントを受け付けていません

VisRL: Intention-Driven Visual Perception via Reinforced Reasoning

要約

視覚的理解は本質的に意図駆動型です – 人間は目標に基づいてシーンのさまざまな地域に選択的に焦点を当てています。
大規模なマルチモーダルモデル(LMMS)の最近の進歩により、自然言語を通じてそのような意図を柔軟に表現できるようになり、視覚的な推論プロセスを導くクエリが可能になります。
視覚的なチェーンのようなフレームワークは、クエリに答える前にモデルがフォーカス領域を予測する明示的な推論ステップを組み込むことの利点を実証しています。
ただし、既存のアプローチは、注釈付き中間境界ボックスを使用した監視付きトレーニングに大きく依存しており、意図領域ペアの組み合わせ爆発によりスケーラビリティを大幅に制限します。
この制限を克服するために、意図駆動型の視覚的知覚の問題に強化学習(RL)を適用する最初のフレームワークであるVisRLを提案します。
VisRLは、報酬信号のみを使用して視覚的推論プロセス全体を最適化します。
中間フォーカス選択を試行錯誤を通じて最適化された内部決定として扱うことにより、私たちの方法は、人間が世界を知覚することをどのように学ぶかとより密接に調整しながら、費用のかかる地域の注釈の必要性を排除します。
複数のベンチマークにわたる広範な実験は、VisRLが強力なベースラインを一貫して優れていることを示しており、その有効性と異なるLMMにわたる強力な一般化の両方を示しています。
私たちのコードは、この[url](https://github.com/zhangquanchen/visrl)で入手できます。

要約(オリジナル)

Visual understanding is inherently intention-driven – humans selectively focus on different regions of a scene based on their goals. Recent advances in large multimodal models (LMMs) enable flexible expression of such intentions through natural language, allowing queries to guide visual reasoning processes. Frameworks like Visual Chain-of-Thought have demonstrated the benefit of incorporating explicit reasoning steps, where the model predicts a focus region before answering a query. However, existing approaches rely heavily on supervised training with annotated intermediate bounding boxes, which severely limits scalability due to the combinatorial explosion of intention-region pairs. To overcome this limitation, we propose VisRL, the first framework that applies reinforcement learning (RL) to the problem of intention-driven visual perception. VisRL optimizes the entire visual reasoning process using only reward signals. By treating intermediate focus selection as a internal decision optimized through trial-and-error, our method eliminates the need for costly region annotations while aligning more closely with how humans learn to perceive the world. Extensive experiments across multiple benchmarks show that VisRL consistently outperforms strong baselines, demonstrating both its effectiveness and its strong generalization across different LMMs. Our code is available at this [URL](https://github.com/zhangquanchen/VisRL).

arxiv情報

著者 Zhangquan Chen,Xufang Luo,Dongsheng Li
発行日 2025-03-10 16:49:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, I.2.10 | VisRL: Intention-Driven Visual Perception via Reinforced Reasoning はコメントを受け付けていません

Physics Context Builders: A Modular Framework for Physical Reasoning in Vision-Language Models

要約

動的環境内でオブジェクトの動作を解釈することを含む物理的推論は、ビジョン言語モデル(VLM)にとって重要な課題のままです。
身体的推論の制限は、学習した知識を身体的行動に関する予測に変換できないことから生じます。
私たちは慎重な研究を行い、継続的な微調整がこの問題をどのように軽減できるかを示します。
ただし、微調整は大規模なモデルには高価であり、すべてのタスクで繰り返し実行することは非現実的です。
これにより、物理的な推論についてVLMを教えるためのモジュール式でスケーラブルな方法の作成が必要です。
そのために、Physics Context Builders(PCB)を紹介します。これは、特殊なVLMが詳細な物理シーンの説明を生成するために微調整されている新しいモジュラーフレームワークです。
これらは、推論機能を強化するために、より大きなVLMの物理的コンテキストとして使用できます。
PCBは、視覚的認識を推論と分離できるようにし、身体的理解に対する相対的な貢献を分析することができます。
ClevrerとFalling Towerで慎重な実験を行い、シミュレートされたシーンと実世界の両方のシーンを備えた安定性検出データセットで、PCBが大幅なパフォーマンスの改善を提供し、複雑な物理的推論タスクで最大13.8%の平均精度を高めることを実証します。
特に、PCBは強力なSim2real転送を示し、シミュレートされたトレーニングデータから実際のシーンに成功しました。
私たちの研究は、モジュール式のシミュレーション訓練を受けたコンポーネントを通じて視覚的知覚を強化することで、VLMの物理的推論を改善しながら、これらのモデルの物理的理解に影響を与える要因に関する洞察を提供する実用的なアプローチを提供することを示しています。

要約(オリジナル)

Physical reasoning, which involves interpreting object behaviors within dynamic environments, remains a significant challenge for Vision-Language Models (VLMs). The limitations in physical reasoning arise from an inability to translate learned knowledge into predictions about physical behavior. We perform a careful study to show how continual fine-tuning can mitigate this issue. However, fine-tuning is expensive for large models and impractical to repeatedly perform for every task. This necessitates the creation of modular and scalable ways to teach VLMs about physical reasoning. To that end, we introduce Physics Context Builders (PCBs), a novel modular framework where specialized VLMs are fine-tuned to generate detailed physical scene descriptions. These can be used as physical contexts for larger VLMs to enhance their reasoning capabilities. PCBs enable the separation of visual perception from reasoning, allowing us to analyze their relative contributions to physical understanding. We perform careful experiments on CLEVRER and on Falling Tower, a stability detection dataset with both simulated and real-world scenes, to demonstrate that PCBs provide substantial performance improvements, increasing average accuracy by up to 13.8% on complex physical reasoning tasks. Notably, PCBs show strong Sim2Real transfer, successfully generalizing from simulated training data to real-world scenes. Our work demonstrates that enhancing visual perception through modular, simulation-trained components offers a practical approach to improving physical reasoning in VLMs, while providing insights into the factors affecting physical understanding in these models.

arxiv情報

著者 Vahid Balazadeh,Mohammadmehdi Ataei,Hyunmin Cheong,Amir Hosein Khasahmadi,Rahul G. Krishnan
発行日 2025-03-10 17:01:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Physics Context Builders: A Modular Framework for Physical Reasoning in Vision-Language Models はコメントを受け付けていません

LBM: Latent Bridge Matching for Fast Image-to-Image Translation

要約

このホワイトペーパーでは、潜在的な汎用性のあるスケーラブルな方法である潜在的な汎用性のあるスケーラブルな方法である潜在的な汎用性のあるスケーラブルな方法である潜在的な汎用性のあるスケーラブルな方法を紹介します。
この方法は、単一の推論ステップのみを使用して、さまざまな画像から画像間タスクの最先端の結果に達することができることを示します。
その効率に加えて、オブジェクトの削除、通常および深度推定、オブジェクトの再生など、さまざまな画像翻訳タスクにわたるメソッドの汎用性も示します。
また、LBMの条件付きフレームワークを導き出し、制御可能なイメージの学習と影の生成のタスクに取り組むことにより、その有効性を実証します。
https://github.com/gojasper/lbmでメソッドのオープンソース実装を提供します。

要約(オリジナル)

In this paper, we introduce Latent Bridge Matching (LBM), a new, versatile and scalable method that relies on Bridge Matching in a latent space to achieve fast image-to-image translation. We show that the method can reach state-of-the-art results for various image-to-image tasks using only a single inference step. In addition to its efficiency, we also demonstrate the versatility of the method across different image translation tasks such as object removal, normal and depth estimation, and object relighting. We also derive a conditional framework of LBM and demonstrate its effectiveness by tackling the tasks of controllable image relighting and shadow generation. We provide an open-source implementation of the method at https://github.com/gojasper/LBM.

arxiv情報

著者 Clément Chadebec,Onur Tasar,Sanjeev Sreetharan,Benjamin Aubin
発行日 2025-03-10 17:03:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | LBM: Latent Bridge Matching for Fast Image-to-Image Translation はコメントを受け付けていません

VideoLifter: Lifting Videos to 3D with Fast Hierarchical Stereo Alignment

要約

モノクラービデオから3Dシーンを効率的に再構築することは、仮想現実、ロボット工学、シーンの理解に不可欠なコンピュータービジョンにおける中心的な課題のままです。
最近、カメラのポーズなしのフレームごとのプログレッシブ再構成が一般的に採用され、長いビデオにスケーリングすると、高い計算オーバーヘッドと複合エラーが発生します。
これらの問題を克服するために、VideLifterを紹介します。VideLifterは、極端な効率とSOTAの品質の両方を達成するために、ローカルからグローバルへの戦略をフラグメントベースで活用する新しいビデオから3Dパイプラインです。
ローカルでは、ビデオリフターレバレッジ学習可能な3Dプライアーは、断片を登録し、強制された炎症間整合性と最適化効率を備えたその後の3Dガウス初期化に不可欠な情報を抽出します。
グローバルに、それは、累積誤差を効率的に軽減しながらグローバルな一貫性を確保するために、漏れ間アライメント、ガウスポイント剪定、およびその後の共同最適化のためのキーフレームガイダンスを使用して、ツリーベースの階層マージ法を使用します。
このアプローチは、再構成プロセスを大幅に加速し、トレーニング時間を82%以上削減し、現在のSOTAメソッドよりも視覚的な品質を向上させます。

要約(オリジナル)

Efficiently reconstructing 3D scenes from monocular video remains a core challenge in computer vision, vital for applications in virtual reality, robotics, and scene understanding. Recently, frame-by-frame progressive reconstruction without camera poses is commonly adopted, incurring high computational overhead and compounding errors when scaling to longer videos. To overcome these issues, we introduce VideoLifter, a novel video-to-3D pipeline that leverages a local-to-global strategy on a fragment basis, achieving both extreme efficiency and SOTA quality. Locally, VideoLifter leverages learnable 3D priors to register fragments, extracting essential information for subsequent 3D Gaussian initialization with enforced inter-fragment consistency and optimized efficiency. Globally, it employs a tree-based hierarchical merging method with key frame guidance for inter-fragment alignment, pairwise merging with Gaussian point pruning, and subsequent joint optimization to ensure global consistency while efficiently mitigating cumulative errors. This approach significantly accelerates the reconstruction process, reducing training time by over 82% while holding better visual quality than current SOTA methods.

arxiv情報

著者 Wenyan Cong,Hanqing Zhu,Kevin Wang,Jiahui Lei,Colton Stearns,Yuanhao Cai,Dilin Wang,Rakesh Ranjan,Matt Feiszli,Leonidas Guibas,Zhangyang Wang,Weiyao Wang,Zhiwen Fan
発行日 2025-03-10 17:19:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | VideoLifter: Lifting Videos to 3D with Fast Hierarchical Stereo Alignment はコメントを受け付けていません

Alligat0R: Pre-Training Through Co-Visibility Segmentation for Relative Camera Pose Regression

要約

トレーニング前の手法は、コンピュータービジョンを大きく進めており、Crocoのクロスビュー完了アプローチは、3D再構成やポーズ回帰などのタスクで印象的な結果をもたらします。
ただし、この方法では、トレーニングペア間でかなりの重複が必要であり、その有効性が制限されます。
Co-Visibilityセグメンテーションタスクとしてクロスビュー学習を再定式化する新しいトレーニング前アプローチであるAlligat0Rを紹介します。
私たちの方法は、1つの画像内の各ピクセルが2番目の画像で互換性があるか、視野の外側(FOV)で共存しているかを予測し、任意の程度のオーバーラップで画像ペアを使用し、解釈可能な予測を提供します。
これをサポートするために、250万の画像ペアとヌスセンデータセットから派生した密集した共活性アノテーションを備えた大規模なデータセットであるCub3を提示します。
このデータセットには、さまざまな程度のオーバーラップを持つ多様なシナリオが含まれています。
この実験は、Alligat0rが、特に重複が制限されているシナリオで、相対的なポーズ回帰でCrocoを大幅に上回ることを示しています。
Alligat0rとCub3が公開されます。

要約(オリジナル)

Pre-training techniques have greatly advanced computer vision, with CroCo’s cross-view completion approach yielding impressive results in tasks like 3D reconstruction and pose regression. However, this method requires substantial overlap between training pairs, limiting its effectiveness. We introduce Alligat0R, a novel pre-training approach that reformulates cross-view learning as a co-visibility segmentation task. Our method predicts whether each pixel in one image is co-visible in the second image, occluded, or outside the field of view (FOV), enabling the use of image pairs with any degree of overlap and providing interpretable predictions. To support this, we present Cub3, a large-scale dataset with 2.5 million image pairs and dense co-visibility annotations derived from the nuScenes dataset. This dataset includes diverse scenarios with varying degrees of overlap. The experiments show that Alligat0R significantly outperforms CroCo in relative pose regression, especially in scenarios with limited overlap. Alligat0R and Cub3 will be made publicly available.

arxiv情報

著者 Thibaut Loiseau,Guillaume Bourmaud,Vincent Lepetit
発行日 2025-03-10 17:29:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Alligat0R: Pre-Training Through Co-Visibility Segmentation for Relative Camera Pose Regression はコメントを受け付けていません