Curriculum Coarse-to-Fine Selection for High-IPC Dataset Distillation

要約

データセット蒸留(DD)は、クラスあたりの少数の画像(IPC)の合成に優れていますが、高IPC設定での有効性を維持するのに苦労しています。
データセットの蒸留に関する最近の研究は、蒸留と実際のデータを組み合わせることで有効性の減衰を軽減できることを示しています。
ただし、組み合わせパラダイムの分析により、現在のワンショットおよび独立した選択メカニズムが、蒸留型画像と実際の画像の間に非互換性の問題を誘発することが明らかになりました。
この問題に対処するために、効率的な高IPCデータセット蒸留のために、新しいカリキュラムの粗からファインセレクション(CCFS)メソッドを紹介します。
CCFSは、実際のデータ選択のためにカリキュラム選択フレームワークを採用しています。ここでは、粗からファインまでの戦略を活用して、各カリキュラムの現在の合成データセットに基づいて適切な実際のデータを選択します。
大規模な実験では、CCFSを検証し、最先端をCIFAR-10で+6.6 \%、CIFAR-100で+5.8 \%、+3.4 \%を高IPC設定下で+3.4 \%でした。
特に、CCFSは、Tiny-Imagenetの20 \%圧縮比でResNet-18で60.2 \%のテスト精度を達成し、わずか0.3 \%の分解でフルデータセットトレーニングを密接に一致させます。
コード:https://github.com/cydaaa30/ccfs。

要約(オリジナル)

Dataset distillation (DD) excels in synthesizing a small number of images per class (IPC) but struggles to maintain its effectiveness in high-IPC settings. Recent works on dataset distillation demonstrate that combining distilled and real data can mitigate the effectiveness decay. However, our analysis of the combination paradigm reveals that the current one-shot and independent selection mechanism induces an incompatibility issue between distilled and real images. To address this issue, we introduce a novel curriculum coarse-to-fine selection (CCFS) method for efficient high-IPC dataset distillation. CCFS employs a curriculum selection framework for real data selection, where we leverage a coarse-to-fine strategy to select appropriate real data based on the current synthetic dataset in each curriculum. Extensive experiments validate CCFS, surpassing the state-of-the-art by +6.6\% on CIFAR-10, +5.8\% on CIFAR-100, and +3.4\% on Tiny-ImageNet under high-IPC settings. Notably, CCFS achieves 60.2\% test accuracy on ResNet-18 with a 20\% compression ratio of Tiny-ImageNet, closely matching full-dataset training with only 0.3\% degradation. Code: https://github.com/CYDaaa30/CCFS.

arxiv情報

著者 Yanda Chen,Gongwei Chen,Miao Zhang,Weili Guan,Liqiang Nie
発行日 2025-03-24 16:47:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Curriculum Coarse-to-Fine Selection for High-IPC Dataset Distillation はコメントを受け付けていません

RaCFormer: Towards High-Quality 3D Object Detection via Query-based Radar-Camera Fusion

要約

レーダーカメラ融合トランス(Racformer)を提案して、次の洞察により3Dオブジェクト検出の精度を高めます。
屋外3Dシーンの知覚におけるレーダーカメラの融合は、画像間変換によって覆われています。ピクセルの深さが正確に推定されない場合、BEV特徴の素朴な組み合わせは実際に整列されていない視覚コンテンツを統合します。
この問題を回避するために、鳥瞰図(BEV)と元の画像ビューの両方からインスタンス関連機能の適応サンプリングを可能にするクエリベースのフレームワークを提案します。
さらに、クエリの初期化の最適化とBEVの表現能力の強化という2つの重要な設計により、システムのパフォーマンスを向上させます。
前者については、オブジェクトクエリの初期化を改良し、クエリ密度の距離ベースの調整を可能にするために、極座標に適応循環分布を導入します。
後者については、最初にレーダー誘導深度ヘッドを組み込んで、画像ビューからBEVへの変換を改良します。
その後、レーダーのドップラー効果を活用することに焦点を当て、暗黙の動的キャッチャーを導入してBEV内の側頭要素をキャプチャします。
ヌスセンとビューオブデルフ(VOD)データセットに関する広範な実験は、設計のメリットを検証します。
驚くべきことに、私たちの方法は、ヌスケンで64.9%のMAPと70.2%NDSの優れた結果を達成しています。
Racformerは、VODデータセットの最先端のパフォーマンスも確保しています。
コードはhttps://github.com/cxmomo/racformerで入手できます。

要約(オリジナル)

We propose Radar-Camera fusion transformer (RaCFormer) to boost the accuracy of 3D object detection by the following insight. The Radar-Camera fusion in outdoor 3D scene perception is capped by the image-to-BEV transformation–if the depth of pixels is not accurately estimated, the naive combination of BEV features actually integrates unaligned visual content. To avoid this problem, we propose a query-based framework that enables adaptive sampling of instance-relevant features from both the bird’s-eye view (BEV) and the original image view. Furthermore, we enhance system performance by two key designs: optimizing query initialization and strengthening the representational capacity of BEV. For the former, we introduce an adaptive circular distribution in polar coordinates to refine the initialization of object queries, allowing for a distance-based adjustment of query density. For the latter, we initially incorporate a radar-guided depth head to refine the transformation from image view to BEV. Subsequently, we focus on leveraging the Doppler effect of radar and introduce an implicit dynamic catcher to capture the temporal elements within the BEV. Extensive experiments on nuScenes and View-of-Delft (VoD) datasets validate the merits of our design. Remarkably, our method achieves superior results of 64.9% mAP and 70.2% NDS on nuScenes. RaCFormer also secures the state-of-the-art performance on the VoD dataset. Code is available at https://github.com/cxmomo/RaCFormer.

arxiv情報

著者 Xiaomeng Chu,Jiajun Deng,Guoliang You,Yifan Duan,Houqiang Li,Yanyong Zhang
発行日 2025-03-24 16:47:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | RaCFormer: Towards High-Quality 3D Object Detection via Query-based Radar-Camera Fusion はコメントを受け付けていません

Efficient Self-Supervised Adaptation for Medical Image Analysis

要約

自己教師の適応(SSA)は、医療ドメインへの基礎モデルの移転を改善しますが、計算上は法外にあります。
LORAなどのパラメーター効率的な微調整方法は、監視された適応のために調査されていますが、SSAに対するそれらの有効性は不明のままです。
この作業では、計算コストを削減し、適応パフォーマンスを改善することを目的として、パラメーター効率の高い微調整技術をSSAに適用するフレームワークである効率的な自己監視適応(ESSA)を紹介します。
テストされた方法の中で、注意投影層の適応(APLA)は、新しい最先端のフルパラメーターSSAを一貫して上回り、多様な医療タスク全体で監視した微調整を設定し、GPUメモリを最大40.1%削減し、25.2%のトレーニングスループットを増加させます。

要約(オリジナル)

Self-supervised adaptation (SSA) improves foundation model transfer to medical domains but is computationally prohibitive. Although parameter efficient fine-tuning methods such as LoRA have been explored for supervised adaptation, their effectiveness for SSA remains unknown. In this work, we introduce efficient self-supervised adaptation (ESSA), a framework that applies parameter-efficient fine-tuning techniques to SSA with the aim of reducing computational cost and improving adaptation performance. Among the methods tested, Attention Projection Layer Adaptation (APLA) sets a new state-of-the-art, consistently surpassing full-parameter SSA and supervised fine-tuning across diverse medical tasks, while reducing GPU memory by up to 40.1% and increasing training throughput by 25.2%, all while maintaining inference efficiency.

arxiv情報

著者 Moein Sorkhei,Emir Konuk,Jingyu Guo,Christos Matsoukas,Kevin Smith
発行日 2025-03-24 16:48:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Efficient Self-Supervised Adaptation for Medical Image Analysis はコメントを受け付けていません

A semantic communication-based workload-adjustable transceiver for wireless AI-generated content (AIGC) delivery

要約

生成AI(GAI)の大幅な進歩とモバイルデバイスの急増により、ワイヤレスネットワークを介した高品質のAI生成コンテンツ(AIGC)サービスを提供することで、将来の方向性が高まっています。
ただし、ワイヤレスネットワークでのAIGCサービス提供の主な課題は、不安定なチャネル、限られた帯域幅リソース、および不均一に分散された計算リソースにあります。
このホワイトペーパーでは、拡散ベースのGAIモデルでセマンティック通信(SEMCOM)を使用して、動的ワイヤレスネットワークでのAIGC配信用のリソース認識ワークロード調整可能なトランシーバー(ルート)を提案しています。
具体的には、通信リソースのボトルネックを緩和するために、SEMCOMは生成されたコンテンツのセマンティック情報を優先するために利用されます。
次に、エッジとローカルの両方の計算リソース利用を改善し、伝送のAIGCセマンティック歪みを減らすために、修正された拡散ベースのモデルが適用され、協力コンテンツ生成のコンピューティングワークロードとセマンティック密度を調整します。
シミュレーションは、従来のAIGCアプローチと比較して、レイテンシとコンテンツの品質の観点から、提案されたルートの優位性を検証します。

要約(オリジナル)

With the significant advances in generative AI (GAI) and the proliferation of mobile devices, providing high-quality AI-generated content (AIGC) services via wireless networks is becoming the future direction. However, the primary challenges of AIGC service delivery in wireless networks lie in unstable channels, limited bandwidth resources, and unevenly distributed computational resources. In this paper, we employ semantic communication (SemCom) in diffusion-based GAI models to propose a Resource-aware wOrkload-adjUstable TransceivEr (ROUTE) for AIGC delivery in dynamic wireless networks. Specifically, to relieve the communication resource bottleneck, SemCom is utilized to prioritize semantic information of the generated content. Then, to improve computational resource utilization in both edge and local and reduce AIGC semantic distortion in transmission, modified diffusion-based models are applied to adjust the computing workload and semantic density in cooperative content generation. Simulations verify the superiority of our proposed ROUTE in terms of latency and content quality compared to conventional AIGC approaches.

arxiv情報

著者 Runze Cheng,Yao Sun,Lan Zhang,Lei Feng,Lei Zhang,Muhammad Ali Imran
発行日 2025-03-24 16:49:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | A semantic communication-based workload-adjustable transceiver for wireless AI-generated content (AIGC) delivery はコメントを受け付けていません

Seeing Speech and Sound: Distinguishing and Locating Audios in Visual Scenes

要約

視覚シーン内の音声言語と非スピーチの両方の音の両方を同時に接地できる統合モデルを提示し、現在の視聴覚接地モデルの重要な制限に対処します。
既存のアプローチは、通常、スピーチまたは非スピーチサウンドのいずれかを個別に、またはせいぜい、一緒に処理することに限定されますが、混合することはありません。
この制限により、彼らはしばしば混合される現実世界のオーディオソースの複雑さをキャプチャすることを妨げます。
私たちのアプローチでは、混合オーディオを使用して対応と解体を共同で学習する音声視聴覚アラインメント目標を備えた「ミックスアンドセラート」フレームワークを紹介します。
これらの目的を通じて、私たちのモデルは、各オーディオタイプの明確な埋め込みを生成し、混合オーディオソース全体で効果的な解体と接地を可能にすることを学びます。
さらに、混合オーディオソースの同時接地を評価するための新しいデータセットを作成し、モデルが以前の方法よりも優れていることを示しています。
また、私たちのアプローチは、標準のセグメンテーションおよびクロスモーダル検索タスクで同等のパフォーマンスまたはより良いパフォーマンスを達成し、混合アプローチの利点を強調しています。

要約(オリジナル)

We present a unified model capable of simultaneously grounding both spoken language and non-speech sounds within a visual scene, addressing key limitations in current audio-visual grounding models. Existing approaches are typically limited to handling either speech or non-speech sounds independently, or at best, together but sequentially without mixing. This limitation prevents them from capturing the complexity of real-world audio sources that are often mixed. Our approach introduces a ‘mix-and-separate’ framework with audio-visual alignment objectives that jointly learn correspondence and disentanglement using mixed audio. Through these objectives, our model learns to produce distinct embeddings for each audio type, enabling effective disentanglement and grounding across mixed audio sources. Additionally, we created a new dataset to evaluate simultaneous grounding of mixed audio sources, demonstrating that our model outperforms prior methods. Our approach also achieves comparable or better performance in standard segmentation and cross-modal retrieval tasks, highlighting the benefits of our mix-and-separate approach.

arxiv情報

著者 Hyeonggon Ryu,Seongyu Kim,Joon Son Chung,Arda Senocak
発行日 2025-03-24 16:56:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.SD, eess.AS | Seeing Speech and Sound: Distinguishing and Locating Audios in Visual Scenes はコメントを受け付けていません

Merging synthetic and real embryo data for advanced AI predictions

要約

正確な胚の形態評価は、最も実行可能な胚を選択するための生殖支援技術に不可欠です。
人工知能には、このプロセスを強化する可能性があります。
ただし、胚データの利用可能性が限られているため、深い学習モデルをトレーニングするための課題があります。
これに対処するために、2つのデータセットを使用して2つの生成モデルをトレーニングしました。これは、作成および公開された1つの既存のパブリックデータセットを使用して、2セル、4細胞、8セル、モルラ、胚盤胞を含むさまざまな細胞段階で合成胚画像を生成しました。
これらを実際の画像と組み合わせて、胚細胞段階の予測のために分類モデルをトレーニングしました。
私たちの結果は、実際のデータと一緒に合成画像を組み込むことで分類パフォーマンスが改善され、モデルは実際のデータのみでトレーニングされた場合、94.5%と比較して97%の精度を達成することを示しています。
この傾向は、別のクリニックの外部胚盤胞データセットでテストされた場合、一貫性がありました。
特に、合成データのみで訓練され、実際のデータでテストされた場合でも、モデルは92%の高い精度を達成しました。
さらに、両方の生成モデルからの合成データを組み合わせると、単一の生成モデルからのデータを使用するよりも、より良い分類結果が得られました。
4人の発生学者がチューリングテストを通じて合成画像の忠実度を評価し、その間に不正確さを注釈し、フィードバックを提供しました。
この分析では、拡散モデルが生成敵のネットワークよりも優れていることが示され、発生学者が25.3%に対して66.6%を欺き、フリーチェットの開始距離スコアを達成しました。

要約(オリジナル)

Accurate embryo morphology assessment is essential in assisted reproductive technology for selecting the most viable embryo. Artificial intelligence has the potential to enhance this process. However, the limited availability of embryo data presents challenges for training deep learning models. To address this, we trained two generative models using two datasets-one we created and made publicly available, and one existing public dataset-to generate synthetic embryo images at various cell stages, including 2-cell, 4-cell, 8-cell, morula, and blastocyst. These were combined with real images to train classification models for embryo cell stage prediction. Our results demonstrate that incorporating synthetic images alongside real data improved classification performance, with the model achieving 97% accuracy compared to 94.5% when trained solely on real data. This trend remained consistent when tested on an external Blastocyst dataset from a different clinic. Notably, even when trained exclusively on synthetic data and tested on real data, the model achieved a high accuracy of 92%. Furthermore, combining synthetic data from both generative models yielded better classification results than using data from a single generative model. Four embryologists evaluated the fidelity of the synthetic images through a Turing test, during which they annotated inaccuracies and offered feedback. The analysis showed the diffusion model outperformed the generative adversarial network, deceiving embryologists 66.6% versus 25.3% and achieving lower Frechet inception distance scores.

arxiv情報

著者 Oriana Presacan,Alexandru Dorobantiu,Vajira Thambawita,Michael A. Riegler,Mette H. Stensen,Mario Iliceto,Alexandru C. Aldea,Akriti Sharma
発行日 2025-03-24 16:57:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | Merging synthetic and real embryo data for advanced AI predictions はコメントを受け付けていません

Complementary Advantages: Exploiting Cross-Field Frequency Correlation for NIR-Assisted Image Denoising

要約

既存のシングルイメージ除去アルゴリズムは、複雑なノイズの多い画像を扱う際に詳細を復元するのに苦労することがよくあります。
近赤外(NIR)画像の導入は、RGB画像除去の新しい可能性を提供します。
ただし、NIR画像とRGB画像間の矛盾により、既存の作業は、画像融合のプロセスにおける2つのフィールドの貢献のバランスを取るのに苦労しています。
これに応じて、このホワイトペーパーでは、NIR支援画像除去のクロスフィールド周波数相関ネットワーク(FCENET)を開発します。
最初に、NIR-RGB画像ペアの詳細な統計周波数分析に基づいて、頻度相関を提案します。
事前には、周波数ドメイン内のNIRおよびRGB画像の相補的相関が明らかになりました。
周波数相関を活用する前に、周波数動的選択メカニズム(FDSM)と周波数の網羅的融合メカニズム(FEFM)で構成される周波数学習フレームワークを確立します。
FDSMは、周波数ドメイン内のNIRおよびRGB画像から補完的な情報を動的に選択し、FEFMはNIRおよびRGB機能の融合プロセス中に共通および微分機能の制御を強化します。
シミュレートされた実際のデータに関する広範な実験では、提案された方法が他の最先端の方法よりも優れていることを検証します。
コードはhttps://github.com/yuchenwang815/fcenetでリリースされます。

要約(オリジナル)

Existing single-image denoising algorithms often struggle to restore details when dealing with complex noisy images. The introduction of near-infrared (NIR) images offers new possibilities for RGB image denoising. However, due to the inconsistency between NIR and RGB images, the existing works still struggle to balance the contributions of two fields in the process of image fusion. In response to this, in this paper, we develop a cross-field Frequency Correlation Exploiting Network (FCENet) for NIR-assisted image denoising. We first propose the frequency correlation prior based on an in-depth statistical frequency analysis of NIR-RGB image pairs. The prior reveals the complementary correlation of NIR and RGB images in the frequency domain. Leveraging frequency correlation prior, we then establish a frequency learning framework composed of Frequency Dynamic Selection Mechanism (FDSM) and Frequency Exhaustive Fusion Mechanism (FEFM). FDSM dynamically selects complementary information from NIR and RGB images in the frequency domain, and FEFM strengthens the control of common and differential features during the fusion process of NIR and RGB features. Extensive experiments on simulated and real data validate that the proposed method outperforms other state-of-the-art methods. The code will be released at https://github.com/yuchenwang815/FCENet.

arxiv情報

著者 Yuchen Wang,Hongyuan Wang,Lizhi Wang,Xin Wang,Lin Zhu,Wanxuan Lu,Hua Huang
発行日 2025-03-24 16:58:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Complementary Advantages: Exploiting Cross-Field Frequency Correlation for NIR-Assisted Image Denoising はコメントを受け付けていません

Efficient and Accurate Scene Text Recognition with Cascaded-Transformers

要約

近年、テキストデコーダーを備えたVision Transformerは、長距離依存関係と高学習能力とのコンテキスト関係をキャプチャする能力により、シーンテキスト認識(STR)で顕著なパフォーマンスを実証しています。
ただし、これらのモデルの計算およびメモリの要求は重要であり、リソース制約のあるアプリケーションでの展開を制限しています。
この課題に対処するために、効率的で正確なSTRシステムを提案します。
具体的には、カスケード変換者の構造を導入することにより、エンコーダーモデルの効率を改善することに焦点を当てています。
この構造は、エンコードステップ中に視覚トークンのサイズを徐々に削減し、冗長トークンを効果的に排除し、計算コストを削減します。
実験結果は、STRシステムが最先端のベースラインに匹敵するパフォーマンスを達成し、計算要件を大幅に減少させることを確認しています。
特に、大型モデルの場合、精度は同じままで、92.77〜92.68であり、計算の複雑さは構造とともにほぼ半分になります。

要約(オリジナル)

In recent years, vision transformers with text decoder have demonstrated remarkable performance on Scene Text Recognition (STR) due to their ability to capture long-range dependencies and contextual relationships with high learning capacity. However, the computational and memory demands of these models are significant, limiting their deployment in resource-constrained applications. To address this challenge, we propose an efficient and accurate STR system. Specifically, we focus on improving the efficiency of encoder models by introducing a cascaded-transformers structure. This structure progressively reduces the vision token size during the encoding step, effectively eliminating redundant tokens and reducing computational cost. Our experimental results confirm that our STR system achieves comparable performance to state-of-the-art baselines while substantially decreasing computational requirements. In particular, for large-models, the accuracy remains same, 92.77 to 92.68, while computational complexity is almost halved with our structure.

arxiv情報

著者 Savas Ozkan,Andrea Maracani,Hyowon Kim,Sijun Cho,Eunchung Noh,Jeongwon Min,Jung Min Cho,Mete Ozay
発行日 2025-03-24 16:58:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Efficient and Accurate Scene Text Recognition with Cascaded-Transformers はコメントを受け付けていません

CFG-Zero*: Improved Classifier-Free Guidance for Flow Matching Models

要約

分類器フリーガイダンス(CFG)は、画像の忠実度と制御性を向上させるための拡散/フローモデルで広く採用されている手法です。
この作業では、まず、接地の流れを導き出すことができるガウス混合物で訓練されたフローマッチングモデルに対するCFGの効果を分析的に研究します。
トレーニングの初期段階では、フロー推定が不正確である場合、CFGはサンプルを誤った軌跡に向けて指示することが観察されます。
この観察結果に基づいて、CFG-Zero *を提案します。CFG-Zero *は、2つの寄与を備えた改善されたCFGを提案します。(a)スカラーが最適化されている場合、推定速度の不正確さを修正するように最適化されているため、名前の *。
(b)ODEソルバーの最初のいくつかのステップをゼロにすることを伴うゼロイン。
テキストからイメージ(Lumina-Next、安定した拡散3、およびフラックス)とテキストからビデオへの(WAN-2.1)生成の両方での実験は、CFG-Zero*がCFGを常に上回ることを示しており、ガイドフローマッチングモデルにおけるその有効性を強調しています。
(コードはgithub.com/weichenfan/cfg-zero-starで入手できます)

要約(オリジナル)

Classifier-Free Guidance (CFG) is a widely adopted technique in diffusion/flow models to improve image fidelity and controllability. In this work, we first analytically study the effect of CFG on flow matching models trained on Gaussian mixtures where the ground-truth flow can be derived. We observe that in the early stages of training, when the flow estimation is inaccurate, CFG directs samples toward incorrect trajectories. Building on this observation, we propose CFG-Zero*, an improved CFG with two contributions: (a) optimized scale, where a scalar is optimized to correct for the inaccuracies in the estimated velocity, hence the * in the name; and (b) zero-init, which involves zeroing out the first few steps of the ODE solver. Experiments on both text-to-image (Lumina-Next, Stable Diffusion 3, and Flux) and text-to-video (Wan-2.1) generation demonstrate that CFG-Zero* consistently outperforms CFG, highlighting its effectiveness in guiding Flow Matching models. (Code is available at github.com/WeichenFan/CFG-Zero-star)

arxiv情報

著者 Weichen Fan,Amber Yijia Zheng,Raymond A. Yeh,Ziwei Liu
発行日 2025-03-24 16:59:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | CFG-Zero*: Improved Classifier-Free Guidance for Flow Matching Models はコメントを受け付けていません

Online 3D Scene Reconstruction Using Neural Object Priors

要約

このペーパーでは、RGB-Dビデオシーケンスが与えられたオブジェクトのレベルでオンラインでシーンを再構築する問題について説明します。
現在のオブジェクトを認識している神経暗黙の表現は有望ですが、オンライン再構成の効率と形状の完成において制限されています。
上記の制限を軽減するための私たちの主な貢献は2つあります。
まず、新しいオブジェクトパーツが明らかにされたときにグリッドベースのオブジェクト中心の神経暗黙的表現を継続的に更新するための特徴グリッド補間メカニズムを提案します。
第二に、以前にマップされたオブジェクトを事前にマッピングしたオブジェクトライブラリを構築し、対応する形状のプライアーを活用して新しいビデオで幾何学的オブジェクトモデルを初期化し、その後、新しいビューと合成された過去のビューでそれらを完成させて、元のオブジェクトの詳細を失わないようにします。
レプリカデータセット、現実世界のスキャネットシーケンス、および私たちの研究室で撮影されたビデオからの合成環境に関する広範な実験は、このアプローチが再構成の精度と完全性の観点からこのタスクの最先端の神経暗黙モデルを上回ることを示しています。

要約(オリジナル)

This paper addresses the problem of reconstructing a scene online at the level of objects given an RGB-D video sequence. While current object-aware neural implicit representations hold promise, they are limited in online reconstruction efficiency and shape completion. Our main contributions to alleviate the above limitations are twofold. First, we propose a feature grid interpolation mechanism to continuously update grid-based object-centric neural implicit representations as new object parts are revealed. Second, we construct an object library with previously mapped objects in advance and leverage the corresponding shape priors to initialize geometric object models in new videos, subsequently completing them with novel views as well as synthesized past views to avoid losing original object details. Extensive experiments on synthetic environments from the Replica dataset, real-world ScanNet sequences and videos captured in our laboratory demonstrate that our approach outperforms state-of-the-art neural implicit models for this task in terms of reconstruction accuracy and completeness.

arxiv情報

著者 Thomas Chabal,Shizhe Chen,Jean Ponce,Cordelia Schmid
発行日 2025-03-24 17:09:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Online 3D Scene Reconstruction Using Neural Object Priors はコメントを受け付けていません