SIR-DIFF: Sparse Image Sets Restoration with Multi-View Diffusion Model

要約

Computer Vision Communityは、シングルビューの劣化した写真から真のシーン情報をデジタル的に復元するための多数の技術を開発しました。これは、重要でありながら非常に不適切なタスクです。
この作業では、同じシーンの複数の写真を共同で除去することにより、異なる視点から画像の修復に取り組みます。
私たちのコア仮説は、共有シーンをキャプチャする劣化した画像には、組み合わされた場合、修復問題をよりよく制約する補完的な情報が含まれているということです。
この目的のために、マルチビュー関係から豊富な情報を抽出することにより、腐敗していないビューを共同で生成する強力なマルチビュー拡散モデルを実装します。
私たちの実験は、マルチビューアプローチが、既存のシングルビュー画像や、画像デブリングおよび超解像度のタスクに関するビデオベースの方法よりも優れていることを示しています。
重要なことに、私たちのモデルは3D一貫した画像を出力するようにトレーニングされており、3D再構成やポーズ推定など、堅牢なマルチビュー統合を必要とするアプリケーションの有望なツールになります。

要約(オリジナル)

The computer vision community has developed numerous techniques for digitally restoring true scene information from single-view degraded photographs, an important yet extremely ill-posed task. In this work, we tackle image restoration from a different perspective by jointly denoising multiple photographs of the same scene. Our core hypothesis is that degraded images capturing a shared scene contain complementary information that, when combined, better constrains the restoration problem. To this end, we implement a powerful multi-view diffusion model that jointly generates uncorrupted views by extracting rich information from multi-view relationships. Our experiments show that our multi-view approach outperforms existing single-view image and even video-based methods on image deblurring and super-resolution tasks. Critically, our model is trained to output 3D consistent images, making it a promising tool for applications requiring robust multi-view integration, such as 3D reconstruction or pose estimation.

arxiv情報

著者 Yucheng Mao,Boyang Wang,Nilesh Kulkarni,Jeong Joon Park
発行日 2025-03-18 17:42:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | SIR-DIFF: Sparse Image Sets Restoration with Multi-View Diffusion Model はコメントを受け付けていません

Optimized 3D Gaussian Splatting using Coarse-to-Fine Image Frequency Modulation

要約

新規ビュー統合の分野は、3Dガウススプラッティング(3DG)によって革命されており、リアルタイムでレンダリングできる高品質のシーン再構成を可能にします。
3DGSベースの手法は、通常、消費者グレードのデバイスでの実用的なアプリケーションを制限する高いGPUメモリおよびディスクストレージ要件に悩まされています。
Opti3DGSを提案します。これは、シーンを表すために使用されるガウスプリミティブの数を最小限に抑えることを目的とした新しい周波数変調粗変調粗から洗練された最適化フレームワークであり、メモリとストレージの要求を減らすことを目的としています。
OPTI3DGSは画像の周波数変調を活用し、最初は粗いシーン表現を実施し、トレーニング画像の周波数の詳細を変調することで徐々に改良します。
ベースライン3DGSでは、ガウスの平均62%の減少、トレーニングGPUメモリ要件の40%の削減、視覚品質を犠牲にすることなく最適化時間の20%の短縮を示します。
さらに、私たちの方法は、多くの3DGSベースの技術とシームレスに統合され、視覚的品質を維持しながらガウスプリミティブの数を一貫して削減することを示しています。
さらに、Opti3DGは、追加のコストなしで、最適化パイプラインの自然な副産物である追加のレベルのシーン表現を本質的に生成します。
結果とコードは公開されます。

要約(オリジナル)

The field of Novel View Synthesis has been revolutionized by 3D Gaussian Splatting (3DGS), which enables high-quality scene reconstruction that can be rendered in real-time. 3DGS-based techniques typically suffer from high GPU memory and disk storage requirements which limits their practical application on consumer-grade devices. We propose Opti3DGS, a novel frequency-modulated coarse-to-fine optimization framework that aims to minimize the number of Gaussian primitives used to represent a scene, thus reducing memory and storage demands. Opti3DGS leverages image frequency modulation, initially enforcing a coarse scene representation and progressively refining it by modulating frequency details in the training images. On the baseline 3DGS, we demonstrate an average reduction of 62% in Gaussians, a 40% reduction in the training GPU memory requirements and a 20% reduction in optimization time without sacrificing the visual quality. Furthermore, we show that our method integrates seamlessly with many 3DGS-based techniques, consistently reducing the number of Gaussian primitives while maintaining, and often improving, visual quality. Additionally, Opti3DGS inherently produces a level-of-detail scene representation at no extra cost, a natural byproduct of the optimization pipeline. Results and code will be made publicly available.

arxiv情報

著者 Umar Farooq,Jean-Yves Guillemaut,Adrian Hilton,Marco Volino
発行日 2025-03-18 17:49:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR | Optimized 3D Gaussian Splatting using Coarse-to-Fine Image Frequency Modulation はコメントを受け付けていません

Creation-MMBench: Assessing Context-Aware Creative Intelligence in MLLM

要約

創造性は知性の基本的な側面であり、多様なコンテキスト全体で斬新で適切なソリューションを生成する能力を伴います。
大規模な言語モデル(LLM)は創造的な能力について広範囲に評価されていますが、このドメインにおけるマルチモーダル大手言語モデル(MLLM)の評価はほとんど未開拓のままです。
このギャップに対処するために、実際の画像ベースのタスクにおけるMLLMの創造的能力を評価するために特別に設計されたマルチモーダルベンチマークであるCreation-Mmbenchを紹介します。
ベンチマークは、51の細かいタスクにまたがる765のテストケースで構成されています。
厳密な評価を確保するために、各テストケースのインスタンス固有の評価基準を定義し、一般的な応答の品質と視覚入力との事実上の一貫性の両方の評価を導きます。
実験結果は、現在のオープンソースMLLMが創造的なタスクの独自モデルと比較して大幅にパフォーマンスが低いことを明らかにしています。
さらに、我々の分析は、視覚的な微調整がベースLLMの創造的能力に悪影響を与える可能性があることを示しています。
Creation-Mmbenchは、MLLMの創造性を高めるための貴重な洞察を提供し、マルチモーダル生成インテリジェンスの将来の改善の基盤を確立します。
完全なデータと評価コードは、https://github.com/open-compass/creation-mmbenchでリリースされます。

要約(オリジナル)

Creativity is a fundamental aspect of intelligence, involving the ability to generate novel and appropriate solutions across diverse contexts. While Large Language Models (LLMs) have been extensively evaluated for their creative capabilities, the assessment of Multimodal Large Language Models (MLLMs) in this domain remains largely unexplored. To address this gap, we introduce Creation-MMBench, a multimodal benchmark specifically designed to evaluate the creative capabilities of MLLMs in real-world, image-based tasks. The benchmark comprises 765 test cases spanning 51 fine-grained tasks. To ensure rigorous evaluation, we define instance-specific evaluation criteria for each test case, guiding the assessment of both general response quality and factual consistency with visual inputs. Experimental results reveal that current open-source MLLMs significantly underperform compared to proprietary models in creative tasks. Furthermore, our analysis demonstrates that visual fine-tuning can negatively impact the base LLM’s creative abilities. Creation-MMBench provides valuable insights for advancing MLLM creativity and establishes a foundation for future improvements in multimodal generative intelligence. Full data and evaluation code is released on https://github.com/open-compass/Creation-MMBench.

arxiv情報

著者 Xinyu Fang,Zhijian Chen,Kai Lan,Shengyuan Ding,Yingji Liang,Xiangyu Zhao,Farong Wen,Zicheng Zhang,Guofeng Zhang,Haodong Duan,Kai Chen,Dahua Lin
発行日 2025-03-18 17:51:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Creation-MMBench: Assessing Context-Aware Creative Intelligence in MLLM はコメントを受け付けていません

ICE-Bench: A Unified and Comprehensive Benchmark for Image Creating and Editing

要約

画像生成は、過去数年間で大きな進歩を目撃しました。
ただし、画像生成モデルのパフォーマンスを評価することは、恐ろしい課題のままです。
この論文では、画像生成モデルを厳密に評価するために設計された統一された包括的なベンチマークであるIce-Benchを提案します。
その包括性は、次の主要な機能にまとめることができます。(1)粗からファインのタスク:イメージの生成を体系的に4つのタスクカテゴリに分解します:ソース画像と参照画像の存在または不在に基づいて、no-ref/ref画像の作成/編集。
さらに、幅広い画像生成要件をカバーする31の細かいタスクにそれらを分解し、包括的なベンチマークで頂点に達します。
(2)多次元メトリック:評価フレームワークは、6次元の画像生成機能を評価します:審美的品質、イメージング品質、迅速なフォロー、ソースの一貫性、参照の一貫性、制御性。
11次元評価をサポートするために11のメトリックが導入されています。
特に、大規模なモデルを活用することで画像編集の成功を評価するために設計された革新的なメトリックであるVLLM-QAを紹介します。
(3)ハイブリッドデータ:データは、実際のシーンと仮想生成に由来し、データの多様性を効果的に改善し、モデル評価のバイアス問題を軽減します。
ICEベンチを通じて、既存の生成モデルの徹底的な分析を実施し、ベンチマークの挑戦的な性質と、現在のモデル機能と実際の生成要件の間のギャップの両方を明らかにします。
この分野でのさらなる進歩を促進するために、データセット、評価コード、モデルなど、アイスベンチをオープンソースにして、研究コミュニティに貴重なリソースを提供します。

要約(オリジナル)

Image generation has witnessed significant advancements in the past few years. However, evaluating the performance of image generation models remains a formidable challenge. In this paper, we propose ICE-Bench, a unified and comprehensive benchmark designed to rigorously assess image generation models. Its comprehensiveness could be summarized in the following key features: (1) Coarse-to-Fine Tasks: We systematically deconstruct image generation into four task categories: No-ref/Ref Image Creating/Editing, based on the presence or absence of source images and reference images. And further decompose them into 31 fine-grained tasks covering a broad spectrum of image generation requirements, culminating in a comprehensive benchmark. (2) Multi-dimensional Metrics: The evaluation framework assesses image generation capabilities across 6 dimensions: aesthetic quality, imaging quality, prompt following, source consistency, reference consistency, and controllability. 11 metrics are introduced to support the multi-dimensional evaluation. Notably, we introduce VLLM-QA, an innovative metric designed to assess the success of image editing by leveraging large models. (3) Hybrid Data: The data comes from real scenes and virtual generation, which effectively improves data diversity and alleviates the bias problem in model evaluation. Through ICE-Bench, we conduct a thorough analysis of existing generation models, revealing both the challenging nature of our benchmark and the gap between current model capabilities and real-world generation requirements. To foster further advancements in the field, we will open-source ICE-Bench, including its dataset, evaluation code, and models, thereby providing a valuable resource for the research community.

arxiv情報

著者 Yulin Pan,Xiangteng He,Chaojie Mao,Zhen Han,Zeyinzi Jiang,Jingfeng Zhang,Yu Liu
発行日 2025-03-18 17:53:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | ICE-Bench: A Unified and Comprehensive Benchmark for Image Creating and Editing はコメントを受け付けていません

Multi-view Reconstruction via SfM-guided Monocular Depth Estimation

要約

この論文では、マルチビューの幾何学的再構成のための新しい方法を紹介します。
近年、大規模なビジョンモデルが急速に発展し、さまざまなタスクで優れたパフォーマンスを発揮し、顕著な一般化能力を実証しています。
一部の作業では、間接的な方法でマルチビュー再構成タスクを促進するために適用されている単眼深度推定には、大きな視覚モデルを使用しています。
単眼深度推定タスクのあいまいさのため、推定される深度値は通常十分に正確ではなく、マルチビューの再構築を支援する際に有用性を制限します。
強力なマルチビュー以前のSFM情報を深度推定プロセスに組み込むことを提案し、深さ予測の品質を高め、マルチビューの幾何学的再構成に直接適用できるようにします。
公共の実世界のデータセットでの実験結果は、この方法が以前の単眼深度推定作業と比較して深度推定の品質を大幅に改善することを示しています。
さらに、最先端のMVSメソッドを上回る、屋内、街路の景色、空中ビューなど、さまざまな種類のシーンでのアプローチの再構築品質を評価します。
コードと補足資料は、https://zju3dv.github.io/murre/で入手できます。

要約(オリジナル)

In this paper, we present a new method for multi-view geometric reconstruction. In recent years, large vision models have rapidly developed, performing excellently across various tasks and demonstrating remarkable generalization capabilities. Some works use large vision models for monocular depth estimation, which have been applied to facilitate multi-view reconstruction tasks in an indirect manner. Due to the ambiguity of the monocular depth estimation task, the estimated depth values are usually not accurate enough, limiting their utility in aiding multi-view reconstruction. We propose to incorporate SfM information, a strong multi-view prior, into the depth estimation process, thus enhancing the quality of depth prediction and enabling their direct application in multi-view geometric reconstruction. Experimental results on public real-world datasets show that our method significantly improves the quality of depth estimation compared to previous monocular depth estimation works. Additionally, we evaluate the reconstruction quality of our approach in various types of scenes including indoor, streetscape, and aerial views, surpassing state-of-the-art MVS methods. The code and supplementary materials are available at https://zju3dv.github.io/murre/ .

arxiv情報

著者 Haoyu Guo,He Zhu,Sida Peng,Haotong Lin,Yunzhi Yan,Tao Xie,Wenguan Wang,Xiaowei Zhou,Hujun Bao
発行日 2025-03-18 17:54:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Multi-view Reconstruction via SfM-guided Monocular Depth Estimation はコメントを受け付けていません

Lux Post Facto: Learning Portrait Performance Relighting with Conditional Video Diffusion and a Hybrid Dataset

要約

結果は光選挙的で一時的に安定している必要があるため、ビデオのポートレートの再視力は依然として挑戦的です。
これには、通常、複雑な顔の反射をキャプチャできる強力なモデル設計と、ダイナミックな1ライト(OLAT)などの高品質のペアのビデオデータセットでの集中トレーニングが必要です。
この作業では、光リアリスティックと一時的に一貫した照明効果の両方を生成する新しいポートレートビデオ再生方法であるLux Post Factoを紹介します。
モデル側から、正確な制御を可能にする新しい照明注入メカニズムとともに、最先端の事前訓練を受けたビデオ拡散モデルに基づいて構築された新しい条件付きビデオ拡散モデルを設計します。
このようにして、強力な空間的および時間的生成能力を活用して、不適切な再視力問題に対してもっともらしいソリューションを生成します。
この手法では、静的な式OLATデータと野生のポートレートパフォーマンスビデオで構成されるハイブリッドデータセットを使用して、学習と時間モデリングを共同で学習します。
これにより、さまざまな照明条件でペアのビデオデータを取得する必要性が回避されます。
私たちの広範な実験は、私たちのモデルが光リアリズムと時間的一貫性の両方の観点から最新の結果を生み出すことを示しています。

要約(オリジナル)

Video portrait relighting remains challenging because the results need to be both photorealistic and temporally stable. This typically requires a strong model design that can capture complex facial reflections as well as intensive training on a high-quality paired video dataset, such as dynamic one-light-at-a-time (OLAT). In this work, we introduce Lux Post Facto, a novel portrait video relighting method that produces both photorealistic and temporally consistent lighting effects. From the model side, we design a new conditional video diffusion model built upon state-of-the-art pre-trained video diffusion model, alongside a new lighting injection mechanism to enable precise control. This way we leverage strong spatial and temporal generative capability to generate plausible solutions to the ill-posed relighting problem. Our technique uses a hybrid dataset consisting of static expression OLAT data and in-the-wild portrait performance videos to jointly learn relighting and temporal modeling. This avoids the need to acquire paired video data in different lighting conditions. Our extensive experiments show that our model produces state-of-the-art results both in terms of photorealism and temporal consistency.

arxiv情報

著者 Yiqun Mei,Mingming He,Li Ma,Julien Philip,Wenqi Xian,David M George,Xueming Yu,Gabriel Dedic,Ahmet Levent Taşel,Ning Yu,Vishal M. Patel,Paul Debevec
発行日 2025-03-18 17:55:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR | Lux Post Facto: Learning Portrait Performance Relighting with Conditional Video Diffusion and a Hybrid Dataset はコメントを受け付けていません

DiffMoE: Dynamic Token Selection for Scalable Diffusion Transformers

要約

拡散モデルは、さまざまな画像生成タスクで顕著な成功を示していますが、さまざまな条件とノイズレベルにわたる入力の均一な処理によって、そのパフォーマンスはしばしば制限されます。
この制限に対処するために、拡散プロセスの固有の不均一性を活用する新しいアプローチを提案します。
私たちの方法であるdiffmoeは、専門家がトレーニング中にグローバルトークン分布にアクセスできるようにするバッチレベルのグローバルトークンプールを導入し、専門の専門家行動を促進します。
拡散プロセスの可能性を最大限に引き出すために、DiffMOEには、ノイズレベルとサンプルの複雑さに基づいて計算リソースを動的に割り当てる容量予測因子が組み込まれています。
包括的な評価を通じて、DIFFMOEはイメージネットベンチマーク上の拡散モデル間で最先端のパフォーマンスを達成し、3倍のアクティブ化されたパラメーターと既存のMOEアプローチを使用して、1倍のアクティブ化されたパラメーターを維持しながら、両方の密なアーキテクチャを大幅に上回ります。
私たちのアプローチの有効性は、階級条件の生成を超えて、テキストから画像の生成などのより挑戦的なタスクにまで及び、異なる拡散モデルアプリケーションにわたって幅広い適用性を示しています。
プロジェクトページ:https://shiml20.github.io/diffmoe/

要約(オリジナル)

Diffusion models have demonstrated remarkable success in various image generation tasks, but their performance is often limited by the uniform processing of inputs across varying conditions and noise levels. To address this limitation, we propose a novel approach that leverages the inherent heterogeneity of the diffusion process. Our method, DiffMoE, introduces a batch-level global token pool that enables experts to access global token distributions during training, promoting specialized expert behavior. To unleash the full potential of the diffusion process, DiffMoE incorporates a capacity predictor that dynamically allocates computational resources based on noise levels and sample complexity. Through comprehensive evaluation, DiffMoE achieves state-of-the-art performance among diffusion models on ImageNet benchmark, substantially outperforming both dense architectures with 3x activated parameters and existing MoE approaches while maintaining 1x activated parameters. The effectiveness of our approach extends beyond class-conditional generation to more challenging tasks such as text-to-image generation, demonstrating its broad applicability across different diffusion model applications. Project Page: https://shiml20.github.io/DiffMoE/

arxiv情報

著者 Minglei Shi,Ziyang Yuan,Haotian Yang,Xintao Wang,Mingwu Zheng,Xin Tao,Wenliang Zhao,Wenzhao Zheng,Jie Zhou,Jiwen Lu,Pengfei Wan,Di Zhang,Kun Gai
発行日 2025-03-18 17:57:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | DiffMoE: Dynamic Token Selection for Scalable Diffusion Transformers はコメントを受け付けていません

Stable Virtual Camera: Generative View Synthesis with Diffusion Models

要約

安定した仮想カメラ(SEVA)を提示します。これは、入力ビューとターゲットカメラの数が多数与えられて、シーンの新規ビューを作成するジェネラリスト拡散モデルです。
既存の作業は、特定のタスク構成に依存しながら、大きな視点の変更または一時的にスムーズなサンプルを生成するのに苦労しています。
私たちのアプローチは、テスト時にビュー合成タスク全体に一般化するシンプルなモデル設計、最適化されたトレーニングレシピ、および柔軟なサンプリング戦略を通じて、これらの制限を克服します。
その結果、私たちのサンプルは、追加の3D表現ベースの蒸留を必要とせずに高い一貫性を維持し、したがって野生のビュー合成を合理化します。
さらに、私たちの方法は、シームレスなループ閉鎖で30分間続く高品質のビデオを生成できることを示しています。
大規模なベンチマークは、SEVAが異なるデータセットと設定にわたって既存のメソッドを上回ることを示しています。

要約(オリジナル)

We present Stable Virtual Camera (Seva), a generalist diffusion model that creates novel views of a scene, given any number of input views and target cameras. Existing works struggle to generate either large viewpoint changes or temporally smooth samples, while relying on specific task configurations. Our approach overcomes these limitations through simple model design, optimized training recipe, and flexible sampling strategy that generalize across view synthesis tasks at test time. As a result, our samples maintain high consistency without requiring additional 3D representation-based distillation, thus streamlining view synthesis in the wild. Furthermore, we show that our method can generate high-quality videos lasting up to half a minute with seamless loop closure. Extensive benchmarking demonstrates that Seva outperforms existing methods across different datasets and settings.

arxiv情報

著者 Jensen,Zhou,Hang Gao,Vikram Voleti,Aaryaman Vasishta,Chun-Han Yao,Mark Boss,Philip Torr,Christian Rupprecht,Varun Jampani
発行日 2025-03-18 17:57:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Stable Virtual Camera: Generative View Synthesis with Diffusion Models はコメントを受け付けていません

Cosmos-Transfer1: Conditional World Generation with Adaptive Multimodal Control

要約

セグメンテーション、深さ、エッジなどのさまざまなモダリティの複数の空間制御入力に基づいて世界シミュレーションを生成できる条件付き世界生成モデルであるCosmos-Transferを紹介します。
設計では、空間条件スキームは適応性があり、カスタマイズ可能です。
さまざまな空間位置で異なる条件付き入力を異なる重み付けすることができます。
これにより、非常に制御可能な世界生成が可能になり、SIM2REALを含むさまざまな世界から世界への転送ユースケースでの使用が見つかります。
提案されたモデルを分析するために広範な評価を実施し、ロボット工学SIM2REALや自律車両データの濃縮など、物理AIのアプリケーションを実証します。
さらに、NVIDIA GB200 NVL72ラックを使用してリアルタイムの世界生成を達成するための推論スケーリング戦略を実証します。
この分野での研究開発を加速するために、https://github.com/nvidia-cosmos/cosmos-transfer1でモデルとコードをオープンソーシングします。

要約(オリジナル)

We introduce Cosmos-Transfer, a conditional world generation model that can generate world simulations based on multiple spatial control inputs of various modalities such as segmentation, depth, and edge. In the design, the spatial conditional scheme is adaptive and customizable. It allows weighting different conditional inputs differently at different spatial locations. This enables highly controllable world generation and finds use in various world-to-world transfer use cases, including Sim2Real. We conduct extensive evaluations to analyze the proposed model and demonstrate its applications for Physical AI, including robotics Sim2Real and autonomous vehicle data enrichment. We further demonstrate an inference scaling strategy to achieve real-time world generation with an NVIDIA GB200 NVL72 rack. To help accelerate research development in the field, we open-source our models and code at https://github.com/nvidia-cosmos/cosmos-transfer1.

arxiv情報

著者 NVIDIA,:,Hassan Abu Alhaija,Jose Alvarez,Maciej Bala,Tiffany Cai,Tianshi Cao,Liz Cha,Joshua Chen,Mike Chen,Francesco Ferroni,Sanja Fidler,Dieter Fox,Yunhao Ge,Jinwei Gu,Ali Hassani,Michael Isaev,Pooya Jannaty,Shiyi Lan,Tobias Lasser,Huan Ling,Ming-Yu Liu,Xian Liu,Yifan Lu,Alice Luo,Qianli Ma,Hanzi Mao,Fabio Ramos,Xuanchi Ren,Tianchang Shen,Shitao Tang,Ting-Chun Wang,Jay Wu,Jiashu Xu,Stella Xu,Kevin Xie,Yuchong Ye,Xiaodong Yang,Xiaohui Zeng,Yu Zeng
発行日 2025-03-18 17:57:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | Cosmos-Transfer1: Conditional World Generation with Adaptive Multimodal Control はコメントを受け付けていません

State Space Model Meets Transformer: A New Paradigm for 3D Object Detection

要約

マルチレイヤートランスデコーダーを使用してオブジェクトクエリを繰り返し改良するDETRベースの方法は、3D屋内オブジェクトの検出で有望なパフォーマンスを示しています。
ただし、トランスデコーダーのシーンポイント機能は固定されたままであり、後のデコーダー層からの最小限の寄与につながるため、パフォーマンスの改善が制限されます。
最近、State Space Models(SSM)は、システム状態と入力間の反復的相互作用を通じて、線形の複雑さを伴う効率的なコンテキストモデリング能力を示しています。
SSMSに触発されて、インタラクティブな状態空間モデル(DEST)を備えた新しい3Dオブジェクト検出パラダイムを提案します。
インタラクティブSSMでは、システム状態が3D屋内検出タスクのクエリとして効果的に機能することを可能にする新しい状態依存SSMパラメーター化方法を設計します。
さらに、Point CloudとSSMの特性に合わせた4つの重要なデザインを紹介します。シリアル化と双方向スキャン戦略により、SSM内のシーンポイント間の双方向の特徴の相互作用が可能になります。
状態間の注意メカニズムは、状態ポイント間の関係をモデル化し、ゲートフィードフォワードネットワークはチャネル間相関を強化します。
私たちの知る限り、これはシステムの状態としてクエリをモデル化し、シーンポイントをシステム入力としてモデル化する最初の方法であり、同時にシーンポイント機能と線形複雑さを伴うクエリ機能を更新できます。
2つの挑戦的なデータセットでの広範な実験は、運命ベースの方法の有効性を示しています。
私たちの方法は、Scannet V2(+5.3)およびSun RGB-D(+3.2)データセットのAP50の観点から、グループフリーのベースラインを改善します。
VDERTベースラインに基づいて、この方法はSCANNETV2およびSUN RGB-Dデータセットに新しいSOTAを設定します。

要約(オリジナル)

DETR-based methods, which use multi-layer transformer decoders to refine object queries iteratively, have shown promising performance in 3D indoor object detection. However, the scene point features in the transformer decoder remain fixed, leading to minimal contributions from later decoder layers, thereby limiting performance improvement. Recently, State Space Models (SSM) have shown efficient context modeling ability with linear complexity through iterative interactions between system states and inputs. Inspired by SSMs, we propose a new 3D object DEtection paradigm with an interactive STate space model (DEST). In the interactive SSM, we design a novel state-dependent SSM parameterization method that enables system states to effectively serve as queries in 3D indoor detection tasks. In addition, we introduce four key designs tailored to the characteristics of point cloud and SSM: The serialization and bidirectional scanning strategies enable bidirectional feature interaction among scene points within the SSM. The inter-state attention mechanism models the relationships between state points, while the gated feed-forward network enhances inter-channel correlations. To the best of our knowledge, this is the first method to model queries as system states and scene points as system inputs, which can simultaneously update scene point features and query features with linear complexity. Extensive experiments on two challenging datasets demonstrate the effectiveness of our DEST-based method. Our method improves the GroupFree baseline in terms of AP50 on ScanNet V2 (+5.3) and SUN RGB-D (+3.2) datasets. Based on the VDETR baseline, Our method sets a new SOTA on the ScanNetV2 and SUN RGB-D datasets.

arxiv情報

著者 Chuxin Wang,Wenfei Yang,Xiang Liu,Tianzhu Zhang
発行日 2025-03-18 17:58:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | State Space Model Meets Transformer: A New Paradigm for 3D Object Detection はコメントを受け付けていません