Visual Jenga: Discovering Object Dependencies via Counterfactual Inpainting

要約

このペーパーでは、Visual Jengaと呼ばれる新しいシーンを理解するタスクを提案しています。
ゲームジェンガからインスピレーションを得て、提案されたタスクは、背景のみが残るまで、単一の画像からオブジェクトを徐々に削除することを伴います。
ジェンガのプレイヤーがタワーの安定性を維持するために構造的依存関係を理解し​​なければならないように、私たちのタスクは、物理的な意味と幾何学的な意味でシーンの一貫性を維持しながら、どのオブジェクトを削除できるかを体系的に調査することにより、シーン要素間の本質的な関係を明らかにします。
Visual Jengaタスクに取り組むための出発点として、さまざまな現実世界の画像で驚くほど効果的な、シンプルでデータ駆動型のトレーニングなしのアプローチを提案します。
私たちのアプローチの背後にある原則は、シーン内のオブジェクト間のペアワイズ関係の非対称性を利用し、大規模な入力モデルを採用して、一連の反事実を生成して非対称性を定量化することです。

要約(オリジナル)

This paper proposes a novel scene understanding task called Visual Jenga. Drawing inspiration from the game Jenga, the proposed task involves progressively removing objects from a single image until only the background remains. Just as Jenga players must understand structural dependencies to maintain tower stability, our task reveals the intrinsic relationships between scene elements by systematically exploring which objects can be removed while preserving scene coherence in both physical and geometric sense. As a starting point for tackling the Visual Jenga task, we propose a simple, data-driven, training-free approach that is surprisingly effective on a range of real-world images. The principle behind our approach is to utilize the asymmetry in the pairwise relationships between objects within a scene and employ a large inpainting model to generate a set of counterfactuals to quantify the asymmetry.

arxiv情報

著者 Anand Bhattad,Konpat Preechakul,Alexei A. Efros
発行日 2025-03-27 17:59:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Visual Jenga: Discovering Object Dependencies via Counterfactual Inpainting はコメントを受け付けていません

A Unified Image-Dense Annotation Generation Model for Underwater Scenes

要約

水中密度の高い予測、特に深さの推定とセマンティックセグメンテーションは、水中シーンの包括的な理解を得るために重要です。
それにもかかわらず、複雑な環境と法外なデータ収集コストのために、密な注釈を備えた高品質で大規模な水中データセットが不足しています。
このペーパーでは、水中シーンの統一されたテキストから画像へのテキストからイメージと密な注釈生成法(TIDE)を提案します。
それは、現実的な水中画像と複数の非常に一貫した密な注釈を同時に生成するために、入力としてのテキストのみに依存しています。
具体的には、単一のモデル内でテキストからイメージとテキストから密度の高い注釈の生成を統合します。
時間適応正規化(TAN)と呼ばれる暗黙のレイアウト共有メカニズム(ILS)およびクロスモーダル相互作用方法が導入され、画像と密な注釈の一貫性を共同で最適化します。
Tideを使用して大規模な水中データセットを合成して、水中密度の高い予測タスクにおける方法の有効性を検証します。
結果は、我々の方法が既存の水中密度の高い予測モデルのパフォーマンスを効果的に改善し、密な注釈を備えた水中データの希少性を軽減することを示しています。
私たちの方法が、他の分野でのデータの希少性の問題を緩和することに関する新しい視点を提供できることを願っています。
このコードは、https://github.com/hongklin/tideで入手できます。

要約(オリジナル)

Underwater dense prediction, especially depth estimation and semantic segmentation, is crucial for gaining a comprehensive understanding of underwater scenes. Nevertheless, high-quality and large-scale underwater datasets with dense annotations remain scarce because of the complex environment and the exorbitant data collection costs. This paper proposes a unified Text-to-Image and DEnse annotation generation method (TIDE) for underwater scenes. It relies solely on text as input to simultaneously generate realistic underwater images and multiple highly consistent dense annotations. Specifically, we unify the generation of text-to-image and text-to-dense annotations within a single model. The Implicit Layout Sharing mechanism (ILS) and cross-modal interaction method called Time Adaptive Normalization (TAN) are introduced to jointly optimize the consistency between image and dense annotations. We synthesize a large-scale underwater dataset using TIDE to validate the effectiveness of our method in underwater dense prediction tasks. The results demonstrate that our method effectively improves the performance of existing underwater dense prediction models and mitigates the scarcity of underwater data with dense annotations. We hope our method can offer new perspectives on alleviating data scarcity issues in other fields. The code is available at https: //github.com/HongkLin/TIDE.

arxiv情報

著者 Hongkai Lin,Dingkang Liang,Zhenghao Qi,Xiang Bai
発行日 2025-03-27 17:59:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | A Unified Image-Dense Annotation Generation Model for Underwater Scenes はコメントを受け付けていません

LOCORE: Image Re-ranking with Long-Context Sequence Modeling

要約

Locore、Long-Contextの再ランカー、画像クエリに対応する入力ローカル記述子とギャラリー画像のリストを使用して、クエリと各ギャラリー画像の間に類似性スコアを出力するモデルを紹介します。
このモデルは画像検索に使用されます。通常、最初のランキングは効率的な類似性測定値で実行され、その後、より微細な類似性測定に基づいて、トップランクの画像の候補リストが再ランクされます。
ローカル記述子でペアワイズ類似性推定を実行する既存の方法またはグローバル記述子とのリストごとの再ランクを実行するメソッドと比較して、Locoreはローカル記述子でリストごとに再ランキングを実行する最初の方法です。
これを実現するために、効率的な長いコンテキストシーケンスモデルを活用して、ローカルデスプリリングレベルでクエリとギャラリーの画像間の依存関係を効果的にキャプチャします。
テスト中、シーケンスモデルのコンテキストサイズの制限を克服するために調整されたスライドウィンドウ戦略で長い候補リストを処理します。
私たちのアプローチは、ランドマーク(ROXFとRPAR)、製品(SOP)、ファッションアイテム(インショップ)、および鳥類(CUB-200)の確立された画像検索ベンチマークの他の再ランカーと比較して、ペアワイズのローカル記述子リランカーに匹敵するレイテンシを持っています。

要約(オリジナル)

We introduce LOCORE, Long-Context Re-ranker, a model that takes as input local descriptors corresponding to an image query and a list of gallery images and outputs similarity scores between the query and each gallery image. This model is used for image retrieval, where typically a first ranking is performed with an efficient similarity measure, and then a shortlist of top-ranked images is re-ranked based on a more fine-grained similarity measure. Compared to existing methods that perform pair-wise similarity estimation with local descriptors or list-wise re-ranking with global descriptors, LOCORE is the first method to perform list-wise re-ranking with local descriptors. To achieve this, we leverage efficient long-context sequence models to effectively capture the dependencies between query and gallery images at the local-descriptor level. During testing, we process long shortlists with a sliding window strategy that is tailored to overcome the context size limitations of sequence models. Our approach achieves superior performance compared with other re-rankers on established image retrieval benchmarks of landmarks (ROxf and RPar), products (SOP), fashion items (In-Shop), and bird species (CUB-200) while having comparable latency to the pair-wise local descriptor re-rankers.

arxiv情報

著者 Zilin Xiao,Pavel Suma,Ayush Sachdeva,Hao-Jen Wang,Giorgos Kordopatis-Zilos,Giorgos Tolias,Vicente Ordonez
発行日 2025-03-27 17:59:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | LOCORE: Image Re-ranking with Long-Context Sequence Modeling はコメントを受け付けていません

StyleMotif: Multi-Modal Motion Stylization using Style-Content Cross Fusion

要約

新しい様式化された運動潜在拡散モデルであるStylemotifを提示し、複数のモダリティからコンテンツとスタイルの両方に条件付けられた動きを生成します。
多様なモーションコンテンツの生成またはシーケンスからスタイルの転送に焦点を当てた既存のアプローチとは異なり、スタイレモチーは、モーション、テキスト、画像、ビデオ、オーディオなどのマルチモーダル入力からのスタイルのキューを組み込んでいる間、幅広いコンテンツでモーションをシームレスに合成します。
これを実現するために、スタイルコンテンツクロスフュージョンメカニズムを導入し、スタイルエンコーダーを事前に訓練したマルチモーダルモデルに合わせて、生成されたモーションがリアリズムを維持しながら参照スタイルを正確にキャプチャするようにします。
広範な実験は、私たちのフレームワークが様式化されたモーション生成の既存の方法を上回り、マルチモーダルモーションスタイリゼーションの緊急能力を示すことを示しており、より微妙なモーション合成を可能にします。
ソースコードと事前に訓練されたモデルは、受け入れられるとリリースされます。
プロジェクトページ:https://stylemotif.github.io

要約(オリジナル)

We present StyleMotif, a novel Stylized Motion Latent Diffusion model, generating motion conditioned on both content and style from multiple modalities. Unlike existing approaches that either focus on generating diverse motion content or transferring style from sequences, StyleMotif seamlessly synthesizes motion across a wide range of content while incorporating stylistic cues from multi-modal inputs, including motion, text, image, video, and audio. To achieve this, we introduce a style-content cross fusion mechanism and align a style encoder with a pre-trained multi-modal model, ensuring that the generated motion accurately captures the reference style while preserving realism. Extensive experiments demonstrate that our framework surpasses existing methods in stylized motion generation and exhibits emergent capabilities for multi-modal motion stylization, enabling more nuanced motion synthesis. Source code and pre-trained models will be released upon acceptance. Project Page: https://stylemotif.github.io

arxiv情報

著者 Ziyu Guo,Young Yoon Lee,Joseph Liu,Yizhak Ben-Shabat,Victor Zordan,Mubbasir Kapadia
発行日 2025-03-27 17:59:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | StyleMotif: Multi-Modal Motion Stylization using Style-Content Cross Fusion はコメントを受け付けていません

Optimal Stepsize for Diffusion Sampling

要約

拡散モデルは顕著な生成品質を達成しますが、最適ではないステップ離散化により、計算集約的なサンプリングに苦しんでいます。
既存の作業は、方向性の除去の最適化に焦点を当てていますが、Stepsizeスケジュールの原則的な設計に対処します。
このペーパーでは、参照軌跡から知識を蒸留することにより理論的に最適なスケジュールを抽出する動的なプログラミングフレームワークである最適なステップサイズ蒸留を提案します。
再帰的エラーの最小化として最適化をステップ化することにより、私たちの方法は、最適な下部構造の搾取を通じてグローバルな離散化境界を保証します。
重要なことに、蒸留スケジュールは、アーキテクチャ、ODEソルバー、およびノイズスケジュール全体で強い堅牢性を示しています。
実験では、テキストからイメージへのテキストからイメージの生成が10倍加速し、99.4%の性能を維持していることが示されています。
私たちのコードは、https://github.com/bebebe666/optimalstepsで入手できます。

要約(オリジナル)

Diffusion models achieve remarkable generation quality but suffer from computational intensive sampling due to suboptimal step discretization. While existing works focus on optimizing denoising directions, we address the principled design of stepsize schedules. This paper proposes Optimal Stepsize Distillation, a dynamic programming framework that extracts theoretically optimal schedules by distilling knowledge from reference trajectories. By reformulating stepsize optimization as recursive error minimization, our method guarantees global discretization bounds through optimal substructure exploitation. Crucially, the distilled schedules demonstrate strong robustness across architectures, ODE solvers, and noise schedules. Experiments show 10x accelerated text-to-image generation while preserving 99.4% performance on GenEval. Our code is available at https://github.com/bebebe666/OptimalSteps.

arxiv情報

著者 Jianning Pei,Han Hu,Shuyang Gu
発行日 2025-03-27 17:59:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Optimal Stepsize for Diffusion Sampling はコメントを受け付けていません

Video-R1: Reinforcing Video Reasoning in MLLMs

要約

ルールベースの強化学習(RL)を通じて推論能力を引き出すことにおけるDeepseek-R1の成功に触発され、Multimodal Laging Languageモデル(MLLM)内のビデオ推論を誘発するためのR1パラダイムを体系的に調査する最初の試みとしてVideo-R1を紹介します。
ただし、GRPOアルゴリズムを使用したRLトレーニングをビデオ推論に直接適用すると、2つの主要な課題が示されます。(i)ビデオ推論のための時間モデリングの欠如、および(ii)高品質のビデオリングリングデータの希少性。
これらの問題に対処するために、最初にT-GRPOアルゴリズムを提案します。これは、モデルが推論のためにビデオで一時的な情報を利用することを奨励しています。
さらに、ビデオデータのみに依存する代わりに、高品質の画像リングデータをトレーニングプロセスに組み込みます。
2つのデータセットを構築しました。SFTコールドスタート用のVideo-R1-COT-165Kと、RLトレーニング用のVideo-R1-260Kの両方で、画像データとビデオデータを含む。
実験結果は、Video-R1がVideommmuやVSI-Benchなどのビデオ推論ベンチマーク、およびMVBenchやTempCompassなどを含む一般的なビデオベンチマークで大幅に改善されることを示しています。
すべてのコード、モデル、データがリリースされます。

要約(オリジナル)

Inspired by DeepSeek-R1’s success in eliciting reasoning abilities through rule-based reinforcement learning (RL), we introduce Video-R1 as the first attempt to systematically explore the R1 paradigm for eliciting video reasoning within multimodal large language models (MLLMs). However, directly applying RL training with the GRPO algorithm to video reasoning presents two primary challenges: (i) a lack of temporal modeling for video reasoning, and (ii) the scarcity of high-quality video-reasoning data. To address these issues, we first propose the T-GRPO algorithm, which encourages models to utilize temporal information in videos for reasoning. Additionally, instead of relying solely on video data, we incorporate high-quality image-reasoning data into the training process. We have constructed two datasets: Video-R1-COT-165k for SFT cold start and Video-R1-260k for RL training, both comprising image and video data. Experimental results demonstrate that Video-R1 achieves significant improvements on video reasoning benchmarks such as VideoMMMU and VSI-Bench, as well as on general video benchmarks including MVBench and TempCompass, etc. Notably, Video-R1-7B attains a 35.8% accuracy on video spatial reasoning benchmark VSI-bench, surpassing the commercial proprietary model GPT-4o. All codes, models, data are released.

arxiv情報

著者 Kaituo Feng,Kaixiong Gong,Bohao Li,Zonghao Guo,Yibing Wang,Tianshuo Peng,Benyou Wang,Xiangyu Yue
発行日 2025-03-27 17:59:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Video-R1: Reinforcing Video Reasoning in MLLMs はコメントを受け付けていません

Test-Time Visual In-Context Tuning

要約

視覚的なコンテキスト学習(VICL)は、コンピュータービジョンの新しいパラダイムとして、モデルがほんの一握りのプロンプトと例を使用して、さまざまなタスクに迅速に適応することができます。
効果的ですが、既存のVICLパラダイムは、分布シフト下での一般化が不十分です。
この作業では、テスト時間の視覚的なコンテキスト内チューニング(VICT)を提案します。これは、単一のテストサンプルでVICLモデルをその場で適応できる方法です。
具体的には、タスクプロンプトとテストサンプルの間の役割を反転し、サイクルの一貫性の損失を使用して、元のタスクプロンプト出力を再構築します。
私たちの重要な洞察は、元のタスクプロンプトを正常に回復できる場合、モデルは新しいテスト分布を認識する必要があるということです。
高レベルの視覚的理解から低レベルの画像処理まで、15の一般的な腐敗を伴う6つの代表的なビジョンタスクに関する広範な実験は、VICLの一般化可能性を新しいドメインに改善できることを示しています。
さらに、テスト時に目に見えないタスクにVictを適用する可能性を示しています。
コード:https://github.com/jiahao000/vict。

要約(オリジナル)

Visual in-context learning (VICL), as a new paradigm in computer vision, allows the model to rapidly adapt to various tasks with only a handful of prompts and examples. While effective, the existing VICL paradigm exhibits poor generalizability under distribution shifts. In this work, we propose test-time Visual In-Context Tuning (VICT), a method that can adapt VICL models on the fly with a single test sample. Specifically, we flip the role between the task prompts and the test sample and use a cycle consistency loss to reconstruct the original task prompt output. Our key insight is that a model should be aware of a new test distribution if it can successfully recover the original task prompts. Extensive experiments on six representative vision tasks ranging from high-level visual understanding to low-level image processing, with 15 common corruptions, demonstrate that our VICT can improve the generalizability of VICL to unseen new domains. In addition, we show the potential of applying VICT for unseen tasks at test time. Code: https://github.com/Jiahao000/VICT.

arxiv情報

著者 Jiahao Xie,Alessio Tonioni,Nathalie Rauschmayr,Federico Tombari,Bernt Schiele
発行日 2025-03-27 17:59:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Test-Time Visual In-Context Tuning はコメントを受け付けていません

HS-SLAM: Hybrid Representation with Structural Supervision for Improved Dense SLAM

要約

NERFベースのSLAMは最近、追跡と再建において有望な結果を達成しました。
ただし、既存の方法は、十分なシーンの表現を提供し、構造情報をキャプチャし、重要な動きや忘れられているシーンのグローバルな一貫性を維持する際の課題に直面しています。
この目的のために、私たちはこれらの問題に取り組むためにHS-SLALを提示します。
シーンの表現容量を強化するために、ハッシュグリッド、Tri-Planes、および1-ブロブの相補的な強度を組み合わせたハイブリッドエンコードネットワークを提案し、再構成の完全性と滑らかさを改善します。
さらに、シーン構造をよりよくキャプチャするために、個々の光線ではなく非ローカルピクセルのパッチをサンプリングすることにより、構造監督を導入します。
グローバルな一貫性を確保するために、アクティブなグローバルバンドル調整(BA)を実装して、カメラのドリフトを排除し、累積エラーを軽減します。
実験結果は、HS-SLAMがロボット工学に必要な効率を維持しながら、追跡と再構成の精度のベースラインよりも優れていることを示しています。

要約(オリジナル)

NeRF-based SLAM has recently achieved promising results in tracking and reconstruction. However, existing methods face challenges in providing sufficient scene representation, capturing structural information, and maintaining global consistency in scenes emerging significant movement or being forgotten. To this end, we present HS-SLAM to tackle these problems. To enhance scene representation capacity, we propose a hybrid encoding network that combines the complementary strengths of hash-grid, tri-planes, and one-blob, improving the completeness and smoothness of reconstruction. Additionally, we introduce structural supervision by sampling patches of non-local pixels rather than individual rays to better capture the scene structure. To ensure global consistency, we implement an active global bundle adjustment (BA) to eliminate camera drifts and mitigate accumulative errors. Experimental results demonstrate that HS-SLAM outperforms the baselines in tracking and reconstruction accuracy while maintaining the efficiency required for robotics.

arxiv情報

著者 Ziren Gong,Fabio Tosi,Youmin Zhang,Stefano Mattoccia,Matteo Poggi
発行日 2025-03-27 17:59:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | HS-SLAM: Hybrid Representation with Structural Supervision for Improved Dense SLAM はコメントを受け付けていません

Do Multimodal Large Language Models See Like Humans?

要約

マルチモーダル大手言語モデル(MLLM)は、さまざまなビジョンタスクで印象的な結果を達成しており、最近の大規模な言語モデルの進歩を活用しています。
しかし、重大な質問は未解決のままです。MLLMSは人間と同様に視覚情報を認識していますか?
現在のベンチマークには、この観点からMLLMを評価する機能がありません。
この課題に対処するために、HVSBenchを紹介します。HVSBenchは、人間の視覚を反映する基本的なビジョンタスクに関するMLLMと人間の視覚システム(HVS)のアライメントを評価するために設計された大規模なベンチマークです。
HVSBenchは、85K以上のマルチモーダルサンプルをキュレーションし、HVSの13のカテゴリと5つのフィールドにまたがって、顕著、サブタイズ、優先順位付け、フリービューリング、検索を含みました。
広範な実験は、MLLMの包括的な評価を提供する際のベンチマークの有効性を示しています。
具体的には、13 Mllmsを評価し、最良のモデルでさえ改善の重要な余地を示しており、ほとんどが中程度の結果しか達成されていないことが明らかになりました。
私たちの実験は、HVSBenchが最先端のMLLMに新しい重要な課題を提示することを明らかにしています。
多様な人間の参加者は、強力なパフォーマンスを達成し、MLLMを大幅に上回り、ベンチマークの高品質をさらに強調しています。
HVSBenchは、人間に整合した説明可能なMLLMに関する研究を促進し、MLLMSが視覚情報をどのように認識し処理するかを理解するための重要なステップをマークすると考えています。

要約(オリジナル)

Multimodal Large Language Models (MLLMs) have achieved impressive results on various vision tasks, leveraging recent advancements in large language models. However, a critical question remains unaddressed: do MLLMs perceive visual information similarly to humans? Current benchmarks lack the ability to evaluate MLLMs from this perspective. To address this challenge, we introduce HVSBench, a large-scale benchmark designed to assess the alignment between MLLMs and the human visual system (HVS) on fundamental vision tasks that mirror human vision. HVSBench curated over 85K multimodal samples, spanning 13 categories and 5 fields in HVS, including Prominence, Subitizing, Prioritizing, Free-Viewing, and Searching. Extensive experiments demonstrate the effectiveness of our benchmark in providing a comprehensive evaluation of MLLMs. Specifically, we evaluate 13 MLLMs, revealing that even the best models show significant room for improvement, with most achieving only moderate results. Our experiments reveal that HVSBench presents a new and significant challenge for cutting-edge MLLMs. Diverse human participants attained strong performance, significantly outperforming MLLMs, which further underscores the benchmark’s high quality. We believe that HVSBench will facilitate research on human-aligned and explainable MLLMs, marking a key step in understanding how MLLMs perceive and process visual information.

arxiv情報

著者 Jiaying Lin,Shuquan Ye,Rynson W. H. Lau
発行日 2025-03-27 17:59:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Do Multimodal Large Language Models See Like Humans? はコメントを受け付けていません

X$^{2}$-Gaussian: 4D Radiative Gaussian Splatting for Continuous-time Tomographic Reconstruction

要約

4次元コンピューター断層撮影(4D CT)再構築は、動的な解剖学的変化をキャプチャするために重要ですが、従来の位相式ワークフローからの固有の制限に直面しています。
現在の方法は、一時的な分解能を呼吸ゲーティング装置で固定相に離散化し、動きの不整合を導入し、臨床的実用性を制限します。
この論文では、X $^2 $ -Gaussianを提案します。これは、動的な放射ガウスのスプラットと自己監視の呼吸運動学習を統合することにより、連続時間4D-CT再構成を可能にする新しいフレームワークです。
私たちのアプローチは、時変ガウス変形を予測し、位相離散化を排除する空間的エンコーダーデコーダーアーキテクチャを介して解剖学的ダイナミクスをモデル化します。
外部ゲーティングデバイスへの依存関係を削除するために、微分可能な最適化を介して投影から直接患者固有の呼吸サイクルを学習する生理学駆動型の定期的な一貫性の損失を導入します。
広範な実験は、最先端のパフォーマンスを実証し、従来の方法で9.93 dB PSNRゲインを達成し、以前のガウススプラットテクニックに対して2.25 dBの改善を達成します。
ハードウェアフリーの期間学習を使用して連続モーションモデリングを統合することにより、x $^2 $ -Gaussianは、動的臨床イメージングのための高忠実度4D CT再構築を進めます。
プロジェクトWebサイト:https://x2-gaussian.github.io/。

要約(オリジナル)

Four-dimensional computed tomography (4D CT) reconstruction is crucial for capturing dynamic anatomical changes but faces inherent limitations from conventional phase-binning workflows. Current methods discretize temporal resolution into fixed phases with respiratory gating devices, introducing motion misalignment and restricting clinical practicality. In this paper, We propose X$^2$-Gaussian, a novel framework that enables continuous-time 4D-CT reconstruction by integrating dynamic radiative Gaussian splatting with self-supervised respiratory motion learning. Our approach models anatomical dynamics through a spatiotemporal encoder-decoder architecture that predicts time-varying Gaussian deformations, eliminating phase discretization. To remove dependency on external gating devices, we introduce a physiology-driven periodic consistency loss that learns patient-specific breathing cycles directly from projections via differentiable optimization. Extensive experiments demonstrate state-of-the-art performance, achieving a 9.93 dB PSNR gain over traditional methods and 2.25 dB improvement against prior Gaussian splatting techniques. By unifying continuous motion modeling with hardware-free period learning, X$^2$-Gaussian advances high-fidelity 4D CT reconstruction for dynamic clinical imaging. Project website at: https://x2-gaussian.github.io/.

arxiv情報

著者 Weihao Yu,Yuanhao Cai,Ruyi Zha,Zhiwen Fan,Chenxin Li,Yixuan Yuan
発行日 2025-03-27 17:59:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | X$^{2}$-Gaussian: 4D Radiative Gaussian Splatting for Continuous-time Tomographic Reconstruction はコメントを受け付けていません