DualDiff+: Dual-Branch Diffusion for High-Fidelity Video Generation with Reward Guidance

要約

正確で忠実な運転シーンの再構築には、包括的なシーン情報を条件付き入力として効果的に利用する必要があります。
既存の方法は、主に3Dバウンディングボックスと前景とバックグラウンドコントロール用のBEVロードマップに依存しています。これは、運転シーンの完全な複雑さをキャプチャできず、マルチモーダル情報を適切に統合します。
この作業では、複数のビューとビデオシーケンスにわたって運転シーンの生成を強化するために設計されたデュアルブランチ条件付き拡散モデルであるDualDiffを提示します。
具体的には、条件付き入力として占有レイシェイプサンプリング(OR)を導入し、両方の要素の生成を正確に制御するために、3D空間ジオメトリと並んでリッチな前景と背景のセマンティクスを提供します。
きめ細かい前景オブジェクト、特に複雑で遠いオブジェクトの合成を改善するために、前景を認識したマスク(FGM)の損失関数を除去することを提案します。
さらに、関連する情報を動的に優先し、ノイズを抑制し、より効果的なマルチモーダル融合を可能にするセマンティックフュージョンの注意(SFA)メカニズムを開発します。
最後に、高品質の画像からビデオへの生成を確保するために、生成されたビデオのグローバルな一貫性とセマンティックコヒーレンスを維持する報酬誘導拡散(RGD)フレームワークを導入します。
広範な実験は、DualDiffが複数のデータセットで最先端の(SOTA)パフォーマンスを達成することを示しています。
Nuscenesデータセットでは、DualDiffは最良のベースラインと比較してFIDスコアを4.09%削減します。
BEVセグメンテーションなどの下流のタスクでは、この方法は車両MIOUを4.50%、道路MIOUを1.70%改善しますが、BEV 3Dオブジェクト検出では、前景マップは1.46%増加します。
コードはhttps://github.com/yangzhaojason/dualdiffで利用可能になります。

要約(オリジナル)

Accurate and high-fidelity driving scene reconstruction demands the effective utilization of comprehensive scene information as conditional inputs. Existing methods predominantly rely on 3D bounding boxes and BEV road maps for foreground and background control, which fail to capture the full complexity of driving scenes and adequately integrate multimodal information. In this work, we present DualDiff, a dual-branch conditional diffusion model designed to enhance driving scene generation across multiple views and video sequences. Specifically, we introduce Occupancy Ray-shape Sampling (ORS) as a conditional input, offering rich foreground and background semantics alongside 3D spatial geometry to precisely control the generation of both elements. To improve the synthesis of fine-grained foreground objects, particularly complex and distant ones, we propose a Foreground-Aware Mask (FGM) denoising loss function. Additionally, we develop the Semantic Fusion Attention (SFA) mechanism to dynamically prioritize relevant information and suppress noise, enabling more effective multimodal fusion. Finally, to ensure high-quality image-to-video generation, we introduce the Reward-Guided Diffusion (RGD) framework, which maintains global consistency and semantic coherence in generated videos. Extensive experiments demonstrate that DualDiff achieves state-of-the-art (SOTA) performance across multiple datasets. On the NuScenes dataset, DualDiff reduces the FID score by 4.09% compared to the best baseline. In downstream tasks, such as BEV segmentation, our method improves vehicle mIoU by 4.50% and road mIoU by 1.70%, while in BEV 3D object detection, the foreground mAP increases by 1.46%. Code will be made available at https://github.com/yangzhaojason/DualDiff.

arxiv情報

著者 Zhao Yang,Zezhong Qian,Xiaofan Li,Weixiang Xu,Gongpeng Zhao,Ruohong Yu,Lingsi Zhu,Longjun Liu
発行日 2025-03-05 17:31:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | DualDiff+: Dual-Branch Diffusion for High-Fidelity Video Generation with Reward Guidance はコメントを受け付けていません

Beyond Matryoshka: Revisiting Sparse Coding for Adaptive Representation

要約

多くの大規模システムは、検索、検索、生成モデリングなどのタスクを容易にするために、高品質の深い表現(埋め込み)に依存しています。
Matryoshka表現学習(MRL)は最近、適応埋め込みの長さのソリューションとして浮上しましたが、完全なモデル再訓練が必要であり、短い長さの顕著な性能劣化に苦しんでいます。
この論文では、スパースコーディングが最小限のオーバーヘッドとより高い忠実度で適応表現を達成するための説得力のある代替品を提供することを示します。
コントラストのスパース表現(CSR)を提案します。これは、事前に訓練された埋め込みを高次元的ではあるが選択的にアクティブ化された特徴空間にスパースする方法です。
軽量の自動エンコードとタスク認識の対照的な目標を活用することにより、CSRはセマンティック品質を保持しながら、異なるスパースレベルで柔軟で費用対効果の高い推論を可能にします。
画像、テキスト、マルチモーダルのベンチマークに関する広範な実験は、CSRが大マージンの精度と検索速度の両方の点でMRLを一貫して上回ることを示しています。
私たちの結果は、効率と忠実度が両方とも最も重要な現実世界のアプリケーションで、適応表現学習の強力なパラダイムとしてまばらなコーディングを確立します。
コードはhttps://github.com/neilwen987/csr_adaptive_repで入手できます

要約(オリジナル)

Many large-scale systems rely on high-quality deep representations (embeddings) to facilitate tasks like retrieval, search, and generative modeling. Matryoshka Representation Learning (MRL) recently emerged as a solution for adaptive embedding lengths, but it requires full model retraining and suffers from noticeable performance degradations at short lengths. In this paper, we show that sparse coding offers a compelling alternative for achieving adaptive representation with minimal overhead and higher fidelity. We propose Contrastive Sparse Representation (CSR), a method that sparsifies pre-trained embeddings into a high-dimensional but selectively activated feature space. By leveraging lightweight autoencoding and task-aware contrastive objectives, CSR preserves semantic quality while allowing flexible, cost-effective inference at different sparsity levels. Extensive experiments on image, text, and multimodal benchmarks demonstrate that CSR consistently outperforms MRL in terms of both accuracy and retrieval speed-often by large margins-while also cutting training time to a fraction of that required by MRL. Our results establish sparse coding as a powerful paradigm for adaptive representation learning in real-world applications where efficiency and fidelity are both paramount. Code is available at https://github.com/neilwen987/CSR_Adaptive_Rep

arxiv情報

著者 Tiansheng Wen,Yifei Wang,Zequn Zeng,Zhong Peng,Yudi Su,Xinyang Liu,Bo Chen,Hongwei Liu,Stefanie Jegelka,Chenyu You
発行日 2025-03-05 17:51:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.IR, cs.LG | Beyond Matryoshka: Revisiting Sparse Coding for Adaptive Representation はコメントを受け付けていません

Fractal Calibration for long-tailed object detection

要約

実際のデータセットは、不均衡な分布に続きます。これは、まれなカテゴリオブジェクトの検出に大きな課題をもたらします。
最近の研究は、データセットのクラス周波数を利用する再重視と再サンプリング方法を開発することにより、この問題に取り組んでいます。
ただし、これらの手法は、頻度統計のみに焦点を当て、画像空間内のクラスの分布を無視し、重要な情報が欠落しています。
それらとは対照的に、フラクタルキャリブレーション(FRACAL)を提案します:ロングテールオブジェクト検出のための新しいキャリブレーション方法。
Fracalは、フラクタル寸法を利用して、画像スペースに均一にクラスがどの程度分布しているかを推定するロジット調整方法を考案します。
推論中に、フラクタルの次元を使用して、頻繁なカテゴリと希少カテゴリの間で、均一に間隔を空けているクラスとスパース間隔のクラスの間で、2つの軸でバランスを達成する均一に間隔を空けたクラス予測の確率を反比例させます。
Fracalは後処理方法であり、トレーニングを必要としません。また、1段階のシグモイド検出器や2段階のインスタンスセグメンテーションモデルなどの多くの既製モデルと組み合わせることもできます。
Fracalは、まれなクラスのパフォーマンスを最大8.6%上昇させ、LVISデータセットで以前のすべてのメソッドを上回り、CoCo、V3Det、OpenImagesなどの他のデータセットに良好な一般化を示しています。
https://github.com/kostas1515/fracalでコードを提供します。

要約(オリジナル)

Real-world datasets follow an imbalanced distribution, which poses significant challenges in rare-category object detection. Recent studies tackle this problem by developing re-weighting and re-sampling methods, that utilise the class frequencies of the dataset. However, these techniques focus solely on the frequency statistics and ignore the distribution of the classes in image space, missing important information. In contrast to them, we propose FRActal CALibration (FRACAL): a novel post-calibration method for long-tailed object detection. FRACAL devises a logit adjustment method that utilises the fractal dimension to estimate how uniformly classes are distributed in image space. During inference, it uses the fractal dimension to inversely downweight the probabilities of uniformly spaced class predictions achieving balance in two axes: between frequent and rare categories, and between uniformly spaced and sparsely spaced classes. FRACAL is a post-processing method and it does not require any training, also it can be combined with many off-the-shelf models such as one-stage sigmoid detectors and two-stage instance segmentation models. FRACAL boosts the rare class performance by up to 8.6% and surpasses all previous methods on LVIS dataset, while showing good generalisation to other datasets such as COCO, V3Det and OpenImages. We provide the code at https://github.com/kostas1515/FRACAL.

arxiv情報

著者 Konstantinos Panagiotis Alexandridis,Ismail Elezi,Jiankang Deng,Anh Nguyen,Shan Luo
発行日 2025-03-05 17:57:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Fractal Calibration for long-tailed object detection はコメントを受け付けていません

Rethinking Video Tokenization: A Conditioned Diffusion-based Approach

要約

ビデオをコンパクトな潜在表現に変換するビデオトークナーは、ビデオ生成の鍵です。
既存のビデオトークナーは、VAEアーキテクチャに基づいており、エンコーダーがビデオをコンパクトな潜在性に圧縮するパラダイムに従い、決定論的デコーダーがこれらの潜伏物の元のビデオを再構築します。
この論文では、Noble \ underline {\ textbf {c}} onditiond \ unditioned \ underline {\ textbf {d}} iffusionベースのビデオ\ underline {\ textbf {t}} okenizer entititititid \ textbf {\ ourmethod}、以前の方法からのdectingのdection of to she dection by sul sed she dection
拡散モデル。
デコーダーの逆拡散生成プロセスは、エンコーダーを介して導出された潜在表現に条件付けられます。
機能のキャッシュとサンプリングの加速により、フレームワークは任意の長さの高忠実度ビデオを効率的に再構築します。
結果は、{\ ourmethod}が、単一ステップサンプリングのみを使用して、ビデオ再構成タスクで最先端のパフォーマンスを達成することを示しています。
{\ ourmethod}の小さなバージョンでさえ、上位2つのベースラインと同等の再構築結果を達成しています。
さらに、{\ ourmethod}を使用して訓練された潜在的なビデオ生成モデルも優れたパフォーマンスを示しています。

要約(オリジナル)

Video tokenizers, which transform videos into compact latent representations, are key to video generation. Existing video tokenizers are based on the VAE architecture and follow a paradigm where an encoder compresses videos into compact latents, and a deterministic decoder reconstructs the original videos from these latents. In this paper, we propose a novel \underline{\textbf{C}}onditioned \underline{\textbf{D}}iffusion-based video \underline{\textbf{T}}okenizer entitled \textbf{\ourmethod}, which departs from previous methods by replacing the deterministic decoder with a 3D causal diffusion model. The reverse diffusion generative process of the decoder is conditioned on the latent representations derived via the encoder. With a feature caching and sampling acceleration, the framework efficiently reconstructs high-fidelity videos of arbitrary lengths. Results show that {\ourmethod} achieves state-of-the-art performance in video reconstruction tasks using just a single-step sampling. Even a smaller version of {\ourmethod} still achieves reconstruction results on par with the top two baselines. Furthermore, the latent video generation model trained using {\ourmethod} also shows superior performance.

arxiv情報

著者 Nianzu Yang,Pandeng Li,Liming Zhao,Yang Li,Chen-Wei Xie,Yehui Tang,Xudong Lu,Zhihang Liu,Yun Zheng,Yu Liu,Junchi Yan
発行日 2025-03-05 17:59:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Rethinking Video Tokenization: A Conditioned Diffusion-based Approach はコメントを受け付けていません

Active 6D Pose Estimation for Textureless Objects using Multi-View RGB Frames

要約

RBG画像からのテクスチャーのないオブジェクトの6Dポーズを推定することは、ロボット工学の重要な問題です。
外観のあいまいさ、回転対称性、重度の閉塞により、シングルビューベースの6Dポーズ推定器は依然として幅広いオブジェクトを処理することができず、マルチビューポーズ推定とこれらの制限に対処する次のベストビュー予測に向けた研究を動機付けます。
この作業では、RGB画像のみを使用して、テクスチャーのないオブジェクトの6Dポーズを推定するための包括的なアクティブな知覚フレームワークを提案します。
私たちのアプローチは、重要なアイデアに基づいて構築されています。6Dポーズ推定を連続した2段階のプロセスに分離すると、精度と効率の両方を大幅に改善できます。
まず、各オブジェクトの3D変換を推定し、RGB画像に固有のスケールと深さのあいまいさを解決します。
次に、これらの推定値を使用して、3D方向を決定するという後続のタスクを簡素化します。
次に、この定式化に基づいて、RGB画像をキャプチャするために次に最適なカメラの視点を予測するアクティブな知覚戦略を導入し、オブジェクトを効果的に削減し、不確実性をもたらし、ポーズの精度を高めます。
パブリックロビデータセットと、作成した透明なオブジェクトデータセットでの方法を評価します。
同じカメラの視点を使用して評価されると、マルチビューのポーズ推定は、最先端のアプローチを大幅に上回ります。
さらに、次のベストビュー戦略を活用することにより、当社の方法は、ヒューリスティックベースのポリシーよりも大幅に少ない視点で高いオブジェクトポーズの精度を達成します。

要約(オリジナル)

Estimating the 6D pose of textureless objects from RBG images is an important problem in robotics. Due to appearance ambiguities, rotational symmetries, and severe occlusions, single-view based 6D pose estimators are still unable to handle a wide range of objects, motivating research towards multi-view pose estimation and next-best-view prediction that addresses these limitations. In this work, we propose a comprehensive active perception framework for estimating the 6D poses of textureless objects using only RGB images. Our approach is built upon a key idea: decoupling the 6D pose estimation into a sequential two-step process can greatly improve both accuracy and efficiency. First, we estimate the 3D translation of each object, resolving scale and depth ambiguities inherent to RGB images. These estimates are then used to simplify the subsequent task of determining the 3D orientation, which we achieve through canonical scale template matching. Building on this formulation, we then introduce an active perception strategy that predicts the next best camera viewpoint to capture an RGB image, effectively reducing object pose uncertainty and enhancing pose accuracy. We evaluate our method on the public ROBI dataset as well as on a transparent object dataset that we created. When evaluated using the same camera viewpoints, our multi-view pose estimation significantly outperforms state-of-the-art approaches. Furthermore, by leveraging our next-best-view strategy, our method achieves high object pose accuracy with substantially fewer viewpoints than heuristic-based policies.

arxiv情報

著者 Jun Yang,Wenjie Xue,Sahar Ghavidel,Steven L. Waslander
発行日 2025-03-05 18:28:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Active 6D Pose Estimation for Textureless Objects using Multi-View RGB Frames はコメントを受け付けていません

Rethinking Deep Clustering Paradigms: Self-Supervision Is All You Need

要約

深いクラスタリングの最近の進歩は、自己教師と疑似監督の学習の大幅な進歩によって可能になりました。
ただし、セルフスーパービジョンと擬似監督のトレードオフは、3つの主要な問題を引き起こす可能性があります。
共同トレーニングにより、特徴のランダム性と特徴ドリフトが発生しますが、独立したトレーニングにより、特徴のランダム性と機能のねじれが発生します。
本質的に、擬似ラベルを使用すると、ランダムで信頼できない機能が生成されます。
擬似監視と自己監督の組み合わせは、信頼できるクラスタリング指向の機能をドリフトします。
さらに、セルフスーパービジョンから擬似監督への移動は、湾曲した潜在マニホールドをひねる可能性があります。
このペーパーでは、機能のランダム性、特徴ドリフト、機能のひねりに関する既存のディープクラスタリングパラダイムの制限について説明します。
擬似監督を2回目のセルフスーパービジョントレーニングに置き換える新しい戦略を備えた新しいパラダイムを提案します。
新しい戦略により、インスタンスレベルのセルフスーパービジョンと近隣レベルのセルフスーパービジョンとの間の移行がスムーズで、それほど突然ではありません。
さらに、インスタンスレベルのセルフスーパービジョンとクラスタリングレベルの擬似スーパービジョンとの間の強力な競争によって引き起こされる漂流効果を防ぎます。
さらに、擬似スーパービジョンがないことは、ランダムな特徴を生成するリスクを防ぎます。
この新しいアプローチにより、私たちの論文は、R-DCで示される深いクラスタリングパラダイムの再考を紹介します。
私たちのモデルは、深いクラスタリングで遭遇する3つの主要な課題に対処するように特別に設計されています:特徴のランダム性、機能ドリフト、機能のねじれ。
6つのデータセットで実施された実験結果は、2レベルのセルフスーパービジョントレーニングが大幅な改善をもたらすことを示しています。

要約(オリジナル)

The recent advances in deep clustering have been made possible by significant progress in self-supervised and pseudo-supervised learning. However, the trade-off between self-supervision and pseudo-supervision can give rise to three primary issues. The joint training causes Feature Randomness and Feature Drift, whereas the independent training causes Feature Randomness and Feature Twist. In essence, using pseudo-labels generates random and unreliable features. The combination of pseudo-supervision and self-supervision drifts the reliable clustering-oriented features. Moreover, moving from self-supervision to pseudo-supervision can twist the curved latent manifolds. This paper addresses the limitations of existing deep clustering paradigms concerning Feature Randomness, Feature Drift, and Feature Twist. We propose a new paradigm with a new strategy that replaces pseudo-supervision with a second round of self-supervision training. The new strategy makes the transition between instance-level self-supervision and neighborhood-level self-supervision smoother and less abrupt. Moreover, it prevents the drifting effect that is caused by the strong competition between instance-level self-supervision and clustering-level pseudo-supervision. Moreover, the absence of the pseudo-supervision prevents the risk of generating random features. With this novel approach, our paper introduces a Rethinking of the Deep Clustering Paradigms, denoted by R-DC. Our model is specifically designed to address three primary challenges encountered in Deep Clustering: Feature Randomness, Feature Drift, and Feature Twist. Experimental results conducted on six datasets have shown that the two-level self-supervision training yields substantial improvements.

arxiv情報

著者 Amal Shaheena,Nairouz Mrabahb,Riadh Ksantinia,Abdulla Alqaddoumia
発行日 2025-03-05 18:44:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Rethinking Deep Clustering Paradigms: Self-Supervision Is All You Need はコメントを受け付けていません

OTTER: A Vision-Language-Action Model with Text-Aware Visual Feature Extraction

要約

Vision-Language-action(VLA)モデルは、視覚的な観察と言語の指示に基づいてロボットアクションを予測することを目的としています。
既存のアプローチでは、視覚的および言語機能が独立してダウンストリームポリシーに供給され、事前に訓練されたセマンティックアラインメントを分解するため、微調整前のVisionLanguageモデル(VLM)が必要です。
Otterを提案します。Cotterは、明示的でテキスト認識の視覚機能抽出を通じて、これらの既存のアライメントを活用する新しいVLAアーキテクチャです。
すべての視覚的機能を処理する代わりに、カワウソは、ポリシートランスの言語命令と意味的に整列したタスク関連の視覚的特徴のみを選択的に抽出および渡します。
これにより、Otterは事前に訓練されたビジョン言語エンコーダーを冷凍し続けることができます。
これにより、Otterは大規模なスケールの事前トレーニングから学んだ豊富なセマンティック理解を保存および利用し、強力なゼロショット一般化機能を可能にします。
シミュレーションおよび実際の実験では、カワウソは既存のVLAモデルを大幅に上回り、新しいオブジェクトと環境に強力なゼロショットの一般化を実証しています。
ビデオ、コード、チェックポイント、およびデータセット:https://ottervla.github.io/。

要約(オリジナル)

Vision-Language-Action (VLA) models aim to predict robotic actions based on visual observations and language instructions. Existing approaches require fine-tuning pre-trained visionlanguage models (VLMs) as visual and language features are independently fed into downstream policies, degrading the pre-trained semantic alignments. We propose OTTER, a novel VLA architecture that leverages these existing alignments through explicit, text-aware visual feature extraction. Instead of processing all visual features, OTTER selectively extracts and passes only task-relevant visual features that are semantically aligned with the language instruction to the policy transformer. This allows OTTER to keep the pre-trained vision-language encoders frozen. Thereby, OTTER preserves and utilizes the rich semantic understanding learned from large-scale pre-training, enabling strong zero-shot generalization capabilities. In simulation and real-world experiments, OTTER significantly outperforms existing VLA models, demonstrating strong zeroshot generalization to novel objects and environments. Video, code, checkpoints, and dataset: https://ottervla.github.io/.

arxiv情報

著者 Huang Huang,Fangchen Liu,Letian Fu,Tingfan Wu,Mustafa Mukadam,Jitendra Malik,Ken Goldberg,Pieter Abbeel
発行日 2025-03-05 18:44:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | OTTER: A Vision-Language-Action Model with Text-Aware Visual Feature Extraction はコメントを受け付けていません

NVILA: Efficient Frontier Visual Language Models

要約

視覚言語モデル(VLM)は、近年、精度に大きな進歩を遂げています。
しかし、それらの効率はそれほど少ない注目を集めています。
このペーパーでは、効率と精度の両方を最適化するように設計されたオープンVLMのファミリーであるNvilaを紹介します。
Vilaの上に構築され、最初に空間的解像度と時間的解像度を拡大し、次に視覚的なトークンを圧縮することにより、モデルアーキテクチャを改善します。
この「スケールからカップル」アプローチにより、NVILAは高解像度の画像と長いビデオを効率的に処理できます。
また、トレーニングや微調整から展開まで、ライフサイクル全体を通じてNVILAの効率を高めるための体系的な調査を実施します。
NVILAは、幅広い画像およびビデオベンチマークにわたって、多くの主要なオープンおよび独自のVLMの精度を一致または上回ります。
同時に、トレーニングコストを4.5倍に削減し、メモリの使用量を3.4倍に微調整し、事前充填レイテンシは1.6-2.2x、レイテンシを1.2〜2.8倍に解読します。
すぐにコードとモデルを利用できるようにして、再現性を促進します。

要約(オリジナル)

Visual language models (VLMs) have made significant advances in accuracy in recent years. However, their efficiency has received much less attention. This paper introduces NVILA, a family of open VLMs designed to optimize both efficiency and accuracy. Building on top of VILA, we improve its model architecture by first scaling up the spatial and temporal resolutions, and then compressing visual tokens. This ‘scale-then-compress’ approach enables NVILA to efficiently process high-resolution images and long videos. We also conduct a systematic investigation to enhance the efficiency of NVILA throughout its entire lifecycle, from training and fine-tuning to deployment. NVILA matches or surpasses the accuracy of many leading open and proprietary VLMs across a wide range of image and video benchmarks. At the same time, it reduces training costs by 4.5X, fine-tuning memory usage by 3.4X, pre-filling latency by 1.6-2.2X, and decoding latency by 1.2-2.8X. We will soon make our code and models available to facilitate reproducibility.

arxiv情報

著者 Zhijian Liu,Ligeng Zhu,Baifeng Shi,Zhuoyang Zhang,Yuming Lou,Shang Yang,Haocheng Xi,Shiyi Cao,Yuxian Gu,Dacheng Li,Xiuyu Li,Yunhao Fang,Yukang Chen,Cheng-Yu Hsieh,De-An Huang,An-Chieh Cheng,Vishwesh Nath,Jinyi Hu,Sifei Liu,Ranjay Krishna,Daguang Xu,Xiaolong Wang,Pavlo Molchanov,Jan Kautz,Hongxu Yin,Song Han,Yao Lu
発行日 2025-03-05 18:57:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | NVILA: Efficient Frontier Visual Language Models はコメントを受け付けていません

GEN3C: 3D-Informed World-Consistent Video Generation with Precise Camera Control

要約

正確なカメラ制御と時間的な3D一貫性を備えた生成ビデオモデルであるGen3cを提示します。
以前のビデオモデルはすでに現実的なビデオを生成していますが、3D情報がほとんどない傾向があり、存在しないオブジェクトなどの矛盾につながる傾向があります。
カメラのパラメーターはニューラルネットワークへの単なる入力であり、ビデオがカメラにどのように依存するかを推測する必要があるため、カメラの制御は不正確です。
対照的に、Gen3cは、シード画像のピクセルごとの深さまたは以前に生成されたフレームを予測することにより得られる3Dキャッシュ:ポイントクラウドによって導かれます。
次のフレームを生成するとき、GEN3Cは、ユーザーが提供する新しいカメラの軌跡を使用して、3Dキャッシュの2Dレンダリングを条件付けます。
重要なことに、これはGen3cが以前に生成したものを覚えておく必要も、カメラのポーズから画像構造を推測する必要もないことを意味します。
代わりに、このモデルは、以前に観測されていなかった地域にすべての生成力を集中させ、シーン状態を次のフレームに進めることができます。
我々の結果は、運転シーンや単眼動的ビデオなどの挑戦的な設定でさえ、以前の作業よりも正確なカメラ制御や、まばらな視界の概念の結果で最先端の結果を示しています。
結果はビデオで最もよく表示されます。
ウェブページをご覧ください!
https://research.nvidia.com/labs/toronto-ai/gen3c/

要約(オリジナル)

We present GEN3C, a generative video model with precise Camera Control and temporal 3D Consistency. Prior video models already generate realistic videos, but they tend to leverage little 3D information, leading to inconsistencies, such as objects popping in and out of existence. Camera control, if implemented at all, is imprecise, because camera parameters are mere inputs to the neural network which must then infer how the video depends on the camera. In contrast, GEN3C is guided by a 3D cache: point clouds obtained by predicting the pixel-wise depth of seed images or previously generated frames. When generating the next frames, GEN3C is conditioned on the 2D renderings of the 3D cache with the new camera trajectory provided by the user. Crucially, this means that GEN3C neither has to remember what it previously generated nor does it have to infer the image structure from the camera pose. The model, instead, can focus all its generative power on previously unobserved regions, as well as advancing the scene state to the next frame. Our results demonstrate more precise camera control than prior work, as well as state-of-the-art results in sparse-view novel view synthesis, even in challenging settings such as driving scenes and monocular dynamic video. Results are best viewed in videos. Check out our webpage! https://research.nvidia.com/labs/toronto-ai/GEN3C/

arxiv情報

著者 Xuanchi Ren,Tianchang Shen,Jiahui Huang,Huan Ling,Yifan Lu,Merlin Nimier-David,Thomas Müller,Alexander Keller,Sanja Fidler,Jun Gao
発行日 2025-03-05 18:59:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR | GEN3C: 3D-Informed World-Consistent Video Generation with Precise Camera Control はコメントを受け付けていません

Integral Forms in Matrix Lie Groups

要約

マトリックスの嘘グループは、ロボット工学、コンピュータービジョン、グラフィックスなどのフィールドでの動きを記述するための言語を提供します。
これらのツールを使用する場合、無限のシリーズの表現をよりコンパクトな有限シリーズ(例えば、オイラーロッドリケ式)に変えることに直面することがよくありますが、これは時々面倒です。
この論文では、コンパクトな分析結果を計算するためのより合理化された経路を提供するマトリックスLieグループ式のいくつかの有用な積分形態を特定します。
さらに、これらの表現の多くが相互に関連していることを示すこれらの積分形式のいくつかの再帰構造を提示します。
私たちのアプローチの鍵は、プロセスのかなり早い段階で嘘代数に最小限の多項式を適用して、派生全体を通して表現をコンパクトに保つ​​ことができることです。
シリーズアプローチでは、最小限の多項式が最後に適用されるため、結果の一般的な分析式を認識するのが難しくなります。
私たちの積分方法は、文献からいくつかのシリーズ由来の結果を再現できることを示しています。

要約(オリジナル)

Matrix Lie groups provide a language for describing motion in such fields as robotics, computer vision, and graphics. When using these tools, we are often faced with turning infinite-series expressions into more compact finite series (e.g., the Euler-Rodriques formula), which can sometimes be onerous. In this paper, we identify some useful integral forms in matrix Lie group expressions that offer a more streamlined pathway for computing compact analytic results. Moreover, we present some recursive structures in these integral forms that show many of these expressions are interrelated. Key to our approach is that we are able to apply the minimal polynomial for a Lie algebra quite early in the process to keep expressions compact throughout the derivations. With the series approach, the minimal polynomial is usually applied at the end, making it hard to recognize common analytic expressions in the result. We show that our integral method can reproduce several series-derived results from the literature.

arxiv情報

著者 Timothy D Barfoot
発行日 2025-03-05 14:44:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Integral Forms in Matrix Lie Groups はコメントを受け付けていません