Vision Transformers Don’t Need Trained Registers

要約

視覚変圧器における以前に特定された現象の根底にあるメカニズムを調査します。これは、騒々しい注意マップにつながるハイノームトークンの出現です。
複数のモデル(たとえば、Clip、Dinov2)では、ニューロンのまばらなセットが、外れ値トークンにハイノーム活性化を集中させ、不規則な注意パターンを引き起こし、下流の視覚処理を分解することを観察します。
これらの外れ値を削除するための既存のソリューションには、追加の学習されたレジスタトークンでモデルをゼロから再試行することが含まれますが、調査結果を使用して、これらのアーティファクトを緩和するためのトレーニングなしのアプローチを作成します。
発見されたレジスタニューロンからのハイノームの活性化を追加の訓練を受けていないトークンにシフトすることにより、レジスタなしで既に訓練されたモデルに対するレジスタトークンの効果を模倣できます。
私たちの方法は、よりクリーンな注意と機能マップを生み出し、複数の下流の視覚タスクにわたってベースモデル上のパフォーマンスを向上させ、レジスタトークンで明示的にトレーニングされたモデルに匹敵する結果を達成することを実証します。
次に、テスト時間レジスタを既製のビジョン言語モデルに拡張して、解釈可能性を向上させます。
我々の結果は、テスト時間レジスタがテスト時間にレジスタトークンの役割を効果的に取り、それらなしでリリースされた事前に訓練されたモデルにトレーニングなしのソリューションを提供することを示唆しています。

要約(オリジナル)

We investigate the mechanism underlying a previously identified phenomenon in Vision Transformers — the emergence of high-norm tokens that lead to noisy attention maps. We observe that in multiple models (e.g., CLIP, DINOv2), a sparse set of neurons is responsible for concentrating high-norm activations on outlier tokens, leading to irregular attention patterns and degrading downstream visual processing. While the existing solution for removing these outliers involves retraining models from scratch with additional learned register tokens, we use our findings to create a training-free approach to mitigate these artifacts. By shifting the high-norm activations from our discovered register neurons into an additional untrained token, we can mimic the effect of register tokens on a model already trained without registers. We demonstrate that our method produces cleaner attention and feature maps, enhances performance over base models across multiple downstream visual tasks, and achieves results comparable to models explicitly trained with register tokens. We then extend test-time registers to off-the-shelf vision-language models to improve their interpretability. Our results suggest that test-time registers effectively take on the role of register tokens at test-time, offering a training-free solution for any pre-trained model released without them.

arxiv情報

著者 Nick Jiang,Amil Dravid,Alexei Efros,Yossi Gandelsman
発行日 2025-06-18 16:30:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Vision Transformers Don’t Need Trained Registers はコメントを受け付けていません

BoxFusion: Reconstruction-Free Open-Vocabulary 3D Object Detection via Real-Time Multi-View Box Fusion

要約

自律的な運転と具体化されたAIにおける重要なアプリケーションにより、オープンボキャブラリー3Dオブジェクト検出は、大きな関心を集めています。
既存の検出方法は、オフラインであろうとオンラインであろうと、通常、密なポイントクラウドの再構成に依存しており、これはかなりの計算オーバーヘッドとメモリの制約を課し、ダウンストリームタスクでのリアルタイムの展開を妨げます。
これに対処するために、メモリ効率の高い3D検出とリアルタイムの3D検出に合わせて調整された新しい再構築のないオンラインフレームワークを提案します。
具体的には、RGB-Dビデオ入力のストリーミングが与えられた場合、Cubifyは、検出されたオブジェクトのオープンボキャブラリーセマンティクスをキャプチャするためにクリップと組み合わせて、境界ボックスと組み合わせて、シングルビュー3Dオブジェクト検出の事前訓練を受けたVisual Foundationモデル(VFM)として活用します。
検出されたすべての境界ボックスを異なるビューで統合するために、マルチビューの対応と最適化モジュールの関連モジュールを使用して、マルチビューで予測される同じインスタンスの3D境界ボックスを融合します。
Associationモジュールは、3D非最大抑制(NMS)とボックス対応マッチングモジュールを使用しますが、最適化モジュールは、粒子フィルタリングに基づいてIouガイド付き効率的なランダム最適化技術を使用して、3D境界ボックスのマルチビューの一貫性を順行しながら、コンピューターの複雑さを最小限に抑えます。
Scannetv2およびCa-1Mデータセットの広範な実験は、この方法がオンライン方法で最先端のパフォーマンスを達成することを示しています。
3Dオブジェクト検出のためのこの新しい再構成のないパラダイムの恩恵を受けるこの方法は、さまざまなシナリオで大きな一般化能力を示し、1000平方メートルを超える環境でもリアルタイムの知覚を可能にします。

要約(オリジナル)

Open-vocabulary 3D object detection has gained significant interest due to its critical applications in autonomous driving and embodied AI. Existing detection methods, whether offline or online, typically rely on dense point cloud reconstruction, which imposes substantial computational overhead and memory constraints, hindering real-time deployment in downstream tasks. To address this, we propose a novel reconstruction-free online framework tailored for memory-efficient and real-time 3D detection. Specifically, given streaming posed RGB-D video input, we leverage Cubify Anything as a pre-trained visual foundation model (VFM) for single-view 3D object detection by bounding boxes, coupled with CLIP to capture open-vocabulary semantics of detected objects. To fuse all detected bounding boxes across different views into a unified one, we employ an association module for correspondences of multi-views and an optimization module to fuse the 3D bounding boxes of the same instance predicted in multi-views. The association module utilizes 3D Non-Maximum Suppression (NMS) and a box correspondence matching module, while the optimization module uses an IoU-guided efficient random optimization technique based on particle filtering to enforce multi-view consistency of the 3D bounding boxes while minimizing computational complexity. Extensive experiments on ScanNetV2 and CA-1M datasets demonstrate that our method achieves state-of-the-art performance among online methods. Benefiting from this novel reconstruction-free paradigm for 3D object detection, our method exhibits great generalization abilities in various scenarios, enabling real-time perception even in environments exceeding 1000 square meters.

arxiv情報

著者 Yuqing Lan,Chenyang Zhu,Zhirui Gao,Jiazhao Zhang,Yihan Cao,Renjiao Yi,Yijie Wang,Kai Xu
発行日 2025-06-18 16:40:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | BoxFusion: Reconstruction-Free Open-Vocabulary 3D Object Detection via Real-Time Multi-View Box Fusion はコメントを受け付けていません

HOIDiNi: Human-Object Interaction through Diffusion Noise Optimization

要約

私たちは、現実的でもっともらしい人間とオブジェクトの相互作用(HOI)を合成するためのテキスト駆動型拡散フレームワークであるHoidiniを提示します。
HOIの生成は、多様な動きマニホールドとともに厳格な接触精度を誘発するため、非常に困難です。
現在の文献はリアリズムと身体的正しさの間でトレードオフしますが、ホイディニは、拡散ノイズ最適化(DNO)を使用して、前処理された拡散モデルのノイズ空間で直接最適化し、両方を達成します。
これは、問題を2つのフェーズに分けることができるという観察のおかげで実現可能になります。オブジェクト中心の相、主に手オブジェクトの接触位置の個別の選択を行うこと、およびこの青写真を実現するために全身の動きを改善する人間中心のフェーズです。
この構造化されたアプローチにより、運動の自然さを損なうことなく、正確な手観オブジェクトの接触が可能になります。
グラブデータセットだけでの定量的、定性的、および主観的評価だけで、接触の精度、身体的妥当性、および全体的な品質の以前の作業とベースラインのホイディニのアウトパフォーマンスを明確に示しています。
我々の結果は、テキストプロンプトのみによって駆動される、把握、配置、全身調整など、複雑で制御可能な相互作用を生成する能力を示しています。
https://hoidini.github.io。

要約(オリジナル)

We present HOIDiNi, a text-driven diffusion framework for synthesizing realistic and plausible human-object interaction (HOI). HOI generation is extremely challenging since it induces strict contact accuracies alongside a diverse motion manifold. While current literature trades off between realism and physical correctness, HOIDiNi optimizes directly in the noise space of a pretrained diffusion model using Diffusion Noise Optimization (DNO), achieving both. This is made feasible thanks to our observation that the problem can be separated into two phases: an object-centric phase, primarily making discrete choices of hand-object contact locations, and a human-centric phase that refines the full-body motion to realize this blueprint. This structured approach allows for precise hand-object contact without compromising motion naturalness. Quantitative, qualitative, and subjective evaluations on the GRAB dataset alone clearly indicate HOIDiNi outperforms prior works and baselines in contact accuracy, physical validity, and overall quality. Our results demonstrate the ability to generate complex, controllable interactions, including grasping, placing, and full-body coordination, driven solely by textual prompts. https://hoidini.github.io.

arxiv情報

著者 Roey Ron,Guy Tevet,Haim Sawdayee,Amit H. Bermano
発行日 2025-06-18 16:54:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | HOIDiNi: Human-Object Interaction through Diffusion Noise Optimization はコメントを受け付けていません

Generalized Out-of-Distribution Detection and Beyond in Vision Language Model Era: A Survey

要約

分散分布(OOD)サンプルの検出は、機械学習システムの安全性を確保するために重要であり、OOD検出の分野を形作っています。
一方、他のいくつかの問題は、異常検出(AD)、ノベルティ検出(ND)、オープンセット認識(OSR)、および外れ値検出(OD)など、OOD検出と密接に関連しています。
これらの問題を統一するために、これらの5つの問題を分類的に分類し、一般化されたOOD検出フレームワークが提案されました。
ただし、クリップなどのビジョン言語モデル(VLM)はパラダイムを大幅に変え、これらのフィールド間の境界を曖昧にし、再び研究者を混乱させました。
この調査では、最初に一般化されたOOD検出V2を提示し、VLM時代のこれらのフィールドの進化をカプセル化します。
私たちのフレームワークは、ある程度のフィールドの不活動と統合により、厳しい課題がOOD検出とADになっていることを明らかにしています。
次に、定義、問題設定、およびベンチマークの大幅な変化を強調します。
したがって、OOD検出と関連するタスクの方法論の包括的なレビューを紹介し、OOD検出との関係を明確にします。
最後に、GPT-4Vなどの新興大型ビジョン言語モデル(LVLM)時代の進歩を探ります。
私たちは、オープンな課題と将来の方向性で締めくくります。
リソースはhttps://github.com/atsumiyai/awesome-ood-vlmで入手できます。

要約(オリジナル)

Detecting out-of-distribution (OOD) samples is crucial for ensuring the safety of machine learning systems and has shaped the field of OOD detection. Meanwhile, several other problems are closely related to OOD detection, including anomaly detection (AD), novelty detection (ND), open set recognition (OSR), and outlier detection (OD). To unify these problems, a generalized OOD detection framework was proposed, taxonomically categorizing these five problems. However, Vision Language Models (VLMs) such as CLIP have significantly changed the paradigm and blurred the boundaries between these fields, again confusing researchers. In this survey, we first present a generalized OOD detection v2, encapsulating the evolution of these fields in the VLM era. Our framework reveals that, with some field inactivity and integration, the demanding challenges have become OOD detection and AD. Then, we highlight the significant shift in the definition, problem settings, and benchmarks; we thus feature a comprehensive review of the methodology for OOD detection and related tasks to clarify their relationship to OOD detection. Finally, we explore the advancements in the emerging Large Vision Language Model (LVLM) era, such as GPT-4V. We conclude with open challenges and future directions. The resource is available at https://github.com/AtsuMiyai/Awesome-OOD-VLM.

arxiv情報

著者 Atsuyuki Miyai,Jingkang Yang,Jingyang Zhang,Yifei Ming,Yueqian Lin,Qing Yu,Go Irie,Shafiq Joty,Yixuan Li,Hai Li,Ziwei Liu,Toshihiko Yamasaki,Kiyoharu Aizawa
発行日 2025-06-18 17:03:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Generalized Out-of-Distribution Detection and Beyond in Vision Language Model Era: A Survey はコメントを受け付けていません

FindingDory: A Benchmark to Evaluate Memory in Embodied Agents

要約

大規模なビジョン言語モデルは最近、計画および制御タスクの印象的なパフォーマンスを実証し、現実世界のロボット工学へのアプリケーションへの関心を促進しています。
ただし、具体化されたコンテキストでの推論のためにこれらのモデルを展開することは、複数日にわたって収集された長期的な経験を組み込む能力によって制限され、膨大な画像コレクションで表されます。
現在のVLMは通常、数百以上の画像を同時に処理するのに苦労しており、具体化された設定で長期的なメモリを処理するためのより効率的なメカニズムの必要性を強調しています。
これらのモデルを長老型制御のために効果的に評価するには、ベンチマークがメモリが成功するために重要なシナリオを具体的にターゲットにする必要があります。
既存の長距離QAベンチマークは、オブジェクトの操作やナビゲーションなどの具体化された課題を見落としています。これは、過去の相互作用に対する低レベルのスキルと細かい推論を必要とします。
さらに、具体化されたエージェントにおける効果的なメモリ統合には、関連する履歴情報をリコールすることと、その情報に基づいてアクションの実行の両方が含まれ、単独ではなくこれらの側面を一緒に研究することが不可欠です。
この作業では、ハビタットシミュレーターに長距離具体化されたタスクの新しいベンチマークを紹介します。
このベンチマークは、環境での持続的なエンゲージメントとコンテキスト認識を必要とする60のタスクにわたってメモリベースの機能を評価します。
タスクは、メモリと推論のスケーラブルな評価を可能にするため、より長くより挑戦的なバージョンに手続き的に拡張することもできます。
また、最先端のVLMを低レベルのナビゲーションポリシーと統合し、これらのメモリ集約型タスクでのパフォーマンスを評価し、改善のために領域を強調するベースラインを提示します。

要約(オリジナル)

Large vision-language models have recently demonstrated impressive performance in planning and control tasks, driving interest in their application to real-world robotics. However, deploying these models for reasoning in embodied contexts is limited by their ability to incorporate long-term experience collected across multiple days and represented by vast collections of images. Current VLMs typically struggle to process more than a few hundred images concurrently, highlighting the need for more efficient mechanisms to handle long-term memory in embodied settings. To effectively evaluate these models for long-horizon control, a benchmark must specifically target scenarios where memory is crucial for success. Existing long-video QA benchmarks overlook embodied challenges like object manipulation and navigation, which demand low-level skills and fine-grained reasoning over past interactions. Moreover, effective memory integration in embodied agents involves both recalling relevant historical information and executing actions based on that information, making it essential to study these aspects together rather than in isolation. In this work, we introduce a new benchmark for long-range embodied tasks in the Habitat simulator. This benchmark evaluates memory-based capabilities across 60 tasks requiring sustained engagement and contextual awareness in an environment. The tasks can also be procedurally extended to longer and more challenging versions, enabling scalable evaluation of memory and reasoning. We also present baselines that integrate state-of-the-art VLMs with low level navigation policies, assessing their performance on these memory-intensive tasks and highlight areas for improvement.

arxiv情報

著者 Karmesh Yadav,Yusuf Ali,Gunshi Gupta,Yarin Gal,Zsolt Kira
発行日 2025-06-18 17:06:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | FindingDory: A Benchmark to Evaluate Memory in Embodied Agents はコメントを受け付けていません

Demystifying the Visual Quality Paradox in Multimodal Large Language Models

要約

最近のマルチモーダル大手言語モデル(MLLM)は、ベンチマークビジョン言語タスクで優れていますが、入力の視覚品質がどのように応答を形成するかについてはほとんど知られていません。
画像のより高い知覚品質は、すでにより良いMLLMの理解につながっていますか?
主要なMLLMと一連のビジョン言語ベンチマークにまたがる最初の体系的な研究を実施し、各画像に制御された分解と文体シフトを適用します。
驚くべきことに、視覚的なパラドックスを明らかにします:モデル、タスク、さらには、個々のインスタンスのパフォーマンスでさえ、人間の知覚される忠実度から画像が逸脱すると改善できます。
既製の修復パイプラインは、これらの特異な好みを調整できません。
ギャップを閉じるために、視覚的なテストタイムチューニング(VQ-TTT)を導入します。これは、次のような軽量適応モジュールです。
(2)LORAを介した浅い視力エンコーダー層のみ。
VQ-TTTは、各入力画像を単一のフォワードパスで動的に調整し、タスク固有のモデル設定に合わせます。
評価されたMLLMとすべてのデータセット全体で、VQ-TTTは、外部モデル、キャッシュ機能、または追加のトレーニングデータを持たず、大幅な平均精度を高めます。
これらの調査結果は、MLLMSの「より良い」視覚入力を再定義し、AIが主要なデータ顧客であるという新しい時代において、普遍的に「クリーン」なイメージではなく、適応型の必要性を強調しています。

要約(オリジナル)

Recent Multimodal Large Language Models (MLLMs) excel on benchmark vision-language tasks, yet little is known about how input visual quality shapes their responses. Does higher perceptual quality of images already translate to better MLLM understanding? We conduct the first systematic study spanning leading MLLMs and a suite of vision-language benchmarks, applying controlled degradations and stylistic shifts to each image. Surprisingly, we uncover a visual-quality paradox: model, task, and even individual-instance performance can improve when images deviate from human-perceived fidelity. Off-the-shelf restoration pipelines fail to reconcile these idiosyncratic preferences. To close the gap, we introduce Visual-Quality Test-Time Tuning (VQ-TTT)-a lightweight adaptation module that: (1) inserts a learnable, low-rank kernel before the frozen vision encoder to modulate frequency content; and (2) fine-tunes only shallow vision-encoder layers via LoRA. VQ-TTT dynamically adjusts each input image in a single forward pass, aligning it with task-specific model preferences. Across the evaluated MLLMs and all datasets, VQ-TTT lifts significant average accuracy, with no external models, cached features, or extra training data. These findings redefine “better” visual inputs for MLLMs and highlight the need for adaptive, rather than universally “clean”, imagery, in the new era of AI being the main data customer.

arxiv情報

著者 Shuo Xing,Lanqing Guo,Hongyuan Hua,Seoyoung Lee,Peiran Li,Yufei Wang,Zhangyang Wang,Zhengzhong Tu
発行日 2025-06-18 17:14:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Demystifying the Visual Quality Paradox in Multimodal Large Language Models はコメントを受け付けていません

Dual-Stage Value-Guided Inference with Margin-Based Reward Adjustment for Fast and Faithful VLM Captioning

要約

ビジョン言語モデル(VLM)の推論時間検索の大幅な進歩にもかかわらず、既存のアプローチは、しばしば持続的な幻覚につながることが多い、抑止されていない低自信の世代の両方を計算する傾向があります。
\ textBf {マージンベースの報酬(VIMAR)を使用したバリューガイド付き推論(VIMAR)}を紹介します。これは、時間差モデルとマージン認識報酬調整を組み合わせることにより、効率と出力の両方の忠実度を改善する2段階の推論フレームワークです。
最初の段階では、単一のパスを実行して、多様な候補者の間で最も価値の高いキャプションを識別します。
第2段階では、見落とされているか、弱い視覚的接地を示したセグメントのみを選択的に改良し、それにより頻繁に報われる評価を排除します。
キャリブレーションされたマージンベースのペナルティは、記述的な豊かさを維持しながら、自信の低い継続を思いとどまらせます。
複数のVLMアーキテクチャにわたる広範な実験は、Vimarが既存の価値ガイド方法と比較して4 $ \ Times $ speedupを達成しながら、より信頼性が高く、事実上正確で、詳細で、説明的なキャプションを生成することを示しています。
具体的には、VimarがLlava Mistral-7B、\ TextITのみで訓練したことを示しています{より強力な目に見えないモデルでデコードを導くために効果的に一般化}。
これをさらに検証するために、vimarをLlava-onevision-qwen2-7bの発電を操縦するように適応させ、キャプション品質の一貫した改善と堅牢なクロスモデルガイダンスを実証します。
このクロスモデルの一般化は、Vimarの柔軟性とモジュール性を強調し、スケーラブルで転送可能な推論時間デコード戦略として配置します。
さらに、Vimar生成されたキャプションが自己訓練に使用される場合、基礎となるモデルは、幅広い視覚的理解ベンチマークにわたって大幅な利益を達成し、高速で正確で自己改善するVLMパイプラインの可能性を強調します。

要約(オリジナル)

Despite significant advances in inference-time search for vision-language models (VLMs), existing approaches remain both computationally expensive and prone to unpenalized, low-confidence generations which often lead to persistent hallucinations. We introduce \textbf{Value-guided Inference with Margin-based Reward (ViMaR)}, a two-stage inference framework that improves both efficiency and output fidelity by combining a temporal-difference value model with a margin-aware reward adjustment. In the first stage, we perform a single pass to identify the highest-value caption among diverse candidates. In the second stage, we selectively refine only those segments that were overlooked or exhibit weak visual grounding, thereby eliminating frequently rewarded evaluations. A calibrated margin-based penalty discourages low-confidence continuations while preserving descriptive richness. Extensive experiments across multiple VLM architectures demonstrate that ViMaR generates captions that are significantly more reliable, factually accurate, detailed, and explanatory, while achieving over 4$\times$ speedup compared to existing value-guided methods. Specifically, we show that ViMaR trained solely on LLaVA Mistral-7B, \textit{generalizes effectively to guide decoding in a stronger unseen model}. To further validate this, we adapt the ViMaR to steer generation in LLaVA-OneVision-Qwen2-7B, leading to consistent improvements in caption quality and demonstrating robust cross-model guidance. This cross-model generalization highlights ViMaR’s flexibility and modularity, positioning it as a scalable and transferable inference-time decoding strategy. Furthermore, when ViMaR-generated captions are used for self-training, the underlying models achieve substantial gains across a broad suite of visual comprehension benchmarks, underscoring the potential of fast, accurate, and self-improving VLM pipelines.

arxiv情報

著者 Ankan Deria,Adinath Madhavrao Dukre,Feilong Tang,Sara Atito,Sudipta Roy,Muhammad Awais,Muhammad Haris Khan,Imran Razzak
発行日 2025-06-18 17:23:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Dual-Stage Value-Guided Inference with Margin-Based Reward Adjustment for Fast and Faithful VLM Captioning はコメントを受け付けていません

Cosmos-Drive-Dreams: Scalable Synthetic Driving Data Generation with World Foundation Models

要約

自律車両(AV)などの安全性が批判的な物理AIシステムの実世界データを収集および注釈することは、時間がかかり、費用がかかります。
AVシステムのトレーニングとテストに重要な役割を果たすレアエッジケースをキャプチャすることは特に困難です。
この課題に対処するために、Cosmos-drive-dreams-on Syntetic Data Generation(SDG)パイプラインを紹介します。このパイプラインは、挑戦的なシナリオを生成して、認識や運転政策トレーニングなどのダウンストリームタスクを促進することを目的としています。
このパイプラインの動力は、駆動ドメイン向けのNvidia Cosmos World Foundationモデルから特化したモデルのスイートであり、制御可能で高忠実度、マルチビュー、および空間的に一貫したドライビングビデオ生成が可能です。
Cosmos-drive-dreamsを適用して、高忠実度と挑戦的なシナリオで運転データセットの量と多様性を拡大することにより、これらのモデルの有用性を紹介します。
実験的に、生成されたデータは、長期尾の分布の問題の緩和に役立ち、3Dレーン検出、3Dオブジェクト検出、ポリシー学習の促進などの下流タスクの一般化を強化することを実証します。
NvidiaのCosmosプラットフォームを介して、パイプラインツールキット、データセット、モデルの重みをオープンします。
プロジェクトページ:https://research.nvidia.com/labs/toronto-ai/cosmos_drive_dreams

要約(オリジナル)

Collecting and annotating real-world data for safety-critical physical AI systems, such as Autonomous Vehicle (AV), is time-consuming and costly. It is especially challenging to capture rare edge cases, which play a critical role in training and testing of an AV system. To address this challenge, we introduce the Cosmos-Drive-Dreams – a synthetic data generation (SDG) pipeline that aims to generate challenging scenarios to facilitate downstream tasks such as perception and driving policy training. Powering this pipeline is Cosmos-Drive, a suite of models specialized from NVIDIA Cosmos world foundation model for the driving domain and are capable of controllable, high-fidelity, multi-view, and spatiotemporally consistent driving video generation. We showcase the utility of these models by applying Cosmos-Drive-Dreams to scale the quantity and diversity of driving datasets with high-fidelity and challenging scenarios. Experimentally, we demonstrate that our generated data helps in mitigating long-tail distribution problems and enhances generalization in downstream tasks such as 3D lane detection, 3D object detection and driving policy learning. We open source our pipeline toolkit, dataset and model weights through the NVIDIA’s Cosmos platform. Project page: https://research.nvidia.com/labs/toronto-ai/cosmos_drive_dreams

arxiv情報

著者 Xuanchi Ren,Yifan Lu,Tianshi Cao,Ruiyuan Gao,Shengyu Huang,Amirmojtaba Sabour,Tianchang Shen,Tobias Pfaff,Jay Zhangjie Wu,Runjian Chen,Seung Wook Kim,Jun Gao,Laura Leal-Taixe,Mike Chen,Sanja Fidler,Huan Ling
発行日 2025-06-18 17:37:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Cosmos-Drive-Dreams: Scalable Synthetic Driving Data Generation with World Foundation Models はコメントを受け付けていません

UniRelight: Learning Joint Decomposition and Synthesis for Video Relighting

要約

単一の画像またはビデオを再照合するという課題に対処します。これは、正確なシーンの固有の理解と高品質の光輸送合成を要求するタスクです。
既存のエンドツーエンドの学習モデルは、多くの場合、ペアの多照合データの希少性によって制限され、多様なシーン全体に一般化する能力を制限します。
逆に、逆レンダリングとフォワードレンダリングを組み合わせた2段階のパイプラインは、データ要件を軽減できますが、エラーの蓄積の影響を受けやすく、複雑な照明条件下または洗練された材料で現実的な出力を生成できないことがよくあります。
この作業では、Albedoを共同で推定し、単一のパスでRelit Outputsを合成する汎用アプローチを導入し、ビデオ拡散モデルの生成機能を活用します。
この共同製剤は、暗黙のシーンの理解を高め、現実的な照明効果の作成と、影、反射、透明性などの複雑な材料相互作用を促進します。
合成マルチ照明データと自動的にラベル付けされた広範な実世界ビデオでトレーニングされたこのモデルは、多様なドメイン全体で強力な一般化を示し、視覚的忠実度と時間的一貫性の両方で以前の方法を上回ります。

要約(オリジナル)

We address the challenge of relighting a single image or video, a task that demands precise scene intrinsic understanding and high-quality light transport synthesis. Existing end-to-end relighting models are often limited by the scarcity of paired multi-illumination data, restricting their ability to generalize across diverse scenes. Conversely, two-stage pipelines that combine inverse and forward rendering can mitigate data requirements but are susceptible to error accumulation and often fail to produce realistic outputs under complex lighting conditions or with sophisticated materials. In this work, we introduce a general-purpose approach that jointly estimates albedo and synthesizes relit outputs in a single pass, harnessing the generative capabilities of video diffusion models. This joint formulation enhances implicit scene comprehension and facilitates the creation of realistic lighting effects and intricate material interactions, such as shadows, reflections, and transparency. Trained on synthetic multi-illumination data and extensive automatically labeled real-world videos, our model demonstrates strong generalization across diverse domains and surpasses previous methods in both visual fidelity and temporal consistency.

arxiv情報

著者 Kai He,Ruofan Liang,Jacob Munkberg,Jon Hasselgren,Nandita Vijaykumar,Alexander Keller,Sanja Fidler,Igor Gilitschenski,Zan Gojcic,Zian Wang
発行日 2025-06-18 17:56:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | UniRelight: Learning Joint Decomposition and Synthesis for Video Relighting はコメントを受け付けていません

Sekai: A Video Dataset towards World Exploration

要約

ビデオ生成技術は驚くべき進歩を遂げており、インタラクティブな世界探査の基盤となることを約束しています。
ただし、既存のビデオ生成データセットは、限られた場所、短い期間、静的シーン、探査と世界に関する注釈の欠如など、いくつかの制限に悩まされているため、世界の探査トレーニングには適していません。
この論文では、世界の探検のための豊富な注釈を備えた高品質の一人称ビューワールドワイドビデオデータセットであるSekai(日本語で「世界」を意味する)を紹介します。
これは、750の都市の100を超える国と地域からの5,000時間以上のウォーキングまたはドローンビュー(FPVおよびUVA)ビデオで構成されています。
場所、シーン、天気、群衆の密度、キャプション、カメラの軌跡を収集、前処理、注釈を付けるための効率的で効果的なツールボックスを開発します。
実験は、データセットの品質を示しています。
また、サブセットを使用して、Yume(日本語で「Dream」を意味する)という名前のインタラクティブなビデオ世界探索モデルをトレーニングします。
Sekaiはビデオ生成と世界探査の分野に利益をもたらし、貴重なアプリケーションを動機付けると信じています。

要約(オリジナル)

Video generation techniques have made remarkable progress, promising to be the foundation of interactive world exploration. However, existing video generation datasets are not well-suited for world exploration training as they suffer from some limitations: limited locations, short duration, static scenes, and a lack of annotations about exploration and the world. In this paper, we introduce Sekai (meaning “world” in Japanese), a high-quality first-person view worldwide video dataset with rich annotations for world exploration. It consists of over 5,000 hours of walking or drone view (FPV and UVA) videos from over 100 countries and regions across 750 cities. We develop an efficient and effective toolbox to collect, pre-process and annotate videos with location, scene, weather, crowd density, captions, and camera trajectories. Experiments demonstrate the quality of the dataset. And, we use a subset to train an interactive video world exploration model, named YUME (meaning “dream” in Japanese). We believe Sekai will benefit the area of video generation and world exploration, and motivate valuable applications.

arxiv情報

著者 Zhen Li,Chuanhao Li,Xiaofeng Mao,Shaoheng Lin,Ming Li,Shitian Zhao,Zhaopan Xu,Xinyue Li,Yukang Feng,Jianwen Sun,Zizhen Li,Fanrui Zhang,Jiaxin Ai,Zhixiang Wang,Yuwei Wu,Tong He,Jiangmiao Pang,Yu Qiao,Yunde Jia,Kaipeng Zhang
発行日 2025-06-18 17:57:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Sekai: A Video Dataset towards World Exploration はコメントを受け付けていません