Diffusion Domain Teacher: Diffusion Guided Domain Adaptive Object Detector

要約

物体検出器は、学習データ(ソースドメイン)と実世界データ(ターゲットドメイン)のドメインギャップが大きいため、しばしば性能低下に悩まされる。拡散に基づく生成モデルは、高品質で多様な画像を生成する顕著な能力を示しており、様々なドメインから価値ある特徴を抽出する可能性を示唆している。本論文では、拡散モデルのクロスドメイン特徴表現を効果的に活用するために、ソースドメイン上で凍結重み拡散モデルを用いて検出器を学習し、ラベル付けされていないターゲットドメイン上で擬似ラベルを生成する教師モデルとして採用する。このアプローチを拡散ドメイン教師(Diffusion Domain Teacher: DDT)と呼ぶ。この簡単かつ強力なフレームワークを採用することで、推論速度を損なうことなく、領域横断的な物体検出性能を大幅に向上させる。我々の手法は、3つの一般的なクロスドメイン検出ベンチマーク(Cross-Camera, Syn2Real, Real2Artistic}の6つのデータセットにおいて、ベースラインと比較して平均21.2%のmAP改善を達成し、現在の最先端(SOTA)手法を平均5.7%のmAPで上回る。さらに、広範な実験により、我々の手法が、より強力で複雑なモデルにおいても一貫して改善をもたらすことが実証され、我々のDDTの広く適用可能で効果的なドメイン適応能力が強調された。コードはhttps://github.com/heboyong/Diffusion-Domain-Teacher。

要約(オリジナル)

Object detectors often suffer a decrease in performance due to the large domain gap between the training data (source domain) and real-world data (target domain). Diffusion-based generative models have shown remarkable abilities in generating high-quality and diverse images, suggesting their potential for extracting valuable feature from various domains. To effectively leverage the cross-domain feature representation of diffusion models, in this paper, we train a detector with frozen-weight diffusion model on the source domain, then employ it as a teacher model to generate pseudo labels on the unlabeled target domain, which are used to guide the supervised learning of the student model on the target domain. We refer to this approach as Diffusion Domain Teacher (DDT). By employing this straightforward yet potent framework, we significantly improve cross-domain object detection performance without compromising the inference speed. Our method achieves an average mAP improvement of 21.2% compared to the baseline on 6 datasets from three common cross-domain detection benchmarks (Cross-Camera, Syn2Real, Real2Artistic}, surpassing the current state-of-the-art (SOTA) methods by an average of 5.7% mAP. Furthermore, extensive experiments demonstrate that our method consistently brings improvements even in more powerful and complex models, highlighting broadly applicable and effective domain adaptation capability of our DDT. The code is available at https://github.com/heboyong/Diffusion-Domain-Teacher.

arxiv情報

著者 Boyong He,Yuxiang Ji,Zhuoyue Tan,Liaoni Wu
発行日 2025-06-04 17:56:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | Diffusion Domain Teacher: Diffusion Guided Domain Adaptive Object Detector はコメントを受け付けていません

FullDiT2: Efficient In-Context Conditioning for Video Diffusion Transformers

要約

ビデオ拡散変換器におけるきめ細かく効率的な制御可能性は、その適用性に対する要望を高めている。最近、In-context Conditioningが、統一された条件付きビデオ生成のための強力なパラダイムとして登場した。これは、様々なコンテキストコンディショニング信号をノイズの多いビデオ潜在情報と長い統一トークンシーケンスに連結し、FullDiTなどのフルアテンションを介してそれらを共同処理することにより、多様な制御を可能にする。その有効性にもかかわらず、これらの方法は、タスクの複雑さが増すにつれて二次的な計算オーバーヘッドに直面し、実用的な展開の妨げとなっている。本論文では、オリジナルのインコンテキストコンディショニングビデオ生成フレームワークで無視されている効率性のボトルネックを研究する。まず体系的な分析により、計算の非効率性の2つの主要な原因を特定する。すなわち、コンテキスト条件トークン内の固有の冗長性と、拡散プロセス全体を通してのコンテキストと潜在的な相互作用における計算の冗長性である。これらの洞察に基づき、我々はFullDiT2を提案する。FullDiT2は、ビデオ生成と編集タスクの両方における一般的な制御性のための効率的なコンテキスト内条件付けフレームワークであり、2つの重要な観点から革新的である。第一に、トークンの冗長性に対処するため、FullDiT2は動的トークン選択メカニズムを活用し、重要なコンテキスト・トークンを適応的に識別し、統一的なフルアテンションのためのシーケンス長を短縮する。さらに、選択的コンテキストキャッシングメカニズムを考案し、条件トークンとビデオ潜在との間の冗長な相互作用を最小化する。6つの多様な条件付きビデオ編集・生成タスクに関する広範な実験により、FullDiT2が、ビデオ生成品質の劣化を最小限に抑え、あるいはさらに高い性能で、拡散ステップあたりの平均時間コストにおいて、大幅な計算削減と2〜3倍の高速化を達成することが実証された。プロジェクト・ページは 〚https://fulldit2.github.io/}{https://fulldit2.github.io/} にあります。

要約(オリジナル)

Fine-grained and efficient controllability on video diffusion transformers has raised increasing desires for the applicability. Recently, In-context Conditioning emerged as a powerful paradigm for unified conditional video generation, which enables diverse controls by concatenating varying context conditioning signals with noisy video latents into a long unified token sequence and jointly processing them via full-attention, e.g., FullDiT. Despite their effectiveness, these methods face quadratic computation overhead as task complexity increases, hindering practical deployment. In this paper, we study the efficiency bottleneck neglected in original in-context conditioning video generation framework. We begin with systematic analysis to identify two key sources of the computation inefficiencies: the inherent redundancy within context condition tokens and the computational redundancy in context-latent interactions throughout the diffusion process. Based on these insights, we propose FullDiT2, an efficient in-context conditioning framework for general controllability in both video generation and editing tasks, which innovates from two key perspectives. Firstly, to address the token redundancy, FullDiT2 leverages a dynamic token selection mechanism to adaptively identify important context tokens, reducing the sequence length for unified full-attention. Additionally, a selective context caching mechanism is devised to minimize redundant interactions between condition tokens and video latents. Extensive experiments on six diverse conditional video editing and generation tasks demonstrate that FullDiT2 achieves significant computation reduction and 2-3 times speedup in averaged time cost per diffusion step, with minimal degradation or even higher performance in video generation quality. The project page is at \href{https://fulldit2.github.io/}{https://fulldit2.github.io/}.

arxiv情報

著者 Xuanhua He,Quande Liu,Zixuan Ye,Wecai Ye,Qiulin Wang,Xintao Wang,Qifeng Chen,Pengfei Wan,Di Zhang,Kun Gai
発行日 2025-06-04 17:57:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | FullDiT2: Efficient In-Context Conditioning for Video Diffusion Transformers はコメントを受け付けていません

Sounding that Object: Interactive Object-Aware Image to Audio Generation

要約

複雑なオーディオビジュアルシーンに対して正確なサウンドを生成することは、特に複数のオブジェクトや音源が存在する場合には困難である。本論文では、画像内のユーザが選択した視覚オブジェクトにサウンド生成を根拠づける{em interactive object-aware audio generation}モデルを提案する。本手法は、オブジェクト中心の学習を条件付き潜在拡散モデルに統合し、マルチモーダルな注意を通じて、画像領域と対応する音を関連付けることを学習する。テスト時に、我々のモデルは画像セグメンテーションを採用して、ユーザが{em object}レベルで音をインタラクティブに生成できるようにする。我々は、我々の注意メカニズムがテスト時のセグメンテーションマスクを機能的に近似し、生成された音声が選択されたオブジェクトと確実に一致することを理論的に検証する。定量的かつ定性的な評価により、我々のモデルがベースラインを上回り、オブジェクトとそれに関連する音との間のより良い位置合わせを達成することが示された。プロジェクトページ: https://tinglok.netlify.app/files/avobject/

要約(オリジナル)

Generating accurate sounds for complex audio-visual scenes is challenging, especially in the presence of multiple objects and sound sources. In this paper, we propose an {\em interactive object-aware audio generation} model that grounds sound generation in user-selected visual objects within images. Our method integrates object-centric learning into a conditional latent diffusion model, which learns to associate image regions with their corresponding sounds through multi-modal attention. At test time, our model employs image segmentation to allow users to interactively generate sounds at the {\em object} level. We theoretically validate that our attention mechanism functionally approximates test-time segmentation masks, ensuring the generated audio aligns with selected objects. Quantitative and qualitative evaluations show that our model outperforms baselines, achieving better alignment between objects and their associated sounds. Project page: https://tinglok.netlify.app/files/avobject/

arxiv情報

著者 Tingle Li,Baihe Huang,Xiaobin Zhuang,Dongya Jia,Jiawei Chen,Yuping Wang,Zhuo Chen,Gopala Anumanchipalli,Yuxuan Wang
発行日 2025-06-04 17:57:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG, cs.MM, cs.SD, eess.AS | Sounding that Object: Interactive Object-Aware Image to Audio Generation はコメントを受け付けていません

UNIC: Unified In-Context Video Editing

要約

テキストからビデオへの生成における最近の進歩は、生成的なビデオ編集タスクへの関心を呼び起こした。これまでの手法では、タスクに特化したアーキテクチャ(アダプタモジュールの追加など)や専用のカスタマイズ(DDIMの反転など)に依存することが多く、汎用的な編集条件の統合や様々な編集タスクの統一が制限されていた。本論文では、UNIC(UNified In-Context Video Editing)を紹介する。UNICは、多様なビデオ編集タスクをインコンテキスト方式で単一のモデル内に統合する、シンプルかつ効果的なフレームワークである。この統一を達成するために、我々は様々なビデオ編集タスクの入力を3種類のトークンとして表現する:ソースビデオトークン、ノイズビデオ潜在トークン、そして特定の編集タスクに応じて変化するマルチモーダル条件付けトークンである。この定式化に基づいて、我々の重要な洞察は、これらの3つのタイプを単一の連続したトークン列に統合し、DiTのネイティブな注意操作を使用してそれらを共同でモデル化することで、タスク固有のアダプタ設計を不要にすることである。とはいえ、このフレームワークの下での直接的なタスクの統一は困難であり、トークンの衝突や、タスク間の様々なビデオ長や多様な条件モダリティによるタスクの混乱を引き起こす。これらに対処するため、我々は、一貫した時間的位置エンコーディングを促進するタスク認識RoPEと、モデルが異なる編集タスクを明確に区別できるようにする条件バイアスを導入する。これにより、本アプローチは、ソースビデオと様々な条件トークンを「文脈の中で」参照することで、異なるビデオ編集タスクを適応的に実行し、柔軟なタスク構成をサポートする。本手法を検証するために、6つの代表的なビデオ編集タスクを含む統一的なビデオ編集ベンチマークを構築する。その結果、我々の統一的アプローチは各タスクにおいて優れた性能を達成し、創発的なタスク構成能力を示すことが実証された。

要約(オリジナル)

Recent advances in text-to-video generation have sparked interest in generative video editing tasks. Previous methods often rely on task-specific architectures (e.g., additional adapter modules) or dedicated customizations (e.g., DDIM inversion), which limit the integration of versatile editing conditions and the unification of various editing tasks. In this paper, we introduce UNified In-Context Video Editing (UNIC), a simple yet effective framework that unifies diverse video editing tasks within a single model in an in-context manner. To achieve this unification, we represent the inputs of various video editing tasks as three types of tokens: the source video tokens, the noisy video latent, and the multi-modal conditioning tokens that vary according to the specific editing task. Based on this formulation, our key insight is to integrate these three types into a single consecutive token sequence and jointly model them using the native attention operations of DiT, thereby eliminating the need for task-specific adapter designs. Nevertheless, direct task unification under this framework is challenging, leading to severe token collisions and task confusion due to the varying video lengths and diverse condition modalities across tasks. To address these, we introduce task-aware RoPE to facilitate consistent temporal positional encoding, and condition bias that enables the model to clearly differentiate different editing tasks. This allows our approach to adaptively perform different video editing tasks by referring the source video and varying condition tokens ‘in context’, and support flexible task composition. To validate our method, we construct a unified video editing benchmark containing six representative video editing tasks. Results demonstrate that our unified approach achieves superior performance on each task and exhibits emergent task composition abilities.

arxiv情報

著者 Zixuan Ye,Xuanhua He,Quande Liu,Qiulin Wang,Xintao Wang,Pengfei Wan,Di Zhang,Kun Gai,Qifeng Chen,Wenhan Luo
発行日 2025-06-04 17:57:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | UNIC: Unified In-Context Video Editing はコメントを受け付けていません

Pseudo-Simulation for Autonomous Driving

要約

自律走行車(AV)に対する既存の評価パラダイムは、決定的な限界に直面している。実世界での評価は、安全性への懸念や再現性の欠如のためにしばしば困難であり、一方、クローズドループシミュレーションは、不十分なリアリズムや高い計算コストに直面する可能性がある。オープンループ評価は、効率的でデータ駆動型である一方で、一般に複合誤差を見落とすメトリクスに依存している。本論文では、これらの限界に対処する新しいパラダイムである擬似シミュレーションを提案する。擬似シミュレーションは、オープンループ評価と同様に実データセット上で動作するが、3Dガウススプラッティングを用いて評価前に生成された合成観測でそれらを補強する。我々の重要なアイデアは、位置、方位、速度が異なる多様な観測セットを生成することで、AVが遭遇する可能性のある将来の状態を近似することです。次に、我々の方法は、新しい近接ベースの重み付けスキームを使用して、AVの可能性の高い動作に最も一致する合成観測に高い重要度を割り当てます。これにより、逐次的な対話型シミュレーションを必要とすることなく、クローズドループベンチマークにおけるように、エラーリカバリーと因果的混同の緩和を評価することができる。擬似シミュレーションは、既存の最も優れたオープンループアプローチ(R^2=0.7)よりも、クローズドループシミュレーション(R^2=0.8)との相関が高いことを示す。また、擬似シミュレーションを用いた新しい手法のベンチマークを行うために、コミュニティーのリーダーボードを公開しています。我々のコードはhttps://github.com/autonomousvision/navsim。

要約(オリジナル)

Existing evaluation paradigms for Autonomous Vehicles (AVs) face critical limitations. Real-world evaluation is often challenging due to safety concerns and a lack of reproducibility, whereas closed-loop simulation can face insufficient realism or high computational costs. Open-loop evaluation, while being efficient and data-driven, relies on metrics that generally overlook compounding errors. In this paper, we propose pseudo-simulation, a novel paradigm that addresses these limitations. Pseudo-simulation operates on real datasets, similar to open-loop evaluation, but augments them with synthetic observations generated prior to evaluation using 3D Gaussian Splatting. Our key idea is to approximate potential future states the AV might encounter by generating a diverse set of observations that vary in position, heading, and speed. Our method then assigns a higher importance to synthetic observations that best match the AV’s likely behavior using a novel proximity-based weighting scheme. This enables evaluating error recovery and the mitigation of causal confusion, as in closed-loop benchmarks, without requiring sequential interactive simulation. We show that pseudo-simulation is better correlated with closed-loop simulations (R^2=0.8) than the best existing open-loop approach (R^2=0.7). We also establish a public leaderboard for the community to benchmark new methodologies with pseudo-simulation. Our code is available at https://github.com/autonomousvision/navsim.

arxiv情報

著者 Wei Cao,Marcel Hallgarten,Tianyu Li,Daniel Dauner,Xunjiang Gu,Caojun Wang,Yakov Miron,Marco Aiello,Hongyang Li,Igor Gilitschenski,Boris Ivanovic,Marco Pavone,Andreas Geiger,Kashyap Chitta
発行日 2025-06-04 17:57:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | Pseudo-Simulation for Autonomous Driving はコメントを受け付けていません

Struct2D: A Perception-Guided Framework for Spatial Reasoning in Large Multimodal Models

要約

大規模マルチモーダルモデル(LMM)における空間推論を解き明かすことは、3D環境とのインテリジェントなインタラクションを可能にするために極めて重要である。これまでの取り組みでは、明示的な3D入力や特殊なモデルアーキテクチャに依存することが多かったが、我々は、知覚に由来する構造化された2D表現のみを用いて、LMMが3D空間について推論できるのか?Struct2Dは、鳥瞰(BEV)画像と物体マークおよび物体中心のメタデータを組み合わせた知覚誘導型プロンプティングフレームワークである。Struct2Dを用いて、クローズドソースのLMM(GPT-o3など)の徹底的なゼロショット解析を行い、構造化された2次元入力が与えられた場合に、驚くほど強力な空間推論能力を示し、相対的な方向推定や経路計画などのタスクを効果的に処理することを発見した。これらの洞察に基づき、我々はStruct2D-Setを構築する。Struct2D-Setは、3D室内シーンから自動的に生成された、8つの空間推論カテゴリにわたる200Kのきめ細かいQAペアを持つ大規模な命令チューニングデータセットである。我々は、Struct2D-Set上でオープンソースのLMM(Qwen2.5VL)をファインチューニングし、3D質問応答、高密度キャプション、オブジェクトグラウンディングを含む複数のベンチマークで競争力のある性能を達成した。我々のアプローチは、構造化された2D入力が、明示的な3D表現を入力として必要とすることなく、LMMにおける知覚と言語推論の橋渡しを効果的に行えることを実証している。今後の研究を支援するため、コードとデータセットの両方を公開する予定である。

要約(オリジナル)

Unlocking spatial reasoning in Large Multimodal Models (LMMs) is crucial for enabling intelligent interaction with 3D environments. While prior efforts often rely on explicit 3D inputs or specialized model architectures, we ask: can LMMs reason about 3D space using only structured 2D representations derived from perception? We introduce Struct2D, a perception-guided prompting framework that combines bird’s-eye-view (BEV) images with object marks and object-centric metadata, optionally incorporating egocentric keyframes when needed. Using Struct2D, we conduct an in-depth zero-shot analysis of closed-source LMMs (e.g., GPT-o3) and find that they exhibit surprisingly strong spatial reasoning abilities when provided with structured 2D inputs, effectively handling tasks such as relative direction estimation and route planning. Building on these insights, we construct Struct2D-Set, a large-scale instruction tuning dataset with 200K fine-grained QA pairs across eight spatial reasoning categories, generated automatically from 3D indoor scenes. We fine-tune an open-source LMM (Qwen2.5VL) on Struct2D-Set, achieving competitive performance on multiple benchmarks, including 3D question answering, dense captioning, and object grounding. Our approach demonstrates that structured 2D inputs can effectively bridge perception and language reasoning in LMMs-without requiring explicit 3D representations as input. We will release both our code and dataset to support future research.

arxiv情報

著者 Fangrui Zhu,Hanhui Wang,Yiming Xie,Jing Gu,Tianye Ding,Jianwei Yang,Huaizu Jiang
発行日 2025-06-04 17:58:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | Struct2D: A Perception-Guided Framework for Spatial Reasoning in Large Multimodal Models はコメントを受け付けていません

Seeing in the Dark: Benchmarking Egocentric 3D Vision with the Oxford Day-and-Night Dataset

要約

オックスフォード・デイ・アンド・ナイト(Oxford Day-and-Night)を紹介する。オックスフォード・デイ・アンド・ナイト(Oxford Day-and-Night)は、困難な照明条件下での新規視点合成(NVS)と視覚的再局在化のための大規模な自心データセットである。既存のデータセットには、グラウンドトゥルースの3Dジオメトリ、広範囲な照明変動、完全な6DoFモーションなど、重要な特徴の組み合わせが欠けていることが多い。Oxford Day-and-Nightは、Meta ARIAグラスを活用して自心ビデオをキャプチャし、マルチセッションSLAMを適用してカメラのポーズを推定し、3Dポイントクラウドを再構築し、昼夜を含む様々な照明条件下でキャプチャされたシーケンスを整列させることで、これらのギャップに対処します。このデータセットは、記録された軌跡が30以上、面積が40,000 $mathrm{km}^2$に及び、エゴセントリック3Dビジョン研究のための豊富な基盤を提供する。NVSと再局在化という2つのコア・ベンチマークをサポートしており、現実的で多様な環境でモデルを評価するためのユニークなプラットフォームを提供する。

要約(オリジナル)

We introduce Oxford Day-and-Night, a large-scale, egocentric dataset for novel view synthesis (NVS) and visual relocalisation under challenging lighting conditions. Existing datasets often lack crucial combinations of features such as ground-truth 3D geometry, wide-ranging lighting variation, and full 6DoF motion. Oxford Day-and-Night addresses these gaps by leveraging Meta ARIA glasses to capture egocentric video and applying multi-session SLAM to estimate camera poses, reconstruct 3D point clouds, and align sequences captured under varying lighting conditions, including both day and night. The dataset spans over 30 $\mathrm{km}$ of recorded trajectories and covers an area of 40,000 $\mathrm{m}^2$, offering a rich foundation for egocentric 3D vision research. It supports two core benchmarks, NVS and relocalisation, providing a unique platform for evaluating models in realistic and diverse environments.

arxiv情報

著者 Zirui Wang,Wenjing Bian,Xinghui Li,Yifu Tao,Jianeng Wang,Maurice Fallon,Victor Adrian Prisacariu
発行日 2025-06-04 17:59:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | Seeing in the Dark: Benchmarking Egocentric 3D Vision with the Oxford Day-and-Night Dataset はコメントを受け付けていません

Voyager: Long-Range and World-Consistent Video Diffusion for Explorable 3D Scene Generation

要約

ビデオゲームやバーチャルリアリティのような実世界のアプリケーションでは、ユーザがカスタムカメラの軌跡に沿って探索できる3Dシーンをモデル化する能力が求められることが多い。テキストや画像から3Dオブジェクトを生成することには大きな進歩があったが、長距離で3D一貫性のある探索可能な3Dシーンを生成することは、依然として複雑で困難な問題である。本研究では、ユーザが定義したカメラ軌道を持つ1枚の画像から、ワールドコンシステントな3D点群シーケンスを生成する、新しいビデオ拡散フレームワークであるVoyagerを紹介する。既存のアプローチとは異なり、Voyagerは、3D再構成パイプライン(例えば、動きからの構造やマルチビューステレオ)の必要性を排除し、フレーム間で固有の一貫性を持つエンドツーエンドのシーン生成と再構成を達成する。我々の手法は3つの重要なコンポーネントを統合している:1) ワールドコンシステントビデオ拡散:グローバルな一貫性を確保するために、既存の世界観測を条件として、整列されたRGBと深度ビデオシーケンスを共同で生成する統一アーキテクチャ 2)長距離ワールド探索:3)スケーラブルなデータエンジン:任意の動画に対するカメラポーズ推定とメトリック深度予測を自動化する動画再構成パイプラインにより、手作業による3Dアノテーションを行うことなく、大規模で多様な学習データのキュレーションを可能にする。これらの設計を組み合わせることで、視覚的な品質と幾何学的な精度において既存の手法よりも明らかに向上し、多目的な応用が可能になります。

要約(オリジナル)

Real-world applications like video gaming and virtual reality often demand the ability to model 3D scenes that users can explore along custom camera trajectories. While significant progress has been made in generating 3D objects from text or images, creating long-range, 3D-consistent, explorable 3D scenes remains a complex and challenging problem. In this work, we present Voyager, a novel video diffusion framework that generates world-consistent 3D point-cloud sequences from a single image with user-defined camera path. Unlike existing approaches, Voyager achieves end-to-end scene generation and reconstruction with inherent consistency across frames, eliminating the need for 3D reconstruction pipelines (e.g., structure-from-motion or multi-view stereo). Our method integrates three key components: 1) World-Consistent Video Diffusion: A unified architecture that jointly generates aligned RGB and depth video sequences, conditioned on existing world observation to ensure global coherence 2) Long-Range World Exploration: An efficient world cache with point culling and an auto-regressive inference with smooth video sampling for iterative scene extension with context-aware consistency, and 3) Scalable Data Engine: A video reconstruction pipeline that automates camera pose estimation and metric depth prediction for arbitrary videos, enabling large-scale, diverse training data curation without manual 3D annotations. Collectively, these designs result in a clear improvement over existing methods in visual quality and geometric accuracy, with versatile applications.

arxiv情報

著者 Tianyu Huang,Wangguandong Zheng,Tengfei Wang,Yuhao Liu,Zhenwei Wang,Junta Wu,Jie Jiang,Hui Li,Rynson W. H. Lau,Wangmeng Zuo,Chunchao Guo
発行日 2025-06-04 17:59:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | Voyager: Long-Range and World-Consistent Video Diffusion for Explorable 3D Scene Generation はコメントを受け付けていません

Object-centric 3D Motion Field for Robot Learning from Human Videos

要約

人間の映像からロボットの制御方針を学習することは、ロボット学習のスケールアップのための有望な方向性である。しかし、どのように動画から行動知識(または行動表現)を抽出して学習するかが重要な課題として残っている。ビデオフレーム、ピクセルフロー、ポイントクラウドフローなどの既存の行動表現には、モデルの複雑さや情報の損失などの固有の限界がある。本論文では、人間の動画からロボットが学習するために、物体中心の3次元運動場を用いて行動を表現することを提案し、ゼロショット制御のために動画からこの表現を抽出するための新しいフレームワークを提示する。その実装において、2つの新しい構成要素を導入する。第一に、ノイズの多い奥行きのある人間の映像から細かいオブジェクトの3Dモーションをロバストに抽出するための”ノイズ除去”3Dモーションフィールド推定器を訓練するための新しい訓練パイプラインである。第二に、エンボディメント間の伝達と背景に対するポリシーの汎化の両方に有利な、高密度なオブジェクト中心の3D運動場予測アーキテクチャである。実世界のセットアップでシステムを評価する。実験により、本手法が最新の手法と比較して、3D運動推定誤差を50%以上削減し、先行アプローチが失敗する多様なタスクで平均成功率55%を達成し、挿入のような細かい操作スキルも獲得できる。

要約(オリジナル)

Learning robot control policies from human videos is a promising direction for scaling up robot learning. However, how to extract action knowledge (or action representations) from videos for policy learning remains a key challenge. Existing action representations such as video frames, pixelflow, and pointcloud flow have inherent limitations such as modeling complexity or loss of information. In this paper, we propose to use object-centric 3D motion field to represent actions for robot learning from human videos, and present a novel framework for extracting this representation from videos for zero-shot control. We introduce two novel components in its implementation. First, a novel training pipeline for training a ”denoising” 3D motion field estimator to extract fine object 3D motions from human videos with noisy depth robustly. Second, a dense object-centric 3D motion field prediction architecture that favors both cross-embodiment transfer and policy generalization to background. We evaluate the system in real world setups. Experiments show that our method reduces 3D motion estimation error by over 50% compared to the latest method, achieve 55% average success rate in diverse tasks where prior approaches fail~($\lesssim 10$\%), and can even acquire fine-grained manipulation skills like insertion.

arxiv情報

著者 Zhao-Heng Yin,Sherry Yang,Pieter Abbeel
発行日 2025-06-04 17:59:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO, cs.SY, eess.SY | Object-centric 3D Motion Field for Robot Learning from Human Videos はコメントを受け付けていません

LayerFlow: A Unified Model for Layer-aware Video Generation

要約

レイヤーを意識したビデオ生成のための統合ソリューション、LayerFlowを紹介する。レイヤーごとのプロンプトが与えられると、LayerFlowは透明な前景、きれいな背景、ブレンドされたシーンのビデオを生成する。また、ブレンドされたビデオを分解したり、与えられた前景のために背景を生成したり、その逆のような多様なバリエーションもサポートする。テキストからビデオへの拡散変換から始めて、異なるレイヤーのビデオをサブクリップとして整理し、各クリップと対応するレイヤーごとのプロンプトを区別するためにレイヤー埋め込みを活用する。このようにして、1つの統一されたフレームワークで前述のバリエーションをシームレスにサポートする。高品質なレイヤーごとのトレーニング動画がないため、高品質なレイヤー注釈を持つ静止画像に対応するための多段階トレーニング戦略を設計する。具体的には、まず低品質のビデオデータでモデルを訓練する。次に、静止フレームに対応するように、モーションLoRAをチューニングする。その後、コンテンツLoRAを、コピーペーストされたビデオデータとともに、高品質なレイヤー画像を含む画像データの混合で訓練する。推論中、モーションLoRAを除去し、目的のレイヤーを持つ滑らかな動画を生成する。

要約(オリジナル)

We present LayerFlow, a unified solution for layer-aware video generation. Given per-layer prompts, LayerFlow generates videos for the transparent foreground, clean background, and blended scene. It also supports versatile variants like decomposing a blended video or generating the background for the given foreground and vice versa. Starting from a text-to-video diffusion transformer, we organize the videos for different layers as sub-clips, and leverage layer embeddings to distinguish each clip and the corresponding layer-wise prompts. In this way, we seamlessly support the aforementioned variants in one unified framework. For the lack of high-quality layer-wise training videos, we design a multi-stage training strategy to accommodate static images with high-quality layer annotations. Specifically, we first train the model with low-quality video data. Then, we tune a motion LoRA to make the model compatible with static frames. Afterward, we train the content LoRA on the mixture of image data with high-quality layered images along with copy-pasted video data. During inference, we remove the motion LoRA thus generating smooth videos with desired layers.

arxiv情報

著者 Sihui Ji,Hao Luo,Xi Chen,Yuanpeng Tu,Yiyang Wang,Hengshuang Zhao
発行日 2025-06-04 17:59:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | LayerFlow: A Unified Model for Layer-aware Video Generation はコメントを受け付けていません