Eagle: Exploring The Design Space for Multimodal LLMs with Mixture of Encoders

要約

複雑な視覚情報を正確に解釈する能力は、マルチモーダル大規模言語モデル(MLLM)の重要なテーマである。最近の研究では、視覚認識を強化することで、幻覚が大幅に減少し、光学式文字認識や文書解析のような解像度に敏感なタスクの性能が向上することが示されている。最近のMLLMの多くは、視覚エンコーダの混合を用いてこの目標を達成している。これらの成功にもかかわらず、専門家の選択や複数の視覚専門家の統合などの重要な側面を扱った体系的な比較や詳細なアブレーション研究が不足している。本研究は、視覚エンコーダと解像度の混合を用いたMLLMの設計空間の広範な探索を提供する。我々の発見は、既存の様々な戦略に共通するいくつかの基本原理を明らかにし、合理的かつ効果的な設計アプローチへと導く。我々は、相補的なビジョンエンコーダの集合からの視覚トークンを単純に連結することが、より複雑な混合アーキテクチャや戦略と同じくらい効果的であることを発見した。さらに、視覚に特化したエンコーダーと言語トークンとの間のギャップを埋めるために、プレアライメントを導入し、モデルの一貫性を強化する。その結果、EagleというMLLMファミリーは、主要なMLLMベンチマークにおいて、他の主要なオープンソースモデルを凌駕しています。

要約(オリジナル)

The ability to accurately interpret complex visual information is a crucial topic of multimodal large language models (MLLMs). Recent work indicates that enhanced visual perception significantly reduces hallucinations and improves performance on resolution-sensitive tasks, such as optical character recognition and document analysis. A number of recent MLLMs achieve this goal using a mixture of vision encoders. Despite their success, there is a lack of systematic comparisons and detailed ablation studies addressing critical aspects, such as expert selection and the integration of multiple vision experts. This study provides an extensive exploration of the design space for MLLMs using a mixture of vision encoders and resolutions. Our findings reveal several underlying principles common to various existing strategies, leading to a streamlined yet effective design approach. We discover that simply concatenating visual tokens from a set of complementary vision encoders is as effective as more complex mixing architectures or strategies. We additionally introduce Pre-Alignment to bridge the gap between vision-focused encoders and language tokens, enhancing model coherence. The resulting family of MLLMs, Eagle, surpasses other leading open-source models on major MLLM benchmarks.

arxiv情報

著者 Min Shi,Fuxiao Liu,Shihao Wang,Shijia Liao,Subhashree Radhakrishnan,Yilin Zhao,De-An Huang,Hongxu Yin,Karan Sapra,Yaser Yacoob,Humphrey Shi,Bryan Catanzaro,Andrew Tao,Jan Kautz,Zhiding Yu,Guilin Liu
発行日 2025-03-02 23:41:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | Eagle: Exploring The Design Space for Multimodal LLMs with Mixture of Encoders はコメントを受け付けていません

Learning Two-agent Motion Planning Strategies from Generalized Nash Equilibrium for Model Predictive Control

要約

これは、ゲーム理論的な相互作用の結果を予測する学習値関数を、モデル予測制御(MPC)フレームワークにおける最終的なコスト・ツー・ゴー関数として使用し、エージェントが他のエージェントとの相互作用を暗黙的に考慮し、報酬を最大化するように導く。このアプローチは、制約付き動的ゲームとして定式化された、競争的および協調的なマルチエージェント運動計画問題に適用される。制約付き動的ゲームが与えられた場合、初期条件をランダムにサンプリングし、一般化ナッシュ均衡(GNE)を解いてGNE解のデータセットを生成し、GNEから各ゲーム理論的相互作用の報酬結果を計算する。このデータを用いて、報酬結果を予測するための単純なニューラルネットワークを訓練し、MPCスキームにおける最終的なコスト・ツー・ゴー関数として使用する。IGT-MPCを用いた新しい競争行動と協調行動を、2台の車両による正面衝突レースや信号のない交差点のナビゲーションなどのシナリオで紹介する。IGT-MPCは、機械学習とゲーム理論的推論をモデルベースの分散型マルチエージェント運動計画に統合した新しい手法を提供する。

要約(オリジナル)

We introduce an Implicit Game-Theoretic MPC (IGT-MPC), a decentralized algorithm for two-agent motion planning that uses a learned value function that predicts the game-theoretic interaction outcomes as the terminal cost-to-go function in a model predictive control (MPC) framework, guiding agents to implicitly account for interactions with other agents and maximize their reward. This approach applies to competitive and cooperative multi-agent motion planning problems which we formulate as constrained dynamic games. Given a constrained dynamic game, we randomly sample initial conditions and solve for the generalized Nash equilibrium (GNE) to generate a dataset of GNE solutions, computing the reward outcome of each game-theoretic interaction from the GNE. The data is used to train a simple neural network to predict the reward outcome, which we use as the terminal cost-to-go function in an MPC scheme. We showcase emerging competitive and coordinated behaviors using IGT-MPC in scenarios such as two-vehicle head-to-head racing and un-signalized intersection navigation. IGT-MPC offers a novel method integrating machine learning and game-theoretic reasoning into model-based decentralized multi-agent motion planning.

arxiv情報

著者 Hansung Kim,Edward L. Zhu,Chang Seok Lim,Francesco Borrelli
発行日 2025-03-02 23:56:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.MA, cs.RO, cs.SY, eess.SY | Learning Two-agent Motion Planning Strategies from Generalized Nash Equilibrium for Model Predictive Control はコメントを受け付けていません

Fast Finite-Time Sliding Mode Control for Chattering-Free Trajectory Tracking of Robotic Manipulators

要約

従来のスライディングモード制御(SMC)では、システムの不確定性やチャタリングの影響により、ロボットアームにおいて正確で効率的な軌道追従を実現することは、依然として重要な課題である。本論文では、有限時間収束を確保しつつ、追従精度とロバスト性を向上させるために設計された、3自由度ロボットアーム用のチャタリングのない高速終端スライディングモード制御(FTSMC)戦略を紹介する。この制御フレームワークは、ニュートン・オイラー力学を用いて開発され、その後、システムの角位置と角速度を捉える状態空間表現が行われる。改良されたスライディングサーフェスとリアプノフに基づく安定性解析を組み込むことにより、提案するFTSMCは、高速応答や強力な外乱除去といったSMCの利点を維持しつつ、チャタリングを効果的に緩和する。従来のPDスライディングモード制御(PDSMC)やターミナルスライディングモード制御(TSMC)との比較を通じて、コントローラの性能を厳密に評価する。シミュレーションの結果、提案手法は既存の手法と比較して、優れた軌道追従性能、収束の高速化、安定性の向上を達成しており、高精度ロボットアプリケーション向けの有望なソリューションであることが実証された。

要約(オリジナル)

Achieving precise and efficient trajectory tracking in robotic arms remains a key challenge due to system uncertainties and chattering effects in conventional sliding mode control (SMC). This paper presents a chattering-free fast terminal sliding mode control (FTSMC) strategy for a three-degree-of-freedom (3-DOF) robotic arm, designed to enhance tracking accuracy and robustness while ensuring finite-time convergence. The control framework is developed using Newton-Euler dynamics, followed by a state-space representation that captures the system’s angular position and velocity. By incorporating an improved sliding surface and a Lyapunov-based stability analysis, the proposed FTSMC effectively mitigates chattering while preserving the advantages of SMC, such as fast response and strong disturbance rejection. The controller’s performance is rigorously evaluated through comparisons with conventional PD sliding mode control (PDSMC) and terminal sliding mode control (TSMC). Simulation results demonstrate that the proposed approach achieves superior trajectory tracking performance, faster convergence, and enhanced stability compared to existing methods, making it a promising solution for high-precision robotic applications.

arxiv情報

著者 Momammad Ali Ranjbar
発行日 2025-03-03 00:20:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.RO, cs.SY, eess.SY | Fast Finite-Time Sliding Mode Control for Chattering-Free Trajectory Tracking of Robotic Manipulators はコメントを受け付けていません

RobotFingerPrint: Unified Gripper Coordinate Space for Multi-Gripper Grasp Synthesis and Transfer

要約

我々は、把持合成と把持移動のための統一グリッパー座標空間(Unified Gripper Coordinate Space: UGCS)という新しい把持表現を紹介する。この表現では、球座標を活用し、異なるロボットグリッパー間で共有される座標空間を作成することで、新しい物体やこれまで見たことのないグリッパーの把持を合成し、伝達することを可能にします。この表現の強みは、グリッパーの手のひらと指をマッピングする能力と、統一された座標空間にある。把持合成は、条件付き変分オートエンコーダを介して、物体表面点の統一球座標を予測するように定式化される。予測された統一グリッパ座標は、グリッパと物体点間の正確な対応関係を確立し、把持ポーズと関節値を最適化するために使用される。把持移動は、任意の2つのグリッパー(潜在的に未見)間の点間対応によって促進され、同様の最適化によって解決されます。広範なシミュレーションと実世界での実験により、安定した多様な把持を生成するための統一的な把持表現の有効性が示されました。同様に、様々な対象物に対する人間の実演から、実際の把持の伝達を紹介します。

要約(オリジナル)

We introduce a novel grasp representation named the Unified Gripper Coordinate Space (UGCS) for grasp synthesis and grasp transfer. Our representation leverages spherical coordinates to create a shared coordinate space across different robot grippers, enabling it to synthesize and transfer grasps for both novel objects and previously unseen grippers. The strength of this representation lies in the ability to map palm and fingers of a gripper and the unified coordinate space. Grasp synthesis is formulated as predicting the unified spherical coordinates on object surface points via a conditional variational autoencoder. The predicted unified gripper coordinates establish exact correspondences between the gripper and object points, which is used to optimize grasp pose and joint values. Grasp transfer is facilitated through the point-to-point correspondence between any two (potentially unseen) grippers and solved via a similar optimization. Extensive simulation and real-world experiments showcase the efficacy of the unified grasp representation for grasp synthesis in generating stable and diverse grasps. Similarly, we showcase real-world grasp transfer from human demonstrations across different objects.

arxiv情報

著者 Ninad Khargonkar,Luis Felipe Casas,Balakrishnan Prabhakaran,Yu Xiang
発行日 2025-03-03 00:51:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG, cs.RO | RobotFingerPrint: Unified Gripper Coordinate Space for Multi-Gripper Grasp Synthesis and Transfer はコメントを受け付けていません

RoboHanger: Learning Generalizable Robotic Hanger Insertion for Diverse Garments

要約

衣服を掛ける作業において、ハンガーを衣服に挿入する方法を学習することは重要なステップであるが、ロボット工学ではほとんど研究されていない。本研究では、テーブルの上に平らに置かれた様々な未見の衣服にハンガーを挿入する問題を扱う。このタスクは、長ホライズンであること、衣服の自由度が高いこと、データが不足していることから困難である。学習プロセスを単純化するために、我々はまずタスクをいくつかのサブタスクに分割することを提案する。そして、各サブタスクを政策学習問題として定式化し、低次元の行動パラメータ化を提案する。限られたデータという課題を克服するために、我々は独自のシミュレータを構築し、144の合成衣服アセットを作成し、高品質な学習データを効果的に収集する。我々のアプローチでは、入力としてシングルビューの深度画像とオブジェクトマスクを用いることで、Sim2Realの外観ギャップを緩和し、新しい衣服に対する高い汎化能力を実現する。シミュレーションと実世界の両方における広範な実験により、我々の提案手法が検証された。シミュレータの様々な衣服で学習することにより、我々の手法は実世界の8つの異なる未見の衣服で75%の成功率を達成した。

要約(オリジナル)

For the task of hanging clothes, learning how to insert a hanger into a garment is a crucial step, but has rarely been explored in robotics. In this work, we address the problem of inserting a hanger into various unseen garments that are initially laid flat on a table. This task is challenging due to its long-horizon nature, the high degrees of freedom of the garments and the lack of data. To simplify the learning process, we first propose breaking the task into several subtasks. Then, we formulate each subtask as a policy learning problem and propose a low-dimensional action parameterization. To overcome the challenge of limited data, we build our own simulator and create 144 synthetic clothing assets to effectively collect high-quality training data. Our approach uses single-view depth images and object masks as input, which mitigates the Sim2Real appearance gap and achieves high generalization capabilities for new garments. Extensive experiments in both simulation and the real world validate our proposed method. By training on various garments in the simulator, our method achieves a 75\% success rate with 8 different unseen garments in the real world.

arxiv情報

著者 Yuxing Chen,Songlin Wei,Bowen Xiao,Jiangran Lyu,Jiayi Chen,Feng Zhu,He Wang
発行日 2025-03-03 01:31:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.RO | RoboHanger: Learning Generalizable Robotic Hanger Insertion for Diverse Garments はコメントを受け付けていません

A Survey on Vision-Language-Action Models for Embodied AI

要約

身体化AIは、身体化されたエージェントを制御して物理世界でタスクを実行することから、人工知能の重要な要素として広く認識されている。大規模な言語モデルと視覚言語モデルの成功に基づき、視覚言語行動モデル(VLA)と呼ばれる新しいカテゴリのマルチモーダルモデルが登場し、行動を生成する明確な能力を活用することで、体現型AIにおける言語条件付きロボットタスクに対処している。近年、無数のVLAが開発されており、包括的な調査を通じて急速に進化する状況を把握することが急務となっている。この目的のために、我々は具現化AIのためのVLAに関する最初のサーベイを発表する。本研究では、VLAの詳細な分類法を提供し、3つの主要な研究ラインに整理する。第一のラインは、VLAの個々のコンポーネントに焦点を当てている。第二のラインは、低レベルの行動を予測することに長けた制御ポリシーの開発に特化している。第3のラインは、ロングホライズンタスクをサブタスクのシーケンスに分解し、それによってVLAをより一般的なユーザーの指示に従わせることができる高レベルタスクプランナーである。さらに、データセット、シミュレータ、ベンチマークを含む関連リソースの広範な要約を提供する。最後に、VLAが直面する課題を議論し、具現化AIにおける有望な将来の方向性を概説する。

要約(オリジナル)

Embodied AI is widely recognized as a key element of artificial general intelligence because it involves controlling embodied agents to perform tasks in the physical world. Building on the success of large language models and vision-language models, a new category of multimodal models — referred to as vision-language-action models (VLAs) — has emerged to address language-conditioned robotic tasks in embodied AI by leveraging their distinct ability to generate actions. In recent years, a myriad of VLAs have been developed, making it imperative to capture the rapidly evolving landscape through a comprehensive survey. To this end, we present the first survey on VLAs for embodied AI. This work provides a detailed taxonomy of VLAs, organized into three major lines of research. The first line focuses on individual components of VLAs. The second line is dedicated to developing control policies adept at predicting low-level actions. The third line comprises high-level task planners capable of decomposing long-horizon tasks into a sequence of subtasks, thereby guiding VLAs to follow more general user instructions. Furthermore, we provide an extensive summary of relevant resources, including datasets, simulators, and benchmarks. Finally, we discuss the challenges faced by VLAs and outline promising future directions in embodied AI.

arxiv情報

著者 Yueen Ma,Zixing Song,Yuzheng Zhuang,Jianye Hao,Irwin King
発行日 2025-03-03 03:19:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CV, cs.RO | A Survey on Vision-Language-Action Models for Embodied AI はコメントを受け付けていません

Signage-Aware Exploration in Open World using Venue Maps

要約

現在の探索手法では、事前知識が不足しているため、未知のオープンワールド環境で店やレストランを探すのに苦労している。人間は、シーン内の看板と地図上のランドマーク名を関連付けることで、探索計画を支援するために、貴重なシーンの事前情報を提供する会場マップを活用することができる。しかし、看板のテキストの形状やスタイルは任意であり、マルチビューの不一致もあるため、ロボットが看板を正確に認識することは困難である。さらに、実世界環境と会場地図の不一致は、テキストレベルの情報をプランナーに統合する妨げとなる。本論文では、このような課題を解決し、ロボットが会場マップを効果的に活用できるようにするための、新しい看板認識探索システムを紹介する。我々は、拡散ベースのテキストインスタンス検索法と2D-3Dセマンティック融合戦略を組み合わせることで、看板上のテキストを正確に検出・認識する看板理解手法を提案する。さらに、会場マップから導き出された方向ヒューリスティックを用いた未知の領域での探索と、より良い認識のために近づいて方向を調整するための探索をバランスよく行う、会場マップ誘導型探索・探索プランナーを設計する。大規模ショッピングモールでの実験により、本手法の優れた看板認識性能と探索効率が実証され、最先端のテキストスポッティング手法や従来の探索アプローチを凌駕している。プロジェクトのウェブサイト:https://sites.google.com/view/signage-aware-exploration.

要約(オリジナル)

Current exploration methods struggle to search for shops or restaurants in unknown open-world environments due to the lack of prior knowledge. Humans can leverage venue maps that offer valuable scene priors to aid exploration planning by correlating the signage in the scene with landmark names on the map. However, arbitrary shapes and styles of the texts on signage, along with multi-view inconsistencies, pose significant challenges for robots to recognize them accurately. Additionally, discrepancies between real-world environments and venue maps hinder the integration of text-level information into the planners. This paper introduces a novel signage-aware exploration system to address these challenges, enabling the robots to utilize venue maps effectively. We propose a signage understanding method that accurately detects and recognizes the texts on signage using a diffusion-based text instance retrieval method combined with a 2D-to-3D semantic fusion strategy. Furthermore, we design a venue map-guided exploration-exploitation planner that balances exploration in unknown regions using directional heuristics derived from venue maps and exploitation to get close and adjust orientation for better recognition. Experiments in large-scale shopping malls demonstrate our method’s superior signage recognition performance and search efficiency, surpassing state-of-the-art text spotting methods and traditional exploration approaches. Project website: https://sites.google.com/view/signage-aware-exploration.

arxiv情報

著者 Chang Chen,Liang Lu,Lei Yang,Yinqiang Zhang,Yizhou Chen,Ruixing Jia,Jia Pan
発行日 2025-03-03 03:32:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.RO | Signage-Aware Exploration in Open World using Venue Maps はコメントを受け付けていません

Calib3D: Calibrating Model Preferences for Reliable 3D Scene Understanding

要約

セーフティクリティカルな3Dシーン理解タスクでは、3D知覚モデルからの予測は正確であるだけでなく、信頼性も必要とされる。本研究では、不確実性推定の観点から3Dシーン理解モデルの信頼性をベンチマークし精査する先駆的な取り組みであるCalib3Dを紹介する。我々は、10個の多様な3Dデータセットにわたって28個の最先端モデルを包括的に評価し、3Dシーン理解におけるalleatoricな不確実性とepistemicな不確実性の両方に対処する洞察に満ちた現象を明らかにする。我々は、印象的なレベルの精度を達成しているにもかかわらず、既存のモデルが信頼できる不確実性推定を提供できないことが多いことを発見した。ネットワーク容量、LiDAR表現、ラスタライズ解像度、3Dデータ補強技術などの重要な要因の広範な分析を通じて、これらの側面とモデルキャリブレーションの有効性を直接相関させます。さらに、3Dモデルキャリブレーションを強化することを目的とした、深度を考慮した新しいスケーリングアプローチであるDeptSを紹介する。幅広い構成にわたる広範な実験により、本手法の優位性が検証された。この研究が、信頼性の高い3Dシーン理解を育むための礎となることを期待している。コードとベンチマークツールキットは公開されている。

要約(オリジナル)

Safety-critical 3D scene understanding tasks necessitate not only accurate but also confident predictions from 3D perception models. This study introduces Calib3D, a pioneering effort to benchmark and scrutinize the reliability of 3D scene understanding models from an uncertainty estimation viewpoint. We comprehensively evaluate 28 state-of-the-art models across 10 diverse 3D datasets, uncovering insightful phenomena that cope with both the aleatoric and epistemic uncertainties in 3D scene understanding. We discover that despite achieving impressive levels of accuracy, existing models frequently fail to provide reliable uncertainty estimates — a pitfall that critically undermines their applicability in safety-sensitive contexts. Through extensive analysis of key factors such as network capacity, LiDAR representations, rasterization resolutions, and 3D data augmentation techniques, we correlate these aspects directly with the model calibration efficacy. Furthermore, we introduce DeptS, a novel depth-aware scaling approach aimed at enhancing 3D model calibration. Extensive experiments across a wide range of configurations validate the superiority of our method. We hope this work could serve as a cornerstone for fostering reliable 3D scene understanding. Code and benchmark toolkit are publicly available.

arxiv情報

著者 Lingdong Kong,Xiang Xu,Jun Cen,Wenwei Zhang,Liang Pan,Kai Chen,Ziwei Liu
発行日 2025-03-03 04:22:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG, cs.RO | Calib3D: Calibrating Model Preferences for Reliable 3D Scene Understanding はコメントを受け付けていません

Multi-UAV Uniform Sweep Coverage in Unknown Environments: A Self-organizing Nervous System (SoNS)-Based Random Exploration

要約

本論文では、未知の凸環境における複数UAVによる均一な掃引範囲を扱う。この場合、均質なUAV群は、サンプリングタスクのために、その位置や方位にアクセスすることなく、環境のすべての部分を均等に訪問しなければならない。ランダムウォーク探索は、ローカライゼーションを必要とせず、群への実装が容易であるため、このシナリオにおいて実用的である。我々は、ロボット群がローカル通信を用いて階層的なアドホック通信ネットワークに自己組織化することを可能にする自己組織化神経系(SoNS)フレームワークが、このような環境におけるランダム探索のための有望な制御アプローチであることを実証する。本論文では、SoNSを用いたランダムウォーク手法を提案する。この手法では、UAVが自己組織化して隊列を形成し、その隊列を維持しながらランダムウォークを行って環境をカバーする。シミュレーションにより、いくつかの分散型ランダムウォーク戦略に対して我々のアプローチを評価する。その結果、我々のSoNSに基づくランダムウォークは、これらのベンチマーク戦略よりも、大域的にも局所的にも、より速く、より高いカバレージ均一性で完全カバレージを達成することが示された。

要約(オリジナル)

This paper addresses multi-UAV uniform sweep coverage in an unknown convex environment, where a homogeneous UAV swarm must evenly visit every portion of the environment for a sampling task without access to their position and orientation. Random walk exploration is practical in this scenario because it requires no localization and is easy to implement on swarms. We demonstrate that the Self-Organizing Nervous System (SoNS) framework, which enables a robot swarm to self-organize into a hierarchical ad-hoc communication network using local communication, is a promising control approach for random exploration in such environments. To this end, we propose a SoNS-based random walk method in which UAVs self-organize into a line formation and then perform a random walk to cover the environment while maintaining that formation. We evaluate our approach in simulations against several decentralized random walk strategies. Results show that our SoNS-based random walk achieves full coverage faster and with greater coverage uniformity than these benchmark strategies, both globally and in local regions.

arxiv情報

著者 Aryo Jamshidpey,Hugh H. -T. Liu
発行日 2025-03-03 04:31:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.RO | Multi-UAV Uniform Sweep Coverage in Unknown Environments: A Self-organizing Nervous System (SoNS)-Based Random Exploration はコメントを受け付けていません

DynamicCity: Large-Scale 4D Occupancy Generation from Dynamic Scenes

要約

都市シーンの生成は近年急速に発展している。しかし、既存の手法は主に静的で単一フレームのシーンを生成することに重点を置いており、実世界の走行環境が本質的に動的であることを見落としている。本研究では、セマンティクスを持つ大規模で高品質な動的4Dシーンを生成できる、新しい4D占有シーン生成フレームワークであるDynamicCityを紹介する。DynamicCityは主に2つの主要なモデルから構成される。1) コンパクトな4D表現としてHexPlaneを学習するためのVAEモデル。DynamicCityは、素朴な平均化操作の代わりに、HexPlane構築のために4D特徴を6つの2D特徴マップに効果的に圧縮する新しい投影モジュールを採用し、HexPlaneフィッティング品質を大幅に向上させる(最大12.56mIoUゲイン)。さらに、Expansion & Squeezeストラテジーを用いて3次元特徴量を並列に再構成することで、各3次元点を素朴に問い合わせるよりも、ネットワークの学習効率と再構成精度の両方を向上させる(最大7.05mIoUの利得、2.06倍の学習速度向上、70.84%のメモリ削減)。2) HexPlane生成のためのDiTベースの拡散モデル。HexPlaneをDiT生成に対応させるために、HexPlaneの6つの特徴面をすべて2乗2次元特徴マップとして再構成するPadded Rollout Operationを提案する。特に、拡散処理やサンプリング処理に様々な条件を導入することで、軌跡駆動型やコマンド駆動型の生成、インペインティング、レイアウト条件付き生成など、多彩な4次元生成アプリケーションをサポートすることができる。CarlaSCおよびWaymoデータセットでの広範な実験により、DynamicCityが複数のメトリクスにわたって既存の最先端4D占有率生成手法を大幅に上回ることが実証された。コードとモデルは、将来の研究を促進するために公開されています。

要約(オリジナル)

Urban scene generation has been developing rapidly recently. However, existing methods primarily focus on generating static and single-frame scenes, overlooking the inherently dynamic nature of real-world driving environments. In this work, we introduce DynamicCity, a novel 4D occupancy generation framework capable of generating large-scale, high-quality dynamic 4D scenes with semantics. DynamicCity mainly consists of two key models. 1) A VAE model for learning HexPlane as the compact 4D representation. Instead of using naive averaging operations, DynamicCity employs a novel Projection Module to effectively compress 4D features into six 2D feature maps for HexPlane construction, which significantly enhances HexPlane fitting quality (up to 12.56 mIoU gain). Furthermore, we utilize an Expansion & Squeeze Strategy to reconstruct 3D feature volumes in parallel, which improves both network training efficiency and reconstruction accuracy than naively querying each 3D point (up to 7.05 mIoU gain, 2.06x training speedup, and 70.84% memory reduction). 2) A DiT-based diffusion model for HexPlane generation. To make HexPlane feasible for DiT generation, a Padded Rollout Operation is proposed to reorganize all six feature planes of the HexPlane as a squared 2D feature map. In particular, various conditions could be introduced in the diffusion or sampling process, supporting versatile 4D generation applications, such as trajectory- and command-driven generation, inpainting, and layout-conditioned generation. Extensive experiments on the CarlaSC and Waymo datasets demonstrate that DynamicCity significantly outperforms existing state-of-the-art 4D occupancy generation methods across multiple metrics. The code and models have been released to facilitate future research.

arxiv情報

著者 Hengwei Bian,Lingdong Kong,Haozhe Xie,Liang Pan,Yu Qiao,Ziwei Liu
発行日 2025-03-03 04:31:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.RO | DynamicCity: Large-Scale 4D Occupancy Generation from Dynamic Scenes はコメントを受け付けていません