ZeroMimic: Distilling Robotic Manipulation Skills from Web Videos

要約

ロボット操作における最近の多くの進歩は、模倣学習を通じてもたらされていますが、これらは主に特に困難な形のデモンストレーションを模倣することに依存しています。訓練されたポリシーと同じオブジェクトを持つ同じ部屋の同じロボットで収集されたものは、テスト時に処理する必要があります。
対照的に、ロボットの貴重な情報を含む、野生の操作スキルを示す、大規模な事前に記録された人間のビデオデータセットがすでに存在しています。
ロボット固有のデモや探索に関する追加要件なしに、そのようなデータから有用なロボットスキルポリシーのリポジトリを蒸留することは可能ですか?
最初のシステムゼロミミックを提示します。これは、多様なオブジェクトに作用し、多様な目に見えないタスクセットアップ全体に作用できる、いくつかの一般的なカテゴリの操作タスク(開閉、閉鎖、注入、ピック、および攪拌)のために、すぐに展開可能な画像の目標条件付けされたスキルポリシーを生成します。
Zeromimicは、最新の把握アフォーダンス検出器と模倣ポリシークラスとともに、人間のビデオのセマンティックおよび幾何学的な視覚的理解における最近の進歩を活用するように慎重に設計されています。
自我中心の人間のビデオの人気のエピキッチンデータセットでゼロミミックをトレーニングした後、さまざまな現実世界とシミュレートされたキッチン設定でのすぐにボックスのパフォーマンスを評価し、2つの異なるロボット実施形態を備えたシミュレートされたキッチン設定を評価し、これらのさまざまなタスクを処理する印象的な能力を示します。
他のタスクのセットアップやロボットでゼロミミックポリシーをプラグアンドプレイ再利用できるようにするために、スキルポリシーのソフトウェアおよびポリシーチェックポイントをリリースします。

要約(オリジナル)

Many recent advances in robotic manipulation have come through imitation learning, yet these rely largely on mimicking a particularly hard-to-acquire form of demonstrations: those collected on the same robot in the same room with the same objects as the trained policy must handle at test time. In contrast, large pre-recorded human video datasets demonstrating manipulation skills in-the-wild already exist, which contain valuable information for robots. Is it possible to distill a repository of useful robotic skill policies out of such data without any additional requirements on robot-specific demonstrations or exploration? We present the first such system ZeroMimic, that generates immediately deployable image goal-conditioned skill policies for several common categories of manipulation tasks (opening, closing, pouring, pick&place, cutting, and stirring) each capable of acting upon diverse objects and across diverse unseen task setups. ZeroMimic is carefully designed to exploit recent advances in semantic and geometric visual understanding of human videos, together with modern grasp affordance detectors and imitation policy classes. After training ZeroMimic on the popular EpicKitchens dataset of ego-centric human videos, we evaluate its out-of-the-box performance in varied real-world and simulated kitchen settings with two different robot embodiments, demonstrating its impressive abilities to handle these varied tasks. To enable plug-and-play reuse of ZeroMimic policies on other task setups and robots, we release software and policy checkpoints of our skill policies.

arxiv情報

著者 Junyao Shi,Zhuolun Zhao,Tianyou Wang,Ian Pedroza,Amy Luo,Jie Wang,Jason Ma,Dinesh Jayaraman
発行日 2025-03-31 09:27:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO | ZeroMimic: Distilling Robotic Manipulation Skills from Web Videos はコメントを受け付けていません

Less is More: Contextual Sampling for Nonlinear Data-Enabled Predictive Control

要約

データ対応予測制御(DEEPC)は、明示的なシステムモデルを必要とせずに、予測制御のための強力なデータ駆動型アプローチです。
ただし、その高い計算コストは​​、リアルタイムロボットシステムへの適用性を制限します。
モーション計画や軌道追跡などのロボットアプリケーションの場合、リアルタイム制御が重要です。
非線形DEEPCは、大規模なデータセットに依存するか、非線形性を学習して予測精度を確保し、高い計算の複雑さにつながります。
この作業では、各時間ステップで最も関連性の高いデータを動的に選択することにより、DEEPCの非線形性を処理するための新しいデータ選択戦略であるコンテキストサンプリングを紹介します。
予測精度を維持しながらデータセットサイズを削減することにより、当社の方法は、リアルタイムロボットアプリケーションのDEEPCの計算効率を改善します。
自律的な車両モーションプランニングのアプローチを検証します。
100のサブトレジェクションのデータセットサイズの場合、コンテキストサンプリングDEEPCは、レバレッジスコアサンプリングと比較して、追跡エラーを53.2%減少させます。
さらに、コンテキストサンプリングは、同等の追跡パフォーマンスを達成しながら、491サブトレジェクションの完全なデータセットを使用する場合と比較して、最大計算時間を87.2%削減します。
これらの結果は、ロボットシステムのリアルタイムのデータ駆動型制御を可能にするコンテキストサンプリングの可能性を強調しています。

要約(オリジナル)

Data-enabled Predictive Control (DeePC) is a powerful data-driven approach for predictive control without requiring an explicit system model. However, its high computational cost limits its applicability to real-time robotic systems. For robotic applications such as motion planning and trajectory tracking, real-time control is crucial. Nonlinear DeePC either relies on large datasets or learning the nonlinearities to ensure predictive accuracy, leading to high computational complexity. This work introduces contextual sampling, a novel data selection strategy to handle nonlinearities for DeePC by dynamically selecting the most relevant data at each time step. By reducing the dataset size while preserving prediction accuracy, our method improves computational efficiency, of DeePC for real-time robotic applications. We validate our approach for autonomous vehicle motion planning. For a dataset size of 100 sub-trajectories, Contextual sampling DeePC reduces tracking error by 53.2 % compared to Leverage Score sampling. Additionally, Contextual sampling reduces max computation time by 87.2 % compared to using the full dataset of 491 sub-trajectories while achieving comparable tracking performance. These results highlight the potential of Contextual sampling to enable real-time, data-driven control for robotic systems.

arxiv情報

著者 Julius Beerwerth,Bassam Alrifaee
発行日 2025-03-31 09:41:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Less is More: Contextual Sampling for Nonlinear Data-Enabled Predictive Control はコメントを受け付けていません

Fast Online Learning of CLiFF-maps in Changing Environments

要約

ダイナミクスのマップは、以前の観察から学んだモーションパターンの効果的な表現であり、最近の研究では、人間を認識したロボットナビゲーション、長期人間の動き予測、ロボットのローカリゼーションなど、さまざまな下流タスクを強化する能力が実証されています。
現在の進歩は、主に、流れが静的な環境、つまり時間の経過とともに変化すると想定されていない環境での人間の流れの地図を学習する方法に集中しています。
このペーパーでは、人間の流れの変化を積極的に検出し、適応するために、クリフマップのオンライン更新方法(モーションパターンを速度と方向の混合物としてモデル化する高度なダイナミクスタイプの高度なマップ)を提案します。
新しい観察結果が収集されると、私たちの目標は、関連する歴史的な動きパターンを保持しながら、崖のマップを効果的かつ正確に統合することです。
提案されたオンライン更新方法は、観測された各位置で確率表現を維持し、十分な統計を継続的に追跡することによりパラメーターを更新します。
合成データセットと実世界の両方のデータセットの両方を使用した実験では、私たちの方法が人間の動きのダイナミクスの正確な表現を維持できることを示しており、高性能の流れに準拠した計画下流タスクに貢献しながら、同等のベースラインよりも大きさが速いことを示しています。

要約(オリジナル)

Maps of dynamics are effective representations of motion patterns learned from prior observations, with recent research demonstrating their ability to enhance various downstream tasks such as human-aware robot navigation, long-term human motion prediction, and robot localization. Current advancements have primarily concentrated on methods for learning maps of human flow in environments where the flow is static, i.e., not assumed to change over time. In this paper we propose an online update method of the CLiFF-map (an advanced map of dynamics type that models motion patterns as velocity and orientation mixtures) to actively detect and adapt to human flow changes. As new observations are collected, our goal is to update a CLiFF-map to effectively and accurately integrate them, while retaining relevant historic motion patterns. The proposed online update method maintains a probabilistic representation in each observed location, updating parameters by continuously tracking sufficient statistics. In experiments using both synthetic and real-world datasets, we show that our method is able to maintain accurate representations of human motion dynamics, contributing to high performance flow-compliant planning downstream tasks, while being orders of magnitude faster than the comparable baselines.

arxiv情報

著者 Yufei Zhu,Andrey Rudenko,Luigi Palmieri,Lukas Heuer,Achim J. Lilienthal,Martin Magnusson
発行日 2025-03-31 09:49:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Fast Online Learning of CLiFF-maps in Changing Environments はコメントを受け付けていません

MAER-Nav: Bidirectional Motion Learning Through Mirror-Augmented Experience Replay for Robot Navigation

要約

Deep Rehnection Learning(DRL)ベースのナビゲーション方法は、モバイルロボットの有望な結果を実証していますが、限られたスペースでのアクションの柔軟性は限られています。
従来のDRLアプローチは、主に前方モーションポリシーを学習し、回復に後方操作が必要な複雑な環境にロボットが閉じ込められます。
このホワイトペーパーでは、明示的な障害駆動型の後知恵体験リプレイまたは報酬機能の変更を必要とせずに双方向の動き学習を可能にする新しいフレームワークであるMaer-Nav(ロボットナビゲーションの鏡濃縮エクスペリエンスリプレイ)を紹介します。
私たちのアプローチでは、鏡編みのエクスペリエンスリプレイメカニズムとカリキュラムの学習を統合して、成功した軌跡から合成後方ナビゲーションエクスペリエンスを生成します。
シミュレーションと現実世界の両方の環境での実験結果は、MAER-NAVが強力なフォワードナビゲーション機能を維持しながら、最先端の方法を大幅に上回ることを示しています。
このフレームワークは、従来の計画方法の包括的なアクション空間利用と学習ベースのアプローチの環境適応性との間のギャップを効果的に橋渡しし、従来のDRLメソッドが一貫して失敗するシナリオで堅牢なナビゲーションを可能にします。

要約(オリジナル)

Deep Reinforcement Learning (DRL) based navigation methods have demonstrated promising results for mobile robots, but suffer from limited action flexibility in confined spaces. Conventional DRL approaches predominantly learn forward-motion policies, causing robots to become trapped in complex environments where backward maneuvers are necessary for recovery. This paper presents MAER-Nav (Mirror-Augmented Experience Replay for Robot Navigation), a novel framework that enables bidirectional motion learning without requiring explicit failure-driven hindsight experience replay or reward function modifications. Our approach integrates a mirror-augmented experience replay mechanism with curriculum learning to generate synthetic backward navigation experiences from successful trajectories. Experimental results in both simulation and real-world environments demonstrate that MAER-Nav significantly outperforms state-of-the-art methods while maintaining strong forward navigation capabilities. The framework effectively bridges the gap between the comprehensive action space utilization of traditional planning methods and the environmental adaptability of learning-based approaches, enabling robust navigation in scenarios where conventional DRL methods consistently fail.

arxiv情報

著者 Shanze Wang,Mingao Tan,Zhibo Yang,Biao Huang,Xiaoyu Shen,Hailong Huang,Wei Zhang
発行日 2025-03-31 09:58:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | MAER-Nav: Bidirectional Motion Learning Through Mirror-Augmented Experience Replay for Robot Navigation はコメントを受け付けていません

A Benchmark for Vision-Centric HD Mapping by V2I Systems

要約

自律運転は、グローバルな視点の欠如と、ベクトル化された高解像度(HD)マップの意味情報のために安全上の課題に直面しています。
道端のカメラからの情報は、車両間(V2I)通信を通じて、マップ認識範囲を大幅に拡大できます。
ただし、車両間界面の協力のシナリオに基づいて、マップベクトル化に関するマップベクトル化に関する調査に利用できる現実世界からのデータセットはまだありません。
車両間層の協同的自律運転(VICAD)のオンラインHDマッピングに関する研究を繁栄させるために、車両と路傍インフラストラクチャの両方からの共同カメラフレームを含む現実世界のデータセットをリリースし、HDマップ要素の人間の注釈を提供します。
また、ベクトル化されたマップを構築するための視力中心のV2Iシステムを活用するエンドツーエンドのニューラルフレームワーク(つまり、V2I-HD)を提示します。
計算コストを削減し、自律車両にV2I-HDをさらに展開するために、V2I-HDに方向性的に分離された自己触媒メカニズムを導入します。
広範な実験では、V2I-HDが実際のデータセットでテストされているように、リアルタイムの推論速度で優れた性能を持っていることが示されています。
豊富な定性的結果は、複雑でさまざまな運転シーンで低コストの安定した堅牢なマップ構造品質を示しています。
ベンチマークとして、ソースコードとデータセットの両方が、さらなる研究の目的でOneDriveでリリースされています。

要約(オリジナル)

Autonomous driving faces safety challenges due to a lack of global perspective and the semantic information of vectorized high-definition (HD) maps. Information from roadside cameras can greatly expand the map perception range through vehicle-to-infrastructure (V2I) communications. However, there is still no dataset from the real world available for the study on map vectorization onboard under the scenario of vehicle-infrastructure cooperation. To prosper the research on online HD mapping for Vehicle-Infrastructure Cooperative Autonomous Driving (VICAD), we release a real-world dataset, which contains collaborative camera frames from both vehicles and roadside infrastructures, and provides human annotations of HD map elements. We also present an end-to-end neural framework (i.e., V2I-HD) leveraging vision-centric V2I systems to construct vectorized maps. To reduce computation costs and further deploy V2I-HD on autonomous vehicles, we introduce a directionally decoupled self-attention mechanism to V2I-HD. Extensive experiments show that V2I-HD has superior performance in real-time inference speed, as tested by our real-world dataset. Abundant qualitative results also demonstrate stable and robust map construction quality with low cost in complex and various driving scenes. As a benchmark, both source codes and the dataset have been released at OneDrive for the purpose of further study.

arxiv情報

著者 Miao Fan,Shanshan Yu,Shengtong Xu,Kun Jiang,Haoyi Xiong,Xiangzeng Liu
発行日 2025-03-31 11:24:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | A Benchmark for Vision-Centric HD Mapping by V2I Systems はコメントを受け付けていません

Video-based Traffic Light Recognition by Rockchip RV1126 for Autonomous Driving

要約

リアルタイムの信号機の認識は、都市環境における自律運転の安全性と航海の基本です。
既存のアプローチは、オンボードカメラからの単一フレーム分析に依存していますが、閉塞と有害な照明条件を含む複雑なシナリオと格闘しています。
複数の連続したフレームを処理して堅牢な信号機の検出と状態分類を実現する新しいビデオベースのエンドツーエンドニューラルネットワークである\ textit {vitlr}を提示します。
アーキテクチャは、Rockchip RV1126エンメッドプラットフォームでの展開に特に最適化された畳み込みの自己触媒モジュールを備えたトランス状態の設計を活用しています。
2つの実際のデータセットでの広範な評価は、\ textit {vitlr}がRV1126のNPUでリアルタイム処理機能(> 25 fps)を維持しながら、最先端のパフォーマンスを達成することを示しています。
このシステムは、既存の単一フレームアプローチと比較して、時間的安定性、ターゲット距離の変化、挑戦的な環境条件にわたる優れた堅牢性を示しています。
自律運転アプリケーションにHDマップを使用して、\ textit {vitlr}をエゴレーンの信号機認識システムに統合しました。
ソースコードやデータセットを含む完全な実装は、このドメインでのさらなる研究を促進するために公開されています。

要約(オリジナル)

Real-time traffic light recognition is fundamental for autonomous driving safety and navigation in urban environments. While existing approaches rely on single-frame analysis from onboard cameras, they struggle with complex scenarios involving occlusions and adverse lighting conditions. We present \textit{ViTLR}, a novel video-based end-to-end neural network that processes multiple consecutive frames to achieve robust traffic light detection and state classification. The architecture leverages a transformer-like design with convolutional self-attention modules, which is optimized specifically for deployment on the Rockchip RV1126 embedded platform. Extensive evaluations on two real-world datasets demonstrate that \textit{ViTLR} achieves state-of-the-art performance while maintaining real-time processing capabilities (>25 FPS) on RV1126’s NPU. The system shows superior robustness across temporal stability, varying target distances, and challenging environmental conditions compared to existing single-frame approaches. We have successfully integrated \textit{ViTLR} into an ego-lane traffic light recognition system using HD maps for autonomous driving applications. The complete implementation, including source code and datasets, is made publicly available to facilitate further research in this domain.

arxiv情報

著者 Miao Fan,Xuxu Kong,Shengtong Xu,Haoyi Xiong,Xiangzeng Liu
発行日 2025-03-31 11:27:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Video-based Traffic Light Recognition by Rockchip RV1126 for Autonomous Driving はコメントを受け付けていません

A Reactive Framework for Whole-Body Motion Planning of Mobile Manipulators Combining Reinforcement Learning and SDF-Constrained Quadratic Programmi

要約

具体化された人工知能の重要な分野として、モバイルマニピュレーターはインテリジェントサービスにますます適用されていますが、その冗長な自由度は、散らかった環境での効率的なモーション計画も制限しています。
この問題に対処するために、このペーパーでは、モバイルマニピュレーターの反応性全身モーション計画のためのハイブリッド学習と最適化フレームワークを提案します。
ベイジアン分布のソフト俳優 – クリティック(ベイズ-DSAC)アルゴリズムを開発して、価値推定の品質と学習の収束性能を向上させます。
さらに、障害物回避運動の安全性を高めるために、署名された距離フィールドに制約された2次プログラミング方法を導入します。
実験を実施し、標準ベンチマークと比較します。
実験結果は、提案されたフレームワークが、反応性全身運動計画の効率を大幅に改善し、計画時間を短縮し、モーション計画の成功率を改善することを確認します。
さらに、提案された強化学習方法により、全身計画タスクの迅速な学習プロセスが保証されます。
新しいフレームワークにより、モバイルマニピュレーターは複雑な環境により安全かつ効率的に適応することができます。

要約(オリジナル)

As an important branch of embodied artificial intelligence, mobile manipulators are increasingly applied in intelligent services, but their redundant degrees of freedom also limit efficient motion planning in cluttered environments. To address this issue, this paper proposes a hybrid learning and optimization framework for reactive whole-body motion planning of mobile manipulators. We develop the Bayesian distributional soft actor-critic (Bayes-DSAC) algorithm to improve the quality of value estimation and the convergence performance of the learning. Additionally, we introduce a quadratic programming method constrained by the signed distance field to enhance the safety of the obstacle avoidance motion. We conduct experiments and make comparison with standard benchmark. The experimental results verify that our proposed framework significantly improves the efficiency of reactive whole-body motion planning, reduces the planning time, and improves the success rate of motion planning. Additionally, the proposed reinforcement learning method ensures a rapid learning process in the whole-body planning task. The novel framework allows mobile manipulators to adapt to complex environments more safely and efficiently.

arxiv情報

著者 Chenyu Zhang,Shiying Sun,Kuan Liu,Chuanbao Zhou,Xiaoguang Zhao,Min Tan,Yanlong Huang
発行日 2025-03-31 11:37:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | A Reactive Framework for Whole-Body Motion Planning of Mobile Manipulators Combining Reinforcement Learning and SDF-Constrained Quadratic Programmi はコメントを受け付けていません

SALT: A Flexible Semi-Automatic Labeling Tool for General LiDAR Point Clouds with Cross-Scene Adaptability and 4D Consistency

要約

クロスセーンの適応性と4D一貫性を備えた一般的なライダーポイント雲のための柔軟な半自動ラベリングツール(塩)を提案します。
カメラの蒸留に依存している最近のアプローチとは異なり、塩は生のライダーデータで直接動作し、自動的にセグメンテーション前の結果を生成します。
これを達成するために、Vision Foundationモデルのトレーニング分布と整合することにより、LIDARデータを擬似イメージに変換するデータアライメントと呼ばれる新しいゼロショット学習パラダイムを提案します。
さらに、SAM2を強化するために、4D無意味のプロンプト戦略と4D非最大抑制モジュールを設計し、高品質で時間的に一貫した前置換を確保します。
Saltは、Semantickittiで最新のゼロショット方法を18.4%PQで超え、新しく収集された低解像度LIDARデータと3つのLIDARタイプからの複合データで、ヒトアノテーターパフォーマンスのほぼ40〜50%を達成し、注釈効率を大幅に向上させます。
塩のオープンソーシングにより、現在のLIDARデータセットの大幅な拡張が促進され、Lidar Foundationモデルの将来の開発の基礎が築かれると予想されます。
コードはhttps://github.com/cavendish518/saltで入手できます。

要約(オリジナル)

We propose a flexible Semi-Automatic Labeling Tool (SALT) for general LiDAR point clouds with cross-scene adaptability and 4D consistency. Unlike recent approaches that rely on camera distillation, SALT operates directly on raw LiDAR data, automatically generating pre-segmentation results. To achieve this, we propose a novel zero-shot learning paradigm, termed data alignment, which transforms LiDAR data into pseudo-images by aligning with the training distribution of vision foundation models. Additionally, we design a 4D-consistent prompting strategy and 4D non-maximum suppression module to enhance SAM2, ensuring high-quality, temporally consistent presegmentation. SALT surpasses the latest zero-shot methods by 18.4% PQ on SemanticKITTI and achieves nearly 40-50% of human annotator performance on our newly collected low-resolution LiDAR data and on combined data from three LiDAR types, significantly boosting annotation efficiency. We anticipate that SALT’s open-sourcing will catalyze substantial expansion of current LiDAR datasets and lay the groundwork for the future development of LiDAR foundation models. Code is available at https://github.com/Cavendish518/SALT.

arxiv情報

著者 Yanbo Wang,Yongtao Chen,Chuan Cao,Tianchen Deng,Wentao Zhao,Jingchuan Wang,Weidong Chen
発行日 2025-03-31 11:46:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | SALT: A Flexible Semi-Automatic Labeling Tool for General LiDAR Point Clouds with Cross-Scene Adaptability and 4D Consistency はコメントを受け付けていません

Fast and Accurate Task Planning using Neuro-Symbolic Language Models and Multi-level Goal Decomposition

要約

ロボットタスク計画では、PDDLのようなルールベースの表現を使用するシンボリックプランナーは効果的ですが、検索スペースが指数関数的に増加するため、複雑な環境での長いシーケンスタスクと闘っています。
一方、人工ニューラルネットワークに基づいたLLMベースのアプローチは、より速い推論と常識的推論を提供しますが、成功率の低下に苦しんでいます。
現在のシンボリック(遅い速度)またはLLMベースのアプローチ(低精度)の制限に対処するために、LLMを使用して複雑なタスクをサブゴールに分解し、SubgoalまたはMCTSベースのLLMプランナーのいずれかを使用して各サブゴールのタスク計画を実行する新しいニューロシンボリックタスクプランナーを提案します。
この分解により、計画時間が短縮され、検索スペースを狭め、LLMがより管理しやすいタスクに集中できるようにすることで、成功率が向上します。
私たちの方法は、タスク計画ドメイン全体で高い成功率を維持しながら、現実世界およびシミュレートされたロボット環境全体で計画時間を大幅に短縮します。
詳細については、http://graphics.ewha.ac.kr/llmtamp/をご覧ください。

要約(オリジナル)

In robotic task planning, symbolic planners using rule-based representations like PDDL are effective but struggle with long-sequential tasks in complicated environments due to exponentially increasing search space. Meanwhile, LLM-based approaches, which are grounded in artificial neural networks, offer faster inference and commonsense reasoning but suffer from lower success rates. To address the limitations of the current symbolic (slow speed) or LLM-based approaches (low accuracy), we propose a novel neuro-symbolic task planner that decomposes complex tasks into subgoals using LLM and carries out task planning for each subgoal using either symbolic or MCTS-based LLM planners, depending on the subgoal complexity. This decomposition reduces planning time and improves success rates by narrowing the search space and enabling LLMs to focus on more manageable tasks. Our method significantly reduces planning time while maintaining high success rates across task planning domains, as well as real-world and simulated robotics environments. More details are available at http://graphics.ewha.ac.kr/LLMTAMP/.

arxiv情報

著者 Minseo Kwon,Yaesol Kim,Young J. Kim
発行日 2025-03-31 12:24:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Fast and Accurate Task Planning using Neuro-Symbolic Language Models and Multi-level Goal Decomposition はコメントを受け付けていません

Learning 3D-Gaussian Simulators from RGB Videos

要約

ビデオデータから物理学の学習シミュレーションには、空間的および時間的一貫性を維持する必要があります。これは、強力な帰納的バイアスまたはグラウンドトゥルース3D情報でしばしば対処される課題 – スケーラビリティと一般化を制限します。
マルチビューRGBビデオからオブジェクトのダイナミクスエンドツーエンドを学習する3D Physicsシミュレーターである3DGSIMを紹介します。
画像を3Dガウス粒子表現にエンコードし、変圧器を介してダイナミクスを伝播し、3Dガウスのスプラッティングを使用してフレームをレンダリングします。
3DGSimememedsの物理的特性を、明示的な接続性の制約を強制せずに、3DGSimememedsの物理的特性をポイントごとの潜在ベクトルに共同でトレーニングすることにより、ダイナミクストランスとの逆レンダリングをトレーニングすることにより。
これにより、モデルは、剛性から弾力性のある布のような相互作用まで、多様な身体的行動をキャプチャし、目に見えないマルチボディの相互作用や新しいシーンの編集にも一般化する現実的な照明効果をキャプチャできます。

要約(オリジナル)

Learning physics simulations from video data requires maintaining spatial and temporal consistency, a challenge often addressed with strong inductive biases or ground-truth 3D information — limiting scalability and generalization. We introduce 3DGSim, a 3D physics simulator that learns object dynamics end-to-end from multi-view RGB videos. It encodes images into a 3D Gaussian particle representation, propagates dynamics via a transformer, and renders frames using 3D Gaussian splatting. By jointly training inverse rendering with a dynamics transformer using a temporal encoding and merging layer, 3DGSimembeds physical properties into point-wise latent vectors without enforcing explicit connectivity constraints. This enables the model to capture diverse physical behaviors, from rigid to elastic and cloth-like interactions, along with realistic lighting effects that also generalize to unseen multi-body interactions and novel scene edits.

arxiv情報

著者 Mikel Zhobro,Andreas René Geist,Georg Martius
発行日 2025-03-31 12:33:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.GR, cs.LG, cs.RO | Learning 3D-Gaussian Simulators from RGB Videos はコメントを受け付けていません