Controllable Latent Diffusion for Traffic Simulation

要約

自律駆動システムの検証は、現実的で正確に制御可能なシナリオを生成する能力から大きな恩恵を受けます。
実際のテストドライブなどの従来のアプローチは、高価であるだけでなく、ターゲットを絞ったエッジケースを徹底的に評価するための柔軟性も欠いています。
これらの課題に対処するために、仮想テストのための多様で制御可能な運転シナリオのセットを自動的に生成するために、強化学習を介して拡散モデルのトレーニングを導く制御可能な潜在拡散を提案します。
私たちのアプローチは、自律型車両システムに挑戦して評価するためにプロパティを調整できる複雑なシナリオを生成することにより、大規模な現実世界のデータへの依存を取り除きます。
実験結果は、私たちのアプローチの衝突率が0.098ドルで、オフロード率が0.096ドルで、既存のベースラインに対する優位性が示されていることが示されています。
提案されたアプローチは、生成されたシナリオのリアリズム、安定性、制御性を大幅に改善し、自律車のより微妙な安全評価を可能にします。

要約(オリジナル)

The validation of autonomous driving systems benefits greatly from the ability to generate scenarios that are both realistic and precisely controllable. Conventional approaches, such as real-world test drives, are not only expensive but also lack the flexibility to capture targeted edge cases for thorough evaluation. To address these challenges, we propose a controllable latent diffusion that guides the training of diffusion models via reinforcement learning to automatically generate a diverse and controllable set of driving scenarios for virtual testing. Our approach removes the reliance on large-scale real-world data by generating complex scenarios whose properties can be finely tuned to challenge and assess autonomous vehicle systems. Experimental results show that our approach has the lowest collision rate of $0.098$ and lowest off-road rate of $0.096$, demonstrating superiority over existing baselines. The proposed approach significantly improves the realism, stability and controllability of the generated scenarios, enabling more nuanced safety evaluation of autonomous vehicles.

arxiv情報

著者 Yizhuo Xiao,Mustafa Suphi Erden,Cheng Wang
発行日 2025-03-30 13:52:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.MA, cs.RO | Controllable Latent Diffusion for Traffic Simulation はコメントを受け付けていません

SparseLoc: Sparse Open-Set Landmark-based Global Localization for Autonomous Navigation

要約

グローバルなローカリゼーションは、自律的なナビゲーションにおける重要な問題であり、GPSに依存せずに正確な位置決めを可能にします。
最新のグローバルローカリゼーション技術は、多くの場合、高密度のライダーマップに依存します。これは、正確ですが、広範なストレージと計算リソースが必要です。
最近のアプローチでは、まばらなマップや学習された機能などの代替方法が調査されていますが、堅牢性と一般化が不十分です。
Sparselocを提案します。Sparselocは、Vision-Language Foundationモデルを活用して、ゼロショットの方法でスパースでセマンティックトポメトリックマップを生成するグローバルなローカリゼーションフレームワークを提案します。
このマップ表現と、新規遅延最適化戦略によって強化されたモンテカルロローカリゼーションスキームと組み合わせて、ポーズ推定の改善を確保します。
慎重に設計された最適化スケジュールを通じて、コンパクトでありながら高度に差別的なマップと精製ローカリゼーションを構築することにより、Sparselocは既存の技術の制限を克服し、グローバルなローカリゼーションのためのより効率的で堅牢なソリューションを提供します。
当社のシステムは、既存のスパースマッピング手法と比較して、ローカリゼーションの精度が5倍に改善されています。
密なマッピング方法のポイントの1/500のみを利用しているにもかかわらず、同等のパフォーマンスを実現し、キッティシーケンスで5mおよび2度未満の平均的なグローバルローカリゼーションエラーを維持します。

要約(オリジナル)

Global localization is a critical problem in autonomous navigation, enabling precise positioning without reliance on GPS. Modern global localization techniques often depend on dense LiDAR maps, which, while precise, require extensive storage and computational resources. Recent approaches have explored alternative methods, such as sparse maps and learned features, but they suffer from poor robustness and generalization. We propose SparseLoc, a global localization framework that leverages vision-language foundation models to generate sparse, semantic-topometric maps in a zero-shot manner. It combines this map representation with a Monte Carlo localization scheme enhanced by a novel late optimization strategy, ensuring improved pose estimation. By constructing compact yet highly discriminative maps and refining localization through a carefully designed optimization schedule, SparseLoc overcomes the limitations of existing techniques, offering a more efficient and robust solution for global localization. Our system achieves over a 5X improvement in localization accuracy compared to existing sparse mapping techniques. Despite utilizing only 1/500th of the points of dense mapping methods, it achieves comparable performance, maintaining an average global localization error below 5m and 2 degrees on KITTI sequences.

arxiv情報

著者 Pranjal Paul,Vineeth Bhat,Tejas Salian,Mohammad Omama,Krishna Murthy Jatavallabhula,Naveen Arulselvan,K. Madhava Krishna
発行日 2025-03-30 14:49:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | SparseLoc: Sparse Open-Set Landmark-based Global Localization for Autonomous Navigation はコメントを受け付けていません

Handling Delay in Real-Time Reinforcement Learning

要約

リアルタイム強化学習(RL)は、いくつかの課題を導入します。
まず、ポリシーは、ハードウェアの制限により、一秒あたりの固定数のアクションに制約されます。
第二に、ネットワークが依然としてアクションを計算している間、環境が変化する可能性があり、観測遅延につながります。
最初の問題は、パイプラインで部分的に対処でき、スループットが高くなり、より良いポリシーにつながる可能性があります。
ただし、2番目の問題は次のとおりです。各ニューロンが$ \ tau $の実行時間と並行して動作する場合、$ n $ -layerのフィードフォワードネットワードは$ \ tau n $の観測遅延を経験します。
レイヤーの数を減らすと、この遅延が減少する可能性がありますが、ネットワークの表現率は犠牲になります。
この作業では、遅延を最小限に抑えることとネットワークの表現力を最小限に抑えることのトレードオフを探ります。
歴史が熟成した観測と組み合わせた時間的スキップ接続を活用する理論的に動機付けられたソリューションを提示します。
いくつかのアーキテクチャを評価し、時間的スキップ接続を組み込んだものには、さまざまなニューロン実行時間、強化学習アルゴリズム、および4つのムホコタスクとすべてのミナタールゲームを含む環境で強力なパフォーマンスを実現することを示します。
さらに、並列ニューロン計算が標準のハードウェアで推論を6〜350%加速できることを示しています。
時間的なスキップ接続と並列計算の調査は、リアルタイムの設定でより効率的なRLエージェントへの道を開きます。

要約(オリジナル)

Real-time reinforcement learning (RL) introduces several challenges. First, policies are constrained to a fixed number of actions per second due to hardware limitations. Second, the environment may change while the network is still computing an action, leading to observational delay. The first issue can partly be addressed with pipelining, leading to higher throughput and potentially better policies. However, the second issue remains: if each neuron operates in parallel with an execution time of $\tau$, an $N$-layer feed-forward network experiences observation delay of $\tau N$. Reducing the number of layers can decrease this delay, but at the cost of the network’s expressivity. In this work, we explore the trade-off between minimizing delay and network’s expressivity. We present a theoretically motivated solution that leverages temporal skip connections combined with history-augmented observations. We evaluate several architectures and show that those incorporating temporal skip connections achieve strong performance across various neuron execution times, reinforcement learning algorithms, and environments, including four Mujoco tasks and all MinAtar games. Moreover, we demonstrate parallel neuron computation can accelerate inference by 6-350% on standard hardware. Our investigation into temporal skip connections and parallel computations paves the way for more efficient RL agents in real-time setting.

arxiv情報

著者 Ivan Anokhin,Rishav Rishav,Matthew Riemer,Stephen Chung,Irina Rish,Samira Ebrahimi Kahou
発行日 2025-03-30 15:30:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | Handling Delay in Real-Time Reinforcement Learning はコメントを受け付けていません

Improving Indoor Localization Accuracy by Using an Efficient Implicit Neural Map Representation

要約

既知のマップでモバイルロボットをグローバルにローカライズすることは、多くの場合、ロボットが自律的にナビゲートおよび操作できるようにするための基盤です。
屋内環境では、占有グリッドマップに基づく従来のモンテカルロのローカリゼーションはゴールドスタンダードと見なされますが、その精度は占有グリッドマップの表現機能によって制限されます。
この論文では、確率的なグローバルローカリゼーションを正確に実行できる効果的なマップ表現を構築する問題に対処します。
この目的のために、2D LIDARスキャンから位置的および方向性の幾何学的特徴をキャプチャできる暗黙の神経マップ表現を提案し、環境を効率的に表現し、マッピングされた環境での任意のポイントの非プロジェクトの署名距離と方向目的の射影距離の両方を予測できる神経ネットワークを学習します。
このニューラルマップ表現と軽量のニューラルネットワークの組み合わせにより、従来のモンテカルロローカリゼーションフレームワーク内でリアルタイムでロボットを推定するための効率的な観測モデルを設計することができます。
グローバルなローカリゼーションのために公開されているデータセットでの屋内ローカリゼーションへのアプローチを評価し、実験結果は、私たちのアプローチが、占有または既存のニューラルマップ表現を使用する他のローカリゼーションアプローチよりもモバイルロボットをより正確にローカライズできることを示しています。
2D LIDARローカリゼーションのために暗黙の神経マップ表現を採用する他のアプローチとは対照的に、このアプローチにより、収束後およびほぼリアルタイムのグローバルローカリゼーション後のリアルタイムポーズ追跡を実行できます。
アプローチのコードは、https://github.com/prbonn/enm-mclで入手できます。

要約(オリジナル)

Globally localizing a mobile robot in a known map is often a foundation for enabling robots to navigate and operate autonomously. In indoor environments, traditional Monte Carlo localization based on occupancy grid maps is considered the gold standard, but its accuracy is limited by the representation capabilities of the occupancy grid map. In this paper, we address the problem of building an effective map representation that allows to accurately perform probabilistic global localization. To this end, we propose an implicit neural map representation that is able to capture positional and directional geometric features from 2D LiDAR scans to efficiently represent the environment and learn a neural network that is able to predict both, the non-projective signed distance and a direction-aware projective distance for an arbitrary point in the mapped environment. This combination of neural map representation with a light-weight neural network allows us to design an efficient observation model within a conventional Monte Carlo localization framework for pose estimation of a robot in real time. We evaluated our approach to indoor localization on a publicly available dataset for global localization and the experimental results indicate that our approach is able to more accurately localize a mobile robot than other localization approaches employing occupancy or existing neural map representations. In contrast to other approaches employing an implicit neural map representation for 2D LiDAR localization, our approach allows to perform real-time pose tracking after convergence and near real-time global localization. The code of our approach is available at: https://github.com/PRBonn/enm-mcl.

arxiv情報

著者 Haofei Kuang,Yue Pan,Xingguang Zhong,Louis Wiesmann,Jens Behley,Cyrill Stachniss
発行日 2025-03-30 15:31:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Improving Indoor Localization Accuracy by Using an Efficient Implicit Neural Map Representation はコメントを受け付けていません

Boosting Omnidirectional Stereo Matching with a Pre-trained Depth Foundation Model

要約

完全な360 {\ deg}の視野でシーンの理解を必要とするモバイルロボットアプリケーションには、全方向性深度知覚が不可欠です。
カメラベースのセットアップは、ステレオ深度推定を使用して、高価なアクティブセンシングに依存せずに密集した高解像度の深度マップを生成することにより、費用対効果の高いオプションを提供します。
ただし、実際のデータが不足しているため、既存の全方向ステレオマッチングアプローチは、多様な環境、深さ範囲、および照明条件にわたって限られた深度精度のみを実現します。
Dfi-Omnistereoを提示します。これは、反復的最適化ベースのステレオマッチングアーキテクチャ内で相対的な単眼深度推定のための大規模な事前訓練の基礎モデルを活用する新しい最新のステレオマッチング方法です。
スケール不変の微調整の前に、全方向性ステレオマッチングに相対的な単眼深度の特徴を利用するための専用の2段階トレーニング戦略を紹介します。
DFI-OMNISTEREOは、実際のHelvipadデータセットで最新の結果を達成し、以前の最良の全部ステレオ法と比較して格差MAEを約16%削減します。

要約(オリジナル)

Omnidirectional depth perception is essential for mobile robotics applications that require scene understanding across a full 360{\deg} field of view. Camera-based setups offer a cost-effective option by using stereo depth estimation to generate dense, high-resolution depth maps without relying on expensive active sensing. However, existing omnidirectional stereo matching approaches achieve only limited depth accuracy across diverse environments, depth ranges, and lighting conditions, due to the scarcity of real-world data. We present DFI-OmniStereo, a novel omnidirectional stereo matching method that leverages a large-scale pre-trained foundation model for relative monocular depth estimation within an iterative optimization-based stereo matching architecture. We introduce a dedicated two-stage training strategy to utilize the relative monocular depth features for our omnidirectional stereo matching before scale-invariant fine-tuning. DFI-OmniStereo achieves state-of-the-art results on the real-world Helvipad dataset, reducing disparity MAE by approximately 16% compared to the previous best omnidirectional stereo method.

arxiv情報

著者 Jannik Endres,Oliver Hahn,Charles Corbière,Simone Schaub-Meyer,Stefan Roth,Alexandre Alahi
発行日 2025-03-30 16:24:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | Boosting Omnidirectional Stereo Matching with a Pre-trained Depth Foundation Model はコメントを受け付けていません

ROVER: A Multi-Season Dataset for Visual SLAM

要約

堅牢なスラムは、公園や庭園などの自然で半構造化された環境での自律的なナビゲーションのための重要なイネーブラーです。
ただし、これらの環境は、季節の頻繁な変化、さまざまな光条件、密な植生によるスラムの独自の課題を提示します。
これらの要因は、しばしば構造化された都市環境向けに開発された視覚スラムアルゴリズムの性能を低下させます。
このギャップに対処するために、多様な環境条件と空間構成の下で視覚的なスラムアルゴリズムを評価するために調整された包括的なベンチマークデータセットであるRoverを提示します。
Datasetを、Monocular、Stereo、およびRGBDカメラを備えたロボットプラットフォームと慣性センサーをキャプチャしました。
5つの屋外の場所で39の録音をカバーし、すべての季節とさまざまな照明シナリオ、つまり昼、夕暮れ、夜間の照明の有無にかかわらず収集されます。
この新しいデータセットを使用して、いくつかの従来および深い学習ベースのスラム方法を評価し、多様な挑戦的な条件でパフォーマンスを研究します。
結果は、ステレオインチールティアルおよびRGBDの構成は、一般に好ましい照明と中程度の植生の下でより良いパフォーマンスを発揮することを示していますが、ほとんどのスラムシステムは、特に夏と秋には、低光および高脈のシナリオではパフォーマンスが低いことを示しています。
私たちの分析では、現在のシステムがスケール、特徴抽出、軌道の一貫性に影響を与える動的な環境要因と闘っているため、屋外用途向けの視覚スラムアルゴリズムの適応性の向上の必要性が強調されています。
このデータセットは、現実世界の半構造化された環境で視覚的なスラム研究を進めるための強固な基盤を提供し、長期的な屋​​外のローカリゼーションとマッピングのためのより回復力のあるスラムシステムの開発を促進します。
データセットとベンチマークのコードは、https://iis-esslingen.github.io/roverで入手できます。

要約(オリジナル)

Robust SLAM is a crucial enabler for autonomous navigation in natural, semi-structured environments such as parks and gardens. However, these environments present unique challenges for SLAM due to frequent seasonal changes, varying light conditions, and dense vegetation. These factors often degrade the performance of visual SLAM algorithms originally developed for structured urban environments. To address this gap, we present ROVER, a comprehensive benchmark dataset tailored for evaluating visual SLAM algorithms under diverse environmental conditions and spatial configurations. We captured the dataset with a robotic platform equipped with monocular, stereo, and RGBD cameras, as well as inertial sensors. It covers 39 recordings across five outdoor locations, collected through all seasons and various lighting scenarios, i.e., day, dusk, and night with and without external lighting. With this novel dataset, we evaluate several traditional and deep learning-based SLAM methods and study their performance in diverse challenging conditions. The results demonstrate that while stereo-inertial and RGBD configurations generally perform better under favorable lighting and moderate vegetation, most SLAM systems perform poorly in low-light and high-vegetation scenarios, particularly during summer and autumn. Our analysis highlights the need for improved adaptability in visual SLAM algorithms for outdoor applications, as current systems struggle with dynamic environmental factors affecting scale, feature extraction, and trajectory consistency. This dataset provides a solid foundation for advancing visual SLAM research in real-world, semi-structured environments, fostering the development of more resilient SLAM systems for long-term outdoor localization and mapping. The dataset and the code of the benchmark are available under https://iis-esslingen.github.io/rover.

arxiv情報

著者 Fabian Schmidt,Julian Daubermann,Marcel Mitschke,Constantin Blessing,Stefan Meyer,Markus Enzweiler,Abhinav Valada
発行日 2025-03-30 17:53:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | ROVER: A Multi-Season Dataset for Visual SLAM はコメントを受け付けていません

Can Visuo-motor Policies Benefit from Random Exploration Data? A Case Study on Stacking

要約

人間のデモは、ロボット操作の最近の進歩の鍵でしたが、それらのスケーラビリティは、必要な人間の労働のかなりのコストによって妨げられています。
このホワイトペーパーでは、ロボット操作で視覚モーターポリシーをトレーニングするためにしばしば見落とされがちなリソースとして、ワークスペースのランダムにサンプリングされた位置への動きを介して自律的に生成されたランダム探索データとビデオシーケンスとアクションに焦点を当てています。
模倣学習の範囲内で、2つのパラダイムを介してランダム探査データを調べます。(a)3つの自己監視学習目標、コントラスト、および蒸留の損失、蒸留損失を備えたランダム探索ビデオフレームの使用を調査し、視覚的なトレーニングへの適用性を評価することにより。
(b)自律データ収集における有効性を評価するために、段階的な学習フレームワークのコンテキストでランダムモーターコマンドを分析することにより。
この目標に向けて、750時間以上のロボットデータ収集に基づいた大規模な実験的研究を提示し、400の成功したエピソードと12,000の失敗したエピソードを含みます。
我々の結果は、次のことを示しています。(a)3つの自己監視学習目標のうち、対照的な損失は、ランダムな探索ビデオフレームを活用しながら、視覚的なトレーニングに最も効果的であると思われます。
(b)ランダムモーターコマンドで収集されたデータは、トレーニングデータ分布のバランスをとり、自律データ収集の成功率を改善する上で重要な役割を果たす可能性があります。
ソースコードとデータセットは、https://cloudgripper.orgで公開されます。

要約(オリジナル)

Human demonstrations have been key to recent advancements in robotic manipulation, but their scalability is hampered by the substantial cost of the required human labor. In this paper, we focus on random exploration data-video sequences and actions produced autonomously via motions to randomly sampled positions in the workspace-as an often overlooked resource for training visuo-motor policies in robotic manipulation. Within the scope of imitation learning, we examine random exploration data through two paradigms: (a) by investigating the use of random exploration video frames with three self-supervised learning objectives-reconstruction, contrastive, and distillation losses-and evaluating their applicability to visual pre-training; and (b) by analyzing random motor commands in the context of a staged learning framework to assess their effectiveness in autonomous data collection. Towards this goal, we present a large-scale experimental study based on over 750 hours of robot data collection, comprising 400 successful and 12,000 failed episodes. Our results indicate that: (a) among the three self-supervised learning objectives, contrastive loss appears most effective for visual pre-training while leveraging random exploration video frames; (b) data collected with random motor commands may play a crucial role in balancing the training data distribution and improving success rates in autonomous data collection within this study. The source code and dataset will be made publicly available at https://cloudgripper.org.

arxiv情報

著者 Shutong Jin,Axel Kaliff,Ruiyu Wang,Muhammad Zahid,Florian T. Pokorny
発行日 2025-03-30 19:36:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Can Visuo-motor Policies Benefit from Random Exploration Data? A Case Study on Stacking はコメントを受け付けていません

Integral Forms in Matrix Lie Groups

要約

マトリックスの嘘グループは、ロボット工学、コンピュータービジョン、グラフィックスなどのフィールドでの動きを記述するための言語を提供します。
これらのツールを使用する場合、無限のシリーズの表現をよりコンパクトな有限シリーズ(例:オイラーロッドリゲスの式)に変えることに直面することがよくありますが、これは時々面倒です。
この論文では、コンパクトな分析結果を計算するためのより合理化された経路を提供するマトリックスLieグループ式のいくつかの有用な積分形態を特定します。
さらに、これらの表現の多くが相互に関連していることを示すこれらの積分形式のいくつかの再帰構造を提示します。
私たちのアプローチの鍵は、プロセスのかなり早い段階で嘘代数に最小限の多項式を適用して、派生全体を通して表現をコンパクトに保つ​​ことができることです。
シリーズアプローチでは、最小限の多項式が最後に適用されるため、結果の一般的な分析式を認識するのが難しくなります。
私たちの積分方法は、文献からいくつかのシリーズ由来の結果を再現できることを示しています。

要約(オリジナル)

Matrix Lie groups provide a language for describing motion in such fields as robotics, computer vision, and graphics. When using these tools, we are often faced with turning infinite-series expressions into more compact finite series (e.g., the Euler-Rodrigues formula), which can sometimes be onerous. In this paper, we identify some useful integral forms in matrix Lie group expressions that offer a more streamlined pathway for computing compact analytic results. Moreover, we present some recursive structures in these integral forms that show many of these expressions are interrelated. Key to our approach is that we are able to apply the minimal polynomial for a Lie algebra quite early in the process to keep expressions compact throughout the derivations. With the series approach, the minimal polynomial is usually applied at the end, making it hard to recognize common analytic expressions in the result. We show that our integral method can reproduce several series-derived results from the literature.

arxiv情報

著者 Timothy D Barfoot
発行日 2025-03-30 20:25:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Integral Forms in Matrix Lie Groups はコメントを受け付けていません

PhysPose: Refining 6D Object Poses with Physical Constraints

要約

画像からの正確な6Dオブジェクトのポーズ推定は、オブジェクト中心のシーンの理解における重要な問題であり、ロボット工学、拡張現実、シーンの再構築のアプリケーションを可能にします。
最近の進歩にもかかわらず、既存の方法はしばしば物理的に一貫性のないポーズ推定値を生み出し、実際のシナリオでの展開を妨げます。
Physposeを紹介します。これは、物理的な推論をポーズ推定に統合し、不浸透性と重力の制約を強制するポストプロセスの最適化を通じてポーズ推定に統合します。
シーンのジオメトリを活用することにより、Physposeはポーズの見積もりを改良して、物理的な妥当性を確保します。
私たちのアプローチは、BOPベンチマークからYCB-Videoデータセットの最先端の精度を達成し、Hope-Videoデータセットの最先端のポーズ推定方法を改善します。
さらに、挑戦的なピックアンドプレイスタスクでの成功率を大幅に改善し、実際のアプリケーションにおける物理的な一貫性の重要性を強調することにより、ロボット工学への影響を実証します。

要約(オリジナル)

Accurate 6D object pose estimation from images is a key problem in object-centric scene understanding, enabling applications in robotics, augmented reality, and scene reconstruction. Despite recent advances, existing methods often produce physically inconsistent pose estimates, hindering their deployment in real-world scenarios. We introduce PhysPose, a novel approach that integrates physical reasoning into pose estimation through a postprocessing optimization enforcing non-penetration and gravitational constraints. By leveraging scene geometry, PhysPose refines pose estimates to ensure physical plausibility. Our approach achieves state-of-the-art accuracy on the YCB-Video dataset from the BOP benchmark and improves over the state-of-the-art pose estimation methods on the HOPE-Video dataset. Furthermore, we demonstrate its impact in robotics by significantly improving success rates in a challenging pick-and-place task, highlighting the importance of physical consistency in real-world applications.

arxiv情報

著者 Martin Malenický,Martin Cífka,Médéric Fourmy,Louis Montaut,Justin Carpentier,Josef Sivic,Vladimir Petrik
発行日 2025-03-30 20:52:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | PhysPose: Refining 6D Object Poses with Physical Constraints はコメントを受け付けていません

Exploring GPT-4 for Robotic Agent Strategy with Real-Time State Feedback and a Reactive Behaviour Framework

要約

シミュレーションにおけるヒューマノイドロボットでのGPT-4の使用と、新しい大手言語モデル(LLM)駆動型の動作法の概念の証明として現実の世界を調査します。
LLMは、ロボットエージェントの動作を含むさまざまなタスクを実行する機能を示しています。
問題には、LLMに目標を促すことが含まれ、LLMはその目標を達成するために完了するためにサブタスクを出力します。
以前の作品は、LLMの生成されたタスクの実行可能性と正確性に焦点を当てています。
安全性、タスク間の移行、タスクの時間帯、状態のフィードバックに関する実際的な懸念に成功裏に対処する方法を提案します。
私たちの実験では、私たちのアプローチは、スムーズな移行で毎回実行できる実行可能な要求の出力を生成することがわかりました。
ユーザーの要求は、ほとんどの場合、ゴールタイムの範囲で達成されます。

要約(オリジナル)

We explore the use of GPT-4 on a humanoid robot in simulation and the real world as proof of concept of a novel large language model (LLM) driven behaviour method. LLMs have shown the ability to perform various tasks, including robotic agent behaviour. The problem involves prompting the LLM with a goal, and the LLM outputs the sub-tasks to complete to achieve that goal. Previous works focus on the executability and correctness of the LLM’s generated tasks. We propose a method that successfully addresses practical concerns around safety, transitions between tasks, time horizons of tasks and state feedback. In our experiments we have found that our approach produces output for feasible requests that can be executed every time, with smooth transitions. User requests are achieved most of the time across a range of goal time horizons.

arxiv情報

著者 Thomas O’Brien,Ysobel Sims
発行日 2025-03-30 21:53:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | Exploring GPT-4 for Robotic Agent Strategy with Real-Time State Feedback and a Reactive Behaviour Framework はコメントを受け付けていません