Bilevel Learning for Bilevel Planning

要約

デモンストレーションから学ぶロボットは、それが見ているものを真似するだけではありません。実証されている高レベルの概念を理解し、それらを新しいタスクに一般化する必要があります。
Bilevel Planningは、構成一般化を実現するために述語(関係状態の抽象化)を活用できる階層モデルベースのアプローチです。
ただし、以前のバイレベル計画のアプローチは、手工学または非常に単純なフォームに制限されている述語に依存しており、そのスケーラビリティを洗練された高次元の状態空間に制限しています。
この制限に対処するために、デモンストレーションから直接神経述語を学ぶことができる最初のバイレベル計画アプローチであるIVNTRを提示します。
私たちの主要な革新は、バイレベル計画の構造を反映したニューロシンボリックバイレベル学習フレームワークです。
IVNTRでは、述語「効果」の象徴的な学習と述語「関数」の代替の神経学習であり、それぞれが他方にガイダンスを提供します。
6つの多様なロボット計画ドメインでIVNTRを評価し、さまざまな連続および高次元の状態を抽象化する際の有効性を示しています。
ほとんどの既存のアプローチは一般化するのに苦労していますが(35%未満の成功率)、IVNTRは目に見えないタスクで平均77%の成功率を達成しています。
さらに、モバイルマニピュレーターでIVNTRを紹介します。モバイルマニピュレーターでは、実際のモバイル操作タスクを実行し、新しいオブジェクト、新しい状態、およびより長いタスクホリゾンを備えた目に見えないテストシナリオに一般化することを学びます。
私たちの調査結果は、高レベルの一般化への道として抽象化を伴う学習と計画の約束を強調しています。

要約(オリジナル)

A robot that learns from demonstrations should not just imitate what it sees — it should understand the high-level concepts that are being demonstrated and generalize them to new tasks. Bilevel planning is a hierarchical model-based approach where predicates (relational state abstractions) can be leveraged to achieve compositional generalization. However, previous bilevel planning approaches depend on predicates that are either hand-engineered or restricted to very simple forms, limiting their scalability to sophisticated, high-dimensional state spaces. To address this limitation, we present IVNTR, the first bilevel planning approach capable of learning neural predicates directly from demonstrations. Our key innovation is a neuro-symbolic bilevel learning framework that mirrors the structure of bilevel planning. In IVNTR, symbolic learning of the predicate ‘effects’ and neural learning of the predicate ‘functions’ alternate, with each providing guidance for the other. We evaluate IVNTR in six diverse robot planning domains, demonstrating its effectiveness in abstracting various continuous and high-dimensional states. While most existing approaches struggle to generalize (with <35% success rate), our IVNTR achieves an average of 77% success rate on unseen tasks. Additionally, we showcase IVNTR on a mobile manipulator, where it learns to perform real-world mobile manipulation tasks and generalizes to unseen test scenarios that feature new objects, new states, and longer task horizons. Our findings underscore the promise of learning and planning with abstractions as a path towards high-level generalization.

arxiv情報

著者 Bowen Li,Tom Silver,Sebastian Scherer,Alexander Gray
発行日 2025-02-16 20:43:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Bilevel Learning for Bilevel Planning はコメントを受け付けていません

Towards Real-Time Generation of Delay-Compensated Video Feeds for Outdoor Mobile Robot Teleoperation

要約

テレオ操作は、監督者が農業ロボットをリモートで制御できるようにするための重要な技術です。
ただし、密集した作物の列の環境要因とネットワークインフラストラクチャの制限は、テレオペレーターにストリーミングされたデータの信頼性を妨げています。
これらの問題は、ロボットの実際の視点から大幅に逸脱することが多い、遅延して可変のフレームレートビデオフィードをもたらします。
監督者向けの遅延補償画像をリアルタイムで生成するために、モジュラー学習ベースのビジョンパイプラインを提案します。
当社の広範なオフライン評価は、私たちの方法が、設定の最新のアプローチと比較して、より正確な画像を生成することを示しています。
さらに、私たちのものは、リアルタイムで実際のロボットからのデータ上の複雑な地形を持つ屋外フィールド環境で遅延補償法を評価するための数少ない作品の1つです。
結果のビデオとコードは、https://sites.google.com/illinois.edu/comp-teleopで提供されます。

要約(オリジナル)

Teleoperation is an important technology to enable supervisors to control agricultural robots remotely. However, environmental factors in dense crop rows and limitations in network infrastructure hinder the reliability of data streamed to teleoperators. These issues result in delayed and variable frame rate video feeds that often deviate significantly from the robot’s actual viewpoint. We propose a modular learning-based vision pipeline to generate delay-compensated images in real-time for supervisors. Our extensive offline evaluations demonstrate that our method generates more accurate images compared to state-of-the-art approaches in our setting. Additionally, ours is one of the few works to evaluate a delay-compensation method in outdoor field environments with complex terrain on data from a real robot in real-time. Resulting videos and code are provided at https://sites.google.com/illinois.edu/comp-teleop.

arxiv情報

著者 Neeloy Chakraborty,Yixiao Fang,Andre Schreiber,Tianchen Ji,Zhe Huang,Aganze Mihigo,Cassidy Wall,Abdulrahman Almana,Katherine Driggs-Campbell
発行日 2025-02-16 23:43:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Towards Real-Time Generation of Delay-Compensated Video Feeds for Outdoor Mobile Robot Teleoperation はコメントを受け付けていません

AI Guide Dog: Egocentric Path Prediction on Smartphone

要約

このペーパーでは、スマートフォンでのリアルタイムの展開用に設計された視覚障害のあるユーザー向けの軽量のエゴセントリック(一人称)ナビゲーションシステムであるAI Guide Dog(AIGD)を紹介します。
AIGDは、Visionのみのマルチラベル分類アプローチを採用して、方向性コマンドを予測し、多様な環境全体の安全なナビゲーションを確保しています。
GPSシグナルと高レベルの方向を統合することにより、目標のないマルチパス予測を整理することにより、目標ベースの屋外ナビゲーションの新しい手法を導入します。
AIGDは、屋内および屋外の設定における目標指向および探索的ナビゲーションの両方を処理する最初のナビゲーション支援システムとして、ブラインドナビゲーションの新しいベンチマークを確立します。
支援ナビゲーションシステムのさらなる革新を促進するために、方法、データセット、評価、展開の洞察を提示します。

要約(オリジナル)

This paper presents AI Guide Dog (AIGD), a lightweight egocentric (first-person) navigation system for visually impaired users, designed for real-time deployment on smartphones. AIGD employs a vision-only multi-label classification approach to predict directional commands, ensuring safe navigation across diverse environments. We introduce a novel technique for goal-based outdoor navigation by integrating GPS signals and high-level directions, while also handling uncertain multi-path predictions for destination-free indoor navigation. As the first navigation assistance system to handle both goal-oriented and exploratory navigation across indoor and outdoor settings, AIGD establishes a new benchmark in blind navigation. We present methods, datasets, evaluations, and deployment insights to encourage further innovations in assistive navigation systems.

arxiv情報

著者 Aishwarya Jadhav,Jeffery Cao,Abhishree Shetty,Urvashi Priyam Kumar,Aditi Sharma,Ben Sukboontip,Jayant Sravan Tamarapalli,Jingyi Zhang,Anirudh Koul
発行日 2025-02-17 00:40:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.HC, cs.LG, cs.RO | AI Guide Dog: Egocentric Path Prediction on Smartphone はコメントを受け付けていません

VertiSelector: Automatic Curriculum Learning for Wheeled Mobility on Vertically Challenging Terrain

要約

強化学習(RL)は、シミュレート対エンドの試行錯誤の学習体験により、複雑な運動力学モデリング、計画、および制御を回避することにより、極端なオフロードモビリティを可能にする可能性があります。
ただし、ほとんどのRLメソッドは、手動で設計された大量のシミュレーション環境でトレーニングし、現実の世界に一般化するのに苦労する場合、サンプルが不足しています。
これらの問題に対処するために、トレーニング地域を選択的にサンプリングすることにより、学習効率と一般化を強化するために設計された自動カリキュラム学習フレームワークであるVertiselector(VS)を紹介します。
VSは、再検討時により高い時間差(TD)エラーで垂直に挑戦する地形を優先し、それにより、ロボットが進化する機能の端で学習できるようにします。
サンプリングフォーカスを動的に調整することにより、Chrono Multi-Physicsエンジンに基づいて構築されたVW-Chronoシミュレーター内のサンプル効率と一般化を大幅に向上させます。
さらに、VERTI-4ホイーラープラットフォームでVSを使用して、シミュレーションと物理的結果を提供します。
これらの結果は、VSがトレーニング中に効率的にサンプリングし、現実の世界に堅牢に一般化することにより、成功率に関して23.08%の改善を達成できることを示しています。

要約(オリジナル)

Reinforcement Learning (RL) has the potential to enable extreme off-road mobility by circumventing complex kinodynamic modeling, planning, and control by simulated end-to-end trial-and-error learning experiences. However, most RL methods are sample-inefficient when training in a large amount of manually designed simulation environments and struggle at generalizing to the real world. To address these issues, we introduce VertiSelector (VS), an automatic curriculum learning framework designed to enhance learning efficiency and generalization by selectively sampling training terrain. VS prioritizes vertically challenging terrain with higher Temporal Difference (TD) errors when revisited, thereby allowing robots to learn at the edge of their evolving capabilities. By dynamically adjusting the sampling focus, VS significantly boosts sample efficiency and generalization within the VW-Chrono simulator built on the Chrono multi-physics engine. Furthermore, we provide simulation and physical results using VS on a Verti-4-Wheeler platform. These results demonstrate that VS can achieve 23.08% improvement in terms of success rate by efficiently sampling during training and robustly generalizing to the real world.

arxiv情報

著者 Tong Xu,Chenhui Pan,Xuesu Xiao
発行日 2025-02-17 02:06:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | VertiSelector: Automatic Curriculum Learning for Wheeled Mobility on Vertically Challenging Terrain はコメントを受け付けていません

A Framework for Learning Scoring Rules in Autonomous Driving Planning Systems

要約

自律駆動システムでは、モーション計画は一般に2段階のプロセスとして実装されます。まず、軌道提案者が複数の候補の軌跡を生成し、スコアリングメカニズムが実行に最も適した軌跡を選択します。
この重要な選択段階では、ルールベースのスコアリングメカニズムは、形式化された人間的理解可能な形式で運転の好み、安全上の制約、および交通規制を明示的にエンコードできるため、特に魅力的です。
ただし、これらのスコアリングルールを手動で作成するには、重要な課題があります。ルールには、多くの場合、複雑な相互依存関係が含まれ、慎重なパラメーターチューニングが必要であり、実際の駆動データに存在するニュアンスを完全にキャプチャできない場合があります。
この作業では、時間論的論理で表される解釈可能なスコアリングルールを学ぶことでこのギャップを埋める新しいフレームワークであるFloraを紹介します。
私たちの方法は、多様な運転シナリオ全体で微妙な関係を捉えた学習可能なロジック構造を特徴としており、Nuplanで収集された現実世界の運転デモからルールとパラメーターの両方を最適化します。
トレーニングデータには肯定的な例のみが含まれているにもかかわらず、私たちのアプローチは運転行動を評価することを効果的に学びます(運転デモンストレーションの成功)。
閉ループ計画シミュレーションの評価は、学習したスコアリングルールが、解釈可能性を維持しながら、専門家が設計したルールやニューラルネットワークスコアリングモデルを含む既存の手法を上回ることを示しています。
この作業では、さまざまな軌道提案者とシームレスに統合するためのプラグインモジュールとして設計された自律運転システムのスコアリングメカニズムを強化するためのデータ駆動型のアプローチを紹介します。
私たちのビデオとコードはXiong.zikang.me/floraで入手できます。

要約(オリジナル)

In autonomous driving systems, motion planning is commonly implemented as a two-stage process: first, a trajectory proposer generates multiple candidate trajectories, then a scoring mechanism selects the most suitable trajectory for execution. For this critical selection stage, rule-based scoring mechanisms are particularly appealing as they can explicitly encode driving preferences, safety constraints, and traffic regulations in a formalized, human-understandable format. However, manually crafting these scoring rules presents significant challenges: the rules often contain complex interdependencies, require careful parameter tuning, and may not fully capture the nuances present in real-world driving data. This work introduces FLoRA, a novel framework that bridges this gap by learning interpretable scoring rules represented in temporal logic. Our method features a learnable logic structure that captures nuanced relationships across diverse driving scenarios, optimizing both rules and parameters directly from real-world driving demonstrations collected in NuPlan. Our approach effectively learns to evaluate driving behavior even though the training data only contains positive examples (successful driving demonstrations). Evaluations in closed-loop planning simulations demonstrate that our learned scoring rules outperform existing techniques, including expert-designed rules and neural network scoring models, while maintaining interpretability. This work introduces a data-driven approach to enhance the scoring mechanism in autonomous driving systems, designed as a plug-in module to seamlessly integrate with various trajectory proposers. Our video and code are available on xiong.zikang.me/FLoRA.

arxiv情報

著者 Zikang Xiong,Joe Kurian Eappen,Suresh Jagannathan
発行日 2025-02-17 02:06:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | A Framework for Learning Scoring Rules in Autonomous Driving Planning Systems はコメントを受け付けていません

HI-GVF: Shared Control based on Human-Influenced Guiding Vector Fields for Human-multi-robot Cooperation

要約

Human-Multi-Robot共有コントロールは、ヒューマンロボットコラボレーションを強化するために、人間の意思決定とロボットの自律性を活用します。
広く研究されていますが、既存のシステムはしばしばリーダーフォロワーモデルを採用し、ロボットの自律性をある程度制限します。
その上、人間はテレオ操作を介してロボットのモーション制御に直接参加する必要があります。
これら2つの問題を軽減するために、ヒトロボットコラボレーションのためにヒトの影響を受けたガイドベクトルフィールド(HI-GVF)を使用して、層状の共有制御コンピューティングフレームワークを提案します。
Hi-GVFは、人間によって指定された目的のパスに沿ってマルチロボットシステムを導きます。
次に、意図フィールドは、人間とロボットの意図をマージし、マルチロボットシステム内の人間の意図の伝播を加速するように設計されています。
さらに、提案されたモデルの安定性分析を提供し、速度を微調整するために安全障壁証明書に基づいて衝突回避を使用します。
最終的に、消防タスクを例のシナリオとして考慮すると、複数のヒトロボットインターフェイス(脳コンピューターインターフェイス、筋電リスト、アイトラッキング)を使用してシミュレーションと実験を実施します。
タスク。

要約(オリジナル)

Human-multi-robot shared control leverages human decision-making and robotic autonomy to enhance human-robot collaboration. While widely studied, existing systems often adopt a leader-follower model, limiting robot autonomy to some extent. Besides, a human is required to directly participate in the motion control of robots through teleoperation, which significantly burdens the operator. To alleviate these two issues, we propose a layered shared control computing framework using human-influenced guiding vector fields (HI-GVF) for human-robot collaboration. HI-GVF guides the multi-robot system along a desired path specified by the human. Then, an intention field is designed to merge the human and robot intentions, accelerating the propagation of the human intention within the multi-robot system. Moreover, we give the stability analysis of the proposed model and use collision avoidance based on safety barrier certificates to fine-tune the velocity. Eventually, considering the firefighting task as an example scenario, we conduct simulations and experiments using multiple human-robot interfaces (brain-computer interface, myoelectric wristband, eye-tracking), and the results demonstrate that our proposed approach boosts the effectiveness and performance of the task.

arxiv情報

著者 Pengming Zhu,Zongtan Zhou,Weijia Yao,Wei Dai,Zhiwen Zeng,Huimin Lu
発行日 2025-02-17 02:33:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | HI-GVF: Shared Control based on Human-Influenced Guiding Vector Fields for Human-multi-robot Cooperation はコメントを受け付けていません

Robot Deformable Object Manipulation via NMPC-generated Demonstrations in Deep Reinforcement Learning

要約

この作業では、デモンストレーション強化強化学習(RL)に基づいて、ロボットによる変形可能なオブジェクト操作に関する研究を実施しました。
RLの学習効率を向上させるために、複数の側面からのデモデータの利用を強化し、HGCR-DDPGアルゴリズムを提案しました。
把握ポイント選択のために新しい高次元ファジーアプローチ、洗練された動作クローニング方法で、虹色のDDPGでのデータ駆動型学習を強化し、順次政策学習戦略を使用します。
ベースラインアルゴリズム(Rainbow-DDPG)と比較して、提案されたHGCR-DDPGはグローバル平均報酬の2.01倍を達成し、グローバル平均標準偏差をベースラインアルゴリズムの45%に減らしました。
デモンストレーションコレクションの人件費を削減するために、非線形モデル予測制御(NMPC)に基づく低コストのデモコレクション方法を提案しました。
シミュレーション実験結果は、NMPCを介して収集されたデモンストレーションを使用してHGCR-DDPGをトレーニングできることを示しており、人間のデモンストレーションで得られた結果と同等の結果を達成できます。
実際の環境で提案された方法の実現可能性を検証するために、変形可能なオブジェクト操作を含む物理実験を実施しました。
生地を操作して、斜めの折りたたみ、中央軸の折りたたみ、平坦化の3つのタスクを実行しました。
実験結果は、提案された方法が、これら3つのタスクでそれぞれ83.3%、80%、および100%の成功率を達成し、アプローチの有効性を検証したことを示しています。
ロボット操作の現在の大型モデルアプローチと比較して、提案されたアルゴリズムは軽量であり、計算リソースが少なく、特定のタスクにタスク固有のカスタマイズと効率的な適応性を提供します。

要約(オリジナル)

In this work, we conducted research on deformable object manipulation by robots based on demonstration-enhanced reinforcement learning (RL). To improve the learning efficiency of RL, we enhanced the utilization of demonstration data from multiple aspects and proposed the HGCR-DDPG algorithm. It uses a novel high-dimensional fuzzy approach for grasping-point selection, a refined behavior-cloning method to enhance data-driven learning in Rainbow-DDPG, and a sequential policy-learning strategy. Compared to the baseline algorithm (Rainbow-DDPG), our proposed HGCR-DDPG achieved 2.01 times the global average reward and reduced the global average standard deviation to 45% of that of the baseline algorithm. To reduce the human labor cost of demonstration collection, we proposed a low-cost demonstration collection method based on Nonlinear Model Predictive Control (NMPC). Simulation experiment results show that demonstrations collected through NMPC can be used to train HGCR-DDPG, achieving comparable results to those obtained with human demonstrations. To validate the feasibility of our proposed methods in real-world environments, we conducted physical experiments involving deformable object manipulation. We manipulated fabric to perform three tasks: diagonal folding, central axis folding, and flattening. The experimental results demonstrate that our proposed method achieved success rates of 83.3%, 80%, and 100% for these three tasks, respectively, validating the effectiveness of our approach. Compared to current large-model approaches for robot manipulation, the proposed algorithm is lightweight, requires fewer computational resources, and offers task-specific customization and efficient adaptability for specific tasks.

arxiv情報

著者 Haoyuan Wang,Zihao Dong,Hongliang Lei,Zejia Zhang,Weizhuang Shi,Wei Luo,Weiwei Wan,Jian Huang
発行日 2025-02-17 02:41:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | Robot Deformable Object Manipulation via NMPC-generated Demonstrations in Deep Reinforcement Learning はコメントを受け付けていません

PrivilegedDreamer: Explicit Imagination of Privileged Information for Rapid Adaptation of Learned Policies

要約

多くの現実世界のコントロールの問題には、自律運転からロボットへの操作に至るまで、観測不能な隠されたパラメーターの影響を受けるダイナミクスと目的が含まれます。
これらの種類のドメインを表すために、隠された変数が遷移関数と報酬機能をパラメーター化する順次決定問題をモデル化する隠されたパラメーターマルコフ決定プロセス(HIP-MDP)を採用します。
ドメインランダム化、ドメイン適応、メタラーニングなどの既存のアプローチは、隠されたパラメーターの効果を追加の分散として単純に扱い、特に報酬が隠された変数によってパラメーター化されている場合、HIP-MDPの問題を効果的に処理するのに苦労することが多い

明示的なパラメーター推定モジュールを組み込むことにより、既存のモデルベースのアプローチを拡張するモデルベースの強化学習フレームワークである特権Dreamerを紹介します。
特権的なDreamerは、限られた履歴データから隠されたパラメーターを明示的に推定し、これらの推定パラメーターでモデル、アクター、および批評家ネットワークを条件付けることができる新しいデュアルリカレントアーキテクチャを備えています。
5つの多様なHIP-MDPタスクに関する経験的分析は、特権的なドレアマーが最新のモデルベース、モデル、および主要な適応学習アルゴリズムよりも優れていることを示しています。
さらに、提案されたアーキテクチャに各コンポーネントを含めることを正当化するためにアブレーション研究を実施します。

要約(オリジナル)

Numerous real-world control problems involve dynamics and objectives affected by unobservable hidden pa- rameters, ranging from autonomous driving to robotic manipu- lation, which cause performance degradation during sim-to-real transfer. To represent these kinds of domains, we adopt hidden- parameter Markov decision processes (HIP-MDPs), which model sequential decision problems where hidden variables parameterize transition and reward functions. Existing ap- proaches, such as domain randomization, domain adaptation, and meta-learning, simply treat the effect of hidden param- eters as additional variance and often struggle to effectively handle HIP-MDP problems, especially when the rewards are parameterized by hidden variables. We introduce Privileged- Dreamer, a model-based reinforcement learning framework that extends the existing model-based approach by incorporating an explicit parameter estimation module. PrivilegedDreamer features its novel dual recurrent architecture that explicitly estimates hidden parameters from limited historical data and enables us to condition the model, actor, and critic networks on these estimated parameters. Our empirical analysis on five diverse HIP-MDP tasks demonstrates that PrivilegedDreamer outperforms state-of-the-art model-based, model-free, and do- main adaptation learning algorithms. Additionally, we conduct ablation studies to justify the inclusion of each component in the proposed architecture.

arxiv情報

著者 Morgan Byrd,Jackson Crandell,Mili Das,Jessica Inman,Robert Wright,Sehoon Ha
発行日 2025-02-17 02:46:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | PrivilegedDreamer: Explicit Imagination of Privileged Information for Rapid Adaptation of Learned Policies はコメントを受け付けていません

Rethinking Latent Representations in Behavior Cloning: An Information Bottleneck Approach for Robot Manipulation

要約

動作クローニング(BC)は、ロボット操作において広く採用されている視覚模倣学習方法です。
現在のBCアプローチは、大規模なデータセットを活用し、追加の視覚的およびテキストモダリティを組み込んで、より多様な情報をキャプチャすることにより、一般化を強化することがよくあります。
ただし、これらの方法は、学習した表現に冗長な情報が含まれているかどうかを見落としており、学習プロセスを導くための強固な理論的基盤がありません。
これらの制限に対処するために、情報理論的視点を採用し、相互情報を導入して、潜在的な表現の冗長性を定量化し、軽減します。
これに基づいて、情報ボトルネック(IB)原則をBCに組み込みます。これにより、タスク関連の機能を維持しながら、無関係な情報を圧縮するための構造化されたフレームワークを提供することにより、冗長性を削減するという考えが拡張されます。
この作業は、IBの一般化可能性をBCに拡張しながら、さまざまな方法、バックボーン、および実験設定にわたる潜在的な表現における冗長性に関する最初の包括的な研究を提示します。
皮質ベンチとリベロのベンチマークの広範な実験と分析は、IBによる大幅なパフォーマンスの改善を示しており、入力データの冗長性を減らし、より実用的なアプリケーションの実用的な価値を強調することの重要性を強調しています。
プロジェクトページ:https://baishuanghao.github.io/bc-ib.github.io。

要約(オリジナル)

Behavior Cloning (BC) is a widely adopted visual imitation learning method in robot manipulation. Current BC approaches often enhance generalization by leveraging large datasets and incorporating additional visual and textual modalities to capture more diverse information. However, these methods overlook whether the learned representations contain redundant information and lack a solid theoretical foundation to guide the learning process. To address these limitations, we adopt an information-theoretic perspective and introduce mutual information to quantify and mitigate redundancy in latent representations. Building on this, we incorporate the Information Bottleneck (IB) principle into BC, which extends the idea of reducing redundancy by providing a structured framework for compressing irrelevant information while preserving task-relevant features. This work presents the first comprehensive study on redundancy in latent representations across various methods, backbones, and experimental settings, while extending the generalizability of the IB to BC. Extensive experiments and analyses on the CortexBench and LIBERO benchmarks demonstrate significant performance improvements with IB, underscoring the importance of reducing input data redundancy and highlighting its practical value for more practical applications. Project Page: https://baishuanghao.github.io/BC-IB.github.io.

arxiv情報

著者 Shuanghao Bai,Wanqi Zhou,Pengxiang Ding,Wei Zhao,Donglin Wang,Badong Chen
発行日 2025-02-17 04:04:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | Rethinking Latent Representations in Behavior Cloning: An Information Bottleneck Approach for Robot Manipulation はコメントを受け付けていません

Verti-Bench: A General and Scalable Off-Road Mobility Benchmark for Vertically Challenging Terrain

要約

オフロードの自治における最近の進歩は、屋外のオフロード環境に自動運動モバイルロボットを展開するという約束を示しています。
励ましの結果は、シミュレートされた実験と実世界の両方の実験から報告されています。
ただし、静的データセットでオフロードの認識タスクを評価するのとは異なり、ベンチマークオフロードモビリティは、車両プラットフォームや地形特性の変動など、さまざまな要因のために依然として大きな課題に直面しています。
さらに、モビリティ評価中に異なる車両とテレインの相互作用を展開する必要があります。これにより、事前に収集されたデータセットと比較する代わりに、モビリティシステムが環境と対話する必要があります。
このホワイトペーパーでは、非常に頑丈で垂直に挑戦的なオフロード環境に焦点を当てたモビリティベンチマークであるVerti-Benchを紹介します。
100のユニークなオフロード環境と、さまざまなジオメトリとセマンティクス、剛性と変形可能な表面、大きな自然障害など、数百万のオフロード地形特性を備えた1000の異なるナビゲーションタスクは、高忠実度の多物理学の標準化された客観的評価を提供します
シミュレーション。
Verti-Benchは、異なるスケールと作動メカニズムを備えたさまざまな車両プラットフォームにもスケーラブルです。
また、専門家のデモンストレーション、ランダム探査、障害ケース(ロールオーバーと行き詰まり)、および強化学習のためのジムのようなインターフェイスからのデータセットも提供します。
Verti-Benchを使用して、10のオフロードモビリティシステムをベンチマークし、調査結果を提示し、将来のオフロードモビリティの研究方向を特定します。

要約(オリジナル)

Recent advancement in off-road autonomy has shown promises in deploying autonomous mobile robots in outdoor off-road environments. Encouraging results have been reported from both simulated and real-world experiments. However, unlike evaluating off-road perception tasks on static datasets, benchmarking off-road mobility still faces significant challenges due to a variety of factors, including variations in vehicle platforms and terrain properties. Furthermore, different vehicle-terrain interactions need to be unfolded during mobility evaluation, which requires the mobility systems to interact with the environments instead of comparing against a pre-collected dataset. In this paper, we present Verti-Bench, a mobility benchmark that focuses on extremely rugged, vertically challenging off-road environments. 100 unique off-road environments and 1000 distinct navigation tasks with millions of off-road terrain properties, including a variety of geometry and semantics, rigid and deformable surfaces, and large natural obstacles, provide standardized and objective evaluation in high-fidelity multi-physics simulation. Verti-Bench is also scalable to various vehicle platforms with different scales and actuation mechanisms. We also provide datasets from expert demonstration, random exploration, failure cases (rolling over and getting stuck), as well as a gym-like interface for reinforcement learning. We use Verti-Bench to benchmark ten off-road mobility systems, present our findings, and identify future off-road mobility research directions.

arxiv情報

著者 Tong Xu,Chenhui Pan,Madhan B. Rao,Aniket Datar,Anuj Pokhrel,Yuanjie Lu,Xuesu Xiao
発行日 2025-02-17 04:37:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Verti-Bench: A General and Scalable Off-Road Mobility Benchmark for Vertically Challenging Terrain はコメントを受け付けていません