Budget-optimal multi-robot layout design for box sorting

要約

ロボットシステムは、運用効率を向上させるためにロジスティクス業界で日常的に使用されていますが、ロボットワークスペースの設計は複雑で手動タスクのままであり、システムの柔軟性を変化する需要に対する柔軟性を制限しています。
このペーパーは、計算フレームワークを提案して、特定の入力場所と出力位置からパッケージを並べ替えるために固定ロボットをフロアグリッドに選択的に配置することにより、予算最大化レイアウトを生成するための計算フレームワークを提案することにより、ロボットワークスペースの設計を自動化することを目的としています。
モーションの実現可能性を確保しながらハードウェアの予算を最小限に抑える適切なレイアウトを見つけることは、非凸モーションの制約を伴う挑戦的な組み合わせの問題です。
ネットワークフローの制約を条件として、レイアウト計画をサブグラフ最適化問題としてモデル化する新しい最適化ベースのアプローチを提案します。
私たちの中心的な洞察は、運動学的到達可能性グラフを事前に計算して、このグラウンドグラフに最適なレイアウトを抽出することにより、レイアウト最適化からのモーションの制約を抽象化することです。
簡単なタスクの割り当てとモーション計画手法を提案することにより、アプローチのモーションの実現可能性を検証します。
さまざまなグリッド解像度と出力の数の問題に関するアルゴリズムをベンチマークし、ヒューリスティック検索アルゴリズムよりもメモリ効率の改善を示します。

要約(オリジナル)

Robotic systems are routinely used in the logistics industry to enhance operational efficiency, but the design of robot workspaces remains a complex and manual task, which limits the system’s flexibility to changing demands. This paper aims to automate robot workspace design by proposing a computational framework to generate a budget-minimizing layout by selectively placing stationary robots on a floor grid to sort packages from given input and output locations. Finding a good layout that minimizes the hardware budget while ensuring motion feasibility is a challenging combinatorial problem with nonconvex motion constraints. We propose a new optimization-based approach that models layout planning as a subgraph optimization problem subject to network flow constraints. Our core insight is to abstract away motion constraints from the layout optimization by precomputing a kinematic reachability graph and then extract the optimal layout on this ground graph. We validate the motion feasibility of our approach by proposing a simple task assignment and motion planning technique. We benchmark our algorithm on problems with various grid resolutions and number of outputs and show improvements in memory efficiency over a heuristic search algorithm.

arxiv情報

著者 Peiyu Zeng,Yijiang Huang,Simon Huber,Stelian Coros
発行日 2025-03-07 08:29:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Budget-optimal multi-robot layout design for box sorting はコメントを受け付けていません

A Map-free Deep Learning-based Framework for Gate-to-Gate Monocular Visual Navigation aboard Miniaturized Aerial Vehicles

要約

手のひらサイズの自律的なナノドロン、つまり重量のサブ50gは最近、ドローンレースシナリオに入りました。そこでは、障害物を避け、ゲートをできるだけ早くナビゲートするように任されています。
ただし、より大きなカウンターパート、つまりKGスケールドローンとは対照的に、Nano-Dronesは3桁のオンボードメモリとコンピューティングパワーを公開し、より効率的で軽量のビジョンベースのパイプラインを要求してレースに勝ちます。
この作品は、リアルタイムのディープラーニングゲート検出フロントエンドとクラシックでありながらエレガントで効果的な視覚サーボのバックエンドを組み合わせた、マップフリーのビジョンベース(単眼カメラのみを使用)自律ナノドローンを提供します。
2つの最先端の小さなディープラーニングモデルから始めて、特定のタスクに適応し、混合シミュレーターリアルワールドトレーニングの後、ナノドローンに統合および展開します。
最良のパイプラインコストは、フレームごとに24mの乗算操作のわずか24mのパイプラインコストであり、30 Hzの閉ループ制御性能をもたらし、〜20kの実際の画像データセットでゲート検出ルートルート平方誤差1.4ピクセルを達成します。
フィールド内実験は、ナノドローンの能力を強調しており、4分で15個のゲートを正常にナビゲートします。これは、100mの総移動距離をクラッシュせず、1.9 m/sのピーク飛行速度をカバーします。
最後に、システムの一般化能力を強調するために、これまでにない環境でそれをテストし、そこで4分以上ゲートをナビゲートします。

要約(オリジナル)

Palm-sized autonomous nano-drones, i.e., sub-50g in weight, recently entered the drone racing scenario, where they are tasked to avoid obstacles and navigate as fast as possible through gates. However, in contrast with their bigger counterparts, i.e., kg-scale drones, nano-drones expose three orders of magnitude less onboard memory and compute power, demanding more efficient and lightweight vision-based pipelines to win the race. This work presents a map-free vision-based (using only a monocular camera) autonomous nano-drone that combines a real-time deep learning gate detection front-end with a classic yet elegant and effective visual servoing control back-end, only relying on onboard resources. Starting from two state-of-the-art tiny deep learning models, we adapt them for our specific task, and after a mixed simulator-real-world training, we integrate and deploy them aboard our nano-drone. Our best-performing pipeline costs of only 24M multiply-accumulate operations per frame, resulting in a closed-loop control performance of 30 Hz, while achieving a gate detection root mean square error of 1.4 pixels, on our ~20k real-world image dataset. In-field experiments highlight the capability of our nano-drone to successfully navigate through 15 gates in 4 min, never crashing and covering a total travel distance of ~100m, with a peak flight speed of 1.9 m/s. Finally, to stress the generalization capability of our system, we also test it in a never-seen-before environment, where it navigates through gates for more than 4 min.

arxiv情報

著者 Lorenzo Scarciglia,Antonio Paolillo,Daniele Palossi
発行日 2025-03-07 09:07:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | A Map-free Deep Learning-based Framework for Gate-to-Gate Monocular Visual Navigation aboard Miniaturized Aerial Vehicles はコメントを受け付けていません

PseudoTouch: Efficiently Imaging the Surface Feel of Objects for Robotic Manipulation

要約

触覚センシングは、人間の器用な操作に不可欠ですが、ロボット工学では広く使用されていません。
コンパクトで低コストのセンシングプラットフォームは変化を促進できますが、人気のある光学式のカウンターパートとは異なり、信号の次元が低く、シミュレーションモデルがないため、高忠実度のタスクに展開することは困難です。
これらの課題を克服するために、高次元の構造情報を低次元センサー信号にリンクするPseudotouchを導入します。
これは、低次元の視覚触覚埋め込みを学習することでそうします。そこでは、触覚信号を解読する深さパッチをエンコードします。
8つの基本的な幾何学的形状のランダムな接触によって得られた整列した触覚と視覚データのペアを含むデータセットでPseudotouchを収集して訓練します。
オブジェクト認識と安定性予測の把握という2つの下流タスクで、訓練されたPseudotouchモデルの有用性を実証します。
オブジェクト認識タスクでは、5つの基本的な幾何学的形状と5つの家庭用オブジェクトのセットで、学習した埋め込みのパフォーマンスを評価します。
Pseudotouchを使用して、わずか10回のタッチの後、オブジェクト認識の精度84%を達成し、固有受容ベースラインを上回ります。
把握安定性タスクでは、頭字語ラベルを使用して、仮想深度情報から派生したPseudotouchの予測を使用して、成功予測子を把握および評価します。
私たちのアプローチは、部分ポイントクラウドデータに依存しているベースラインと比較して、精度が32%絶対的な改善をもたらします。
データ、コード、トレーニングモデルをhttps://pseudotouch.cs.uni-freiburg.deで公開しています。

要約(オリジナル)

Tactile sensing is vital for human dexterous manipulation, however, it has not been widely used in robotics. Compact, low-cost sensing platforms can facilitate a change, but unlike their popular optical counterparts, they are difficult to deploy in high-fidelity tasks due to their low signal dimensionality and lack of a simulation model. To overcome these challenges, we introduce PseudoTouch which links high-dimensional structural information to low-dimensional sensor signals. It does so by learning a low-dimensional visual-tactile embedding, wherein we encode a depth patch from which we decode the tactile signal. We collect and train PseudoTouch on a dataset comprising aligned tactile and visual data pairs obtained through random touching of eight basic geometric shapes. We demonstrate the utility of our trained PseudoTouch model in two downstream tasks: object recognition and grasp stability prediction. In the object recognition task, we evaluate the learned embedding’s performance on a set of five basic geometric shapes and five household objects. Using PseudoTouch, we achieve an object recognition accuracy 84% after just ten touches, surpassing a proprioception baseline. For the grasp stability task, we use ACRONYM labels to train and evaluate a grasp success predictor using PseudoTouch’s predictions derived from virtual depth information. Our approach yields a 32% absolute improvement in accuracy compared to the baseline relying on partial point cloud data. We make the data, code, and trained models publicly available at https://pseudotouch.cs.uni-freiburg.de.

arxiv情報

著者 Adrian Röfer,Nick Heppert,Abdallah Ayad,Eugenio Chisari,Abhinav Valada
発行日 2025-03-07 09:18:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | PseudoTouch: Efficiently Imaging the Surface Feel of Objects for Robotic Manipulation はコメントを受け付けていません

Evidential Uncertainty Estimation for Multi-Modal Trajectory Prediction

要約

正確な軌道予測は自律的な運転には不可欠ですが、エージェントの行動と知覚ノイズの不確実性は本質的に挑戦的です。
マルチモーダル軌道予測モデルは、関連する確率を持つ複数のもっともらしい将来のパスを生成しますが、不確実性を効果的に定量化することは未解決の問題のままです。
この作業では、位置とモードの確率の両方の不確実性をリアルタイムで推定する証拠的な深い学習に基づいて、新しいマルチモーダル軌道予測アプローチを提案します。
私たちのアプローチは、位置の不確実性のための通常の逆ガンマ分布とモードの不確実性のためのディリクレの分布を活用しています。
サンプリングベースのメソッドとは異なり、単一のフォワードパスに両方のタイプの不確実性を導き、効率を大幅に改善します。
さらに、不確実性駆動型の重要性サンプリングを実験して、冗長なサンプルよりも過小評価されている高逃走サンプルに優先順位を付けることにより、トレーニング効率を改善しました。
Argovers 1での方法の広範な評価を実行し、2つのデータセットをArwoverseで実行し、高い軌道予測精度を維持しながら信頼できる不確実性の推定値を提供することを示しています。

要約(オリジナル)

Accurate trajectory prediction is crucial for autonomous driving, yet uncertainty in agent behavior and perception noise makes it inherently challenging. While multi-modal trajectory prediction models generate multiple plausible future paths with associated probabilities, effectively quantifying uncertainty remains an open problem. In this work, we propose a novel multi-modal trajectory prediction approach based on evidential deep learning that estimates both positional and mode probability uncertainty in real time. Our approach leverages a Normal Inverse Gamma distribution for positional uncertainty and a Dirichlet distribution for mode uncertainty. Unlike sampling-based methods, it infers both types of uncertainty in a single forward pass, significantly improving efficiency. Additionally, we experimented with uncertainty-driven importance sampling to improve training efficiency by prioritizing underrepresented high-uncertainty samples over redundant ones. We perform extensive evaluations of our method on the Argoverse 1 and Argoverse 2 datasets, demonstrating that it provides reliable uncertainty estimates while maintaining high trajectory prediction accuracy.

arxiv情報

著者 Sajad Marvi,Christoph Rist,Julian Schmidt,Julian Jordan,Abhinav Valada
発行日 2025-03-07 09:46:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Evidential Uncertainty Estimation for Multi-Modal Trajectory Prediction はコメントを受け付けていません

Context-Based Meta Reinforcement Learning for Robust and Adaptable Peg-in-Hole Assembly Tasks

要約

未知の環境でのペグインホールアセンブリは、オンボードセンサーエラーのために困難なタスクであり、その結果、穴の位置や方向などのタスクパラメーターの不確実性と変動が生じます。
Meta Rehnection Learning(Meta RL)は、さまざまなパラメーターを持つ新しいタスクに迅速に適応する方法を学習するため、この問題を軽減するために提案されています。
ただし、以前のアプローチは、現実の世界でタスクを実行するためのサンプルのない手順または人間のデモに依存しています。
私たちの作業は、Meta RLエージェントが使用するデータを変更し、非調整カメラを使用しても実際の世界で簡単に測定できるシンプルな機能を使用します。
さらに、メタRLエージェントを適応させて、カメラの代わりに力/トルクセンサーからデータを使用して、少量のトレーニングデータを使用してアセンブリを実行します。
最後に、トレーニングタスクとは10倍に異なるパラメーターを備えた分散式タスクに一貫して安全に適応する微調整方法を提案します。
我々の結果は、提案されたデータの変更により、トレーニングと適応効率が大幅に向上し、エージェントが異なる穴の位置と方向を持つタスクで100%の成功を達成できることを示しています。
実際のロボットでの実験では、カメラとフォース/トルクセンサー装備の両方のエージェントが、不明な穴の位置を持つタスクで100%の成功を収め、シミュレーションのパフォーマンスに合わせ、アプローチの堅牢性と適用性を検証することを確認します。
サンプルではない適応を伴う以前の作業と比較して、提案された方法は、実際のタスクでのサンプル効率の10倍です。

要約(オリジナル)

Peg-in-hole assembly in unknown environments is a challenging task due to onboard sensor errors, which result in uncertainty and variations in task parameters such as the hole position and orientation. Meta Reinforcement Learning (Meta RL) has been proposed to mitigate this problem as it learns how to quickly adapt to new tasks with different parameters. However, previous approaches either depend on a sample-inefficient procedure or human demonstrations to perform the task in the real world. Our work modifies the data used by the Meta RL agent and uses simple features that can be easily measured in the real world even with an uncalibrated camera. We further adapt the Meta RL agent to use data from a force/torque sensor, instead of the camera, to perform the assembly, using a small amount of training data. Finally, we propose a fine-tuning method that consistently and safely adapts to out-of-distribution tasks with parameters that differ by a factor of 10 from the training tasks. Our results demonstrate that the proposed data modification significantly enhances the training and adaptation efficiency and enables the agent to achieve 100% success in tasks with different hole positions and orientations. Experiments on a real robot confirm that both camera- and force/torque sensor-equipped agents achieve 100% success in tasks with unknown hole positions, matching their simulation performance and validating the approach’s robustness and applicability. Compared to the previous work with sample-inefficient adaptation, our proposed methods are 10 times more sample-efficient in the real-world tasks.

arxiv情報

著者 Ahmed Shokry,Walid Gomaa,Tobias Zaenker,Murad Dawood,Rohit Menon,Shady A. Maged,Mohammed I. Awad,Maren Bennewitz
発行日 2025-03-07 09:46:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Context-Based Meta Reinforcement Learning for Robust and Adaptable Peg-in-Hole Assembly Tasks はコメントを受け付けていません

AVR: Active Vision-Driven Robotic Precision Manipulation with Viewpoint and Focal Length Optimization

要約

動的環境内のロボット操作は、正確な制御と適応性への課題を提示します。
従来の固定ビューカメラシステムは、視点とスケールの変動を変えるために適応する課題に直面し、知覚と操作の精度を制限します。
これらの問題に取り組むために、アクティブなビジョン駆動型のロボット(AVR)フレームワークを提案します。これは、動的な視点と動的な焦点距離の調整をサポートし、継続的に中心ターゲットを維持し、さまざまな運用タスクの成功率を効果的に強化する対応するアルゴリズムを伴う最適なスケールを維持するための動的な焦点距離調整をサポートします。
RobotWinプラットフォームをリアルタイム画像処理プラグインを使用して、AVRフレームワークは5つの操作タスクでタスクの成功率を5%〜16%改善します。
デュアルアームシステムでの物理的な展開は、共同作業で、ドライバー挿入の36%の精度で25%を超えるベースラインを上回ることを示しています。
実験結果は、AVRフレームワークが環境認識、操作の再現性(40%$ \ le $ 1 cmエラー)、および複雑なシナリオでの堅牢性を高め、人間レベルのロボットの器用さと精度を追求する将来のロボット精度操作方法への道を開くことを確認します。

要約(オリジナル)

Robotic manipulation within dynamic environments presents challenges to precise control and adaptability. Traditional fixed-view camera systems face challenges adapting to change viewpoints and scale variations, limiting perception and manipulation precision. To tackle these issues, we propose the Active Vision-driven Robotic (AVR) framework, a teleoperation hardware solution that supports dynamic viewpoint and dynamic focal length adjustments to continuously center targets and maintain optimal scale, accompanied by a corresponding algorithm that effectively enhances the success rates of various operational tasks. Using the RoboTwin platform with a real-time image processing plugin, AVR framework improves task success rates by 5%-16% on five manipulation tasks. Physical deployment on a dual-arm system demonstrates in collaborative tasks and 36% precision in screwdriver insertion, outperforming baselines by over 25%. Experimental results confirm that AVR framework enhances environmental perception, manipulation repeatability (40% $\le $1 cm error), and robustness in complex scenarios, paving the way for future robotic precision manipulation methods in the pursuit of human-level robot dexterity and precision.

arxiv情報

著者 Yushan Liu,Shilong Mu,Xintao Chao,Zizhen Li,Yao Mu,Tianxing Chen,Shoujie Li,Chuqiao Lyu,Xiao-ping Zhang,Wenbo Ding
発行日 2025-03-07 09:50:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | AVR: Active Vision-Driven Robotic Precision Manipulation with Viewpoint and Focal Length Optimization はコメントを受け付けていません

Obstacle-Avoidant Leader Following with a Quadruped Robot

要約

個人のモバイルロボットアシスタントは、業界とヘルスケアで幅広いアプリケーションを見つけることが期待されています。
たとえば、モビリティが限られている人は、毎日のタスクを支援するロボットの恩恵を受けることができます。または、建設労働者はロボットに現場で精密監視タスクを実行させることができます。
ただし、運動中にロボットを手動で操縦するには、特にタイトまたは混雑したスペースで、オペレーターから大きな集中が必要です。
これにより、歩行速度が低下し、警戒の絶え間ない必要性が疲労を増加させ、したがって、事故のリスクを高めます。
この作業は、ロボットが自然にオペレーターを追跡できる仮想リーシュを提示します。
カスタム構築のRFトランスポンダー、RGBカメラ、およびLIDARに基づいたセンサーフュージョンを使用します。
さらに、脚のあるプラットフォーム用のローカル回避プランナーをカスタマイズします。これにより、動的環境と狭い環境をナビゲートできます。
実際の実験におけるパイプライン全体の堅牢性とパフォーマンスをAnymalプラットフォームで成功裏に検証します。

要約(オリジナル)

Personal mobile robotic assistants are expected to find wide applications in industry and healthcare. For example, people with limited mobility can benefit from robots helping with daily tasks, or construction workers can have robots perform precision monitoring tasks on-site. However, manually steering a robot while in motion requires significant concentration from the operator, especially in tight or crowded spaces. This reduces walking speed, and the constant need for vigilance increases fatigue and, thus, the risk of accidents. This work presents a virtual leash with which a robot can naturally follow an operator. We use a sensor fusion based on a custom-built RF transponder, RGB cameras, and a LiDAR. In addition, we customize a local avoidance planner for legged platforms, which enables us to navigate dynamic and narrow environments. We successfully validate on the ANYmal platform the robustness and performance of our entire pipeline in real-world experiments.

arxiv情報

著者 Carmen Scheidemann,Lennart Werner,Victor Reijgwart,Andrei Cramariuc,Joris Chomarat,Jia-Ruei Chiu,Roland Siegwart,Marco Hutter
発行日 2025-03-07 10:02:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Obstacle-Avoidant Leader Following with a Quadruped Robot はコメントを受け付けていません

Learning Force Distribution Estimation for the GelSight Mini Optical Tactile Sensor Based on Finite Element Analysis

要約

連絡先が豊富な操作は、ロボット工学における大きな課題のままです。
Gelsish Miniのような光学触覚センサーは、シリコンゲルの軟体変形をキャプチャすることにより、接触センシングのための低コストのソリューションを提供します。
ただし、これらのゲル変形からのせん断および正常な力分布を正確に推測していることは、まだ完全に対処されていません。
この作業では、U-NETアーキテクチャを使用して機械学習アプローチを提案して、センサーの生画像から直接力分布を予測します。
有限要素分析(FEA)から推測される力分布で訓練されたモデルは、市販のGelsishミニセンサーの正常およびせん断力分布の予測において有望な精度を示しています。
また、インデント全体の一般化、同じタイプのセンサー、およびリアルタイムアプリケーションを有効にする可能性を示しています。
コードベース、データセット、モデルはオープンソースで、https://feats-ai.github.ioで入手できます。

要約(オリジナル)

Contact-rich manipulation remains a major challenge in robotics. Optical tactile sensors like GelSight Mini offer a low-cost solution for contact sensing by capturing soft-body deformations of the silicone gel. However, accurately inferring shear and normal force distributions from these gel deformations has yet to be fully addressed. In this work, we propose a machine learning approach using a U-net architecture to predict force distributions directly from the sensor’s raw images. Our model, trained on force distributions inferred from Finite Element Analysis (FEA), demonstrates promising accuracy in predicting normal and shear force distributions for the commercially available GelSight Mini sensor. It also shows potential for generalization across indenters, sensors of the same type, and for enabling real-time application. The codebase, dataset and models are open-sourced and available at https://feats-ai.github.io .

arxiv情報

著者 Erik Helmut,Luca Dziarski,Niklas Funk,Boris Belousov,Jan Peters
発行日 2025-03-07 10:05:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | Learning Force Distribution Estimation for the GelSight Mini Optical Tactile Sensor Based on Finite Element Analysis はコメントを受け付けていません

A Helping (Human) Hand in Kinematic Structure Estimation

要約

咬合、テクスチャの欠如、ノイズなどの視覚的不確実性は、安全なロボット操作のための正確な運動学モデルを取得する上で重要な課題をもたらします。
これらの不確実性を軽減する前に、人間の手を活用する確率的リアルタイムアプローチを導入します。
操作中に人間の手の制約された動きを追跡し、視覚的観察の不確実性を明示的にモデル化することにより、私たちの方法は、オブジェクトの運動モデルをオンラインで確実に推定します。
操作中に閉塞され、知覚のための限られたアーティキュレーションを提供する挑戦的なオブジェクトを特徴とする新しいデータセットでアプローチを検証します。
結果は、不確実性を適切に事前および明示的に会計することにより、私たちの方法が正確な推定値を生成し、それぞれ195%と140%を2つの最近のベースラインよりも上回ることを示しています。
さらに、私たちのアプローチの推定値は、ロボットが小さなオブジェクトを安全に操作できるように十分に正確であることを実証します。

要約(オリジナル)

Visual uncertainties such as occlusions, lack of texture, and noise present significant challenges in obtaining accurate kinematic models for safe robotic manipulation. We introduce a probabilistic real-time approach that leverages the human hand as a prior to mitigate these uncertainties. By tracking the constrained motion of the human hand during manipulation and explicitly modeling uncertainties in visual observations, our method reliably estimates an object’s kinematic model online. We validate our approach on a novel dataset featuring challenging objects that are occluded during manipulation and offer limited articulations for perception. The results demonstrate that by incorporating an appropriate prior and explicitly accounting for uncertainties, our method produces accurate estimates, outperforming two recent baselines by 195% and 140%, respectively. Furthermore, we demonstrate that our approach’s estimates are precise enough to allow a robot to manipulate even small objects safely.

arxiv情報

著者 Adrian Pfisterer,Xing Li,Vito Mengers,Oliver Brock
発行日 2025-03-07 10:29:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | A Helping (Human) Hand in Kinematic Structure Estimation はコメントを受け付けていません

CoinRobot: Generalized End-to-end Robotic Learning for Physical Intelligence

要約

物理的知性は、具体化された知性を進めるための計り知れない約束を保持し、ロボットがデモンストレーションから複雑な行動を獲得できるようにします。
ただし、多様なロボットプラットフォームと環境を横切る一般化と転送を実現するには、モデルアーキテクチャ、トレーニング戦略、データの多様性を慎重に設計する必要があります。
一方、既存のシステムは、多くの場合、スケーラビリティ、不均一なハードウェアへの適応性、および実際の設定での客観的評価と格闘しています。
このギャップを埋めるために設計された一般化されたエンドツーエンドのロボット学習フレームワークを紹介します。
私たちのフレームワークでは、クロスプラットフォームの適応性をサポートする統一されたアーキテクチャを紹介し、産業グレードのロボット、共同アーム、およびタスク固有の修正なしの新しい実施形態全体でシームレスな展開を可能にします。
マルチタスク学習を合理化されたネットワーク設計と統合することにより、さまざまなセンサーの構成とアクションスペースとの互換性を維持しながら、従来のアプローチよりも堅牢なパフォーマンスを実現します。
7つの操作タスクに関する広範な実験を通じて、フレームワークを検証します。
特に、私たちのフレームワークで訓練された拡散ベースのモデルは、Lerobotフレームワークと比較して優れたパフォーマンスと一般化可能性を実証し、多様なロボットプラットフォームと環境条件全体のパフォーマンスの改善を実現しました。

要約(オリジナル)

Physical intelligence holds immense promise for advancing embodied intelligence, enabling robots to acquire complex behaviors from demonstrations. However, achieving generalization and transfer across diverse robotic platforms and environments requires careful design of model architectures, training strategies, and data diversity. Meanwhile existing systems often struggle with scalability, adaptability to heterogeneous hardware, and objective evaluation in real-world settings. We present a generalized end-to-end robotic learning framework designed to bridge this gap. Our framework introduces a unified architecture that supports cross-platform adaptability, enabling seamless deployment across industrial-grade robots, collaborative arms, and novel embodiments without task-specific modifications. By integrating multi-task learning with streamlined network designs, it achieves more robust performance than conventional approaches, while maintaining compatibility with varying sensor configurations and action spaces. We validate our framework through extensive experiments on seven manipulation tasks. Notably, Diffusion-based models trained in our framework demonstrated superior performance and generalizability compared to the LeRobot framework, achieving performance improvements across diverse robotic platforms and environmental conditions.

arxiv情報

著者 Yu Zhao,Huxian Liu,Xiang Chen,Jiankai Sun,Jiahuan Yan,Luhui Hu
発行日 2025-03-07 10:50:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | CoinRobot: Generalized End-to-end Robotic Learning for Physical Intelligence はコメントを受け付けていません