Optimizing Ride-Pooling Operations with Extended Pickup and Drop-Off Flexibility

要約

ライドプールマッチング問題(RMP)は、ピックアップの遅延、迂回路、車両容量などのサービス制約を順守しながら、車両を複数のリクエストと一致させる必要があります。
ほとんどの既存のRMPソリューションは、乗客が元の場所で拾われて降ろされていると想定しており、乗客が車両に会うために近くの場所に歩いて行く可能性を無視しています。
この仮定は、ライドプーリング操作の最適化の可能性を制限します。
この論文では、乗客向けの拡張ピックアップとドロップオフエリアを組み込んだ新しいマッチング方法を提案します。
最初に、乗客と車両の間で実現可能な一致を効率的に生成するためのツリーベースのアプローチを設計します。
次に、総移動距離を最小限に抑えながら、指定されたすべてのピックアップとドロップオフの場所をカバーするための車両ルートを最適化します。
最後に、最適なマッチング結果を達成するために動的な割り当て戦略を採用します。
都市規模のタクシーデータセットの実験は、私たちの方法が、主要な既存のソリューションと比較して、最大13 \%と平均移動距離を最大21 \%だけ改善することを示しています。

要約(オリジナル)

The Ride-Pool Matching Problem (RMP) is central to on-demand ride-pooling services, where vehicles must be matched with multiple requests while adhering to service constraints such as pickup delays, detour limits, and vehicle capacity. Most existing RMP solutions assume passengers are picked up and dropped off at their original locations, neglecting the potential for passengers to walk to nearby spots to meet vehicles. This assumption restricts the optimization potential in ride-pooling operations. In this paper, we propose a novel matching method that incorporates extended pickup and drop-off areas for passengers. We first design a tree-based approach to efficiently generate feasible matches between passengers and vehicles. Next, we optimize vehicle routes to cover all designated pickup and drop-off locations while minimizing total travel distance. Finally, we employ dynamic assignment strategies to achieve optimal matching outcomes. Experiments on city-scale taxi datasets demonstrate that our method improves the number of served requests by up to 13\% and average travel distance by up to 21\% compared to leading existing solutions, underscoring the potential of leveraging passenger mobility to significantly enhance ride-pooling service efficiency.

arxiv情報

著者 Hao Jiang,Yixing Xu,Pradeep Varakantham
発行日 2025-03-11 14:17:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Optimizing Ride-Pooling Operations with Extended Pickup and Drop-Off Flexibility はコメントを受け付けていません

Collaborative Dynamic 3D Scene Graphs for Open-Vocabulary Urban Scene Understanding

要約

マッピングとシーンの表現は、モバイルロボットの信頼できる計画とナビゲーションの基本です。
ボクセルグリッドを使用した純粋に幾何学的なマップにより、一般的なナビゲーションが可能になりますが、動的な大規模環境にスケーリングする最新の空間的で意味的に豊富な表現を取得することは依然として困難です。
この作業では、マルチエージェントコラボレーションを介して都市の運転シーンの階層分解を生成するオープンボキャブラリーダイナミック3DシーングラフエンジンであるCurb-OSGを紹介します。
複数の知覚エージェントからのカメラとライダーの観察結果を未知の初期ポーズで融合させることにより、シーンの統一されたオープンボキャブラリーセマンティック階層を構築しながら、単一のエージェントと比較してより正確なマップを生成します。
グラウンドトゥルースエージェントに依存する以前の方法とは異なり、純粋にシミュレーションで純粋に評価されているのとは異なり、Curb-OSGはこれらの制約を緩和します。
Oxford Radar Robotcar Datasetの複数のセッションから取得した実際のマルチエージェントセンサーデータで、Curb-OSGの機能を評価します。
マルチエージェントコラボレーションを通じて改善されたマッピングとオブジェクトの予測の精度を示し、提案されたアプローチの環境分割機能を評価します。
さらなる調査を促進するために、https://ov-curb.cs.uni-freiburg.deでコードと補足資料をリリースします。

要約(オリジナル)

Mapping and scene representation are fundamental to reliable planning and navigation in mobile robots. While purely geometric maps using voxel grids allow for general navigation, obtaining up-to-date spatial and semantically rich representations that scale to dynamic large-scale environments remains challenging. In this work, we present CURB-OSG, an open-vocabulary dynamic 3D scene graph engine that generates hierarchical decompositions of urban driving scenes via multi-agent collaboration. By fusing the camera and LiDAR observations from multiple perceiving agents with unknown initial poses, our approach generates more accurate maps compared to a single agent while constructing a unified open-vocabulary semantic hierarchy of the scene. Unlike previous methods that rely on ground truth agent poses or are evaluated purely in simulation, CURB-OSG alleviates these constraints. We evaluate the capabilities of CURB-OSG on real-world multi-agent sensor data obtained from multiple sessions of the Oxford Radar RobotCar dataset. We demonstrate improved mapping and object prediction accuracy through multi-agent collaboration as well as evaluate the environment partitioning capabilities of the proposed approach. To foster further research, we release our code and supplementary material at https://ov-curb.cs.uni-freiburg.de.

arxiv情報

著者 Tim Steinke,Martin Büchner,Niclas Vödisch,Abhinav Valada
発行日 2025-03-11 14:21:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Collaborative Dynamic 3D Scene Graphs for Open-Vocabulary Urban Scene Understanding はコメントを受け付けていません

GraphSCENE: On-Demand Critical Scenario Generation for Autonomous Vehicles in Simulation

要約

安全性と多様なシナリオの自動運転車(AV)のパフォーマンスのテストと検証は、実際の展開前に重要です。
ただし、シミュレーションでこのようなシナリオを手動で作成することは、依然として重要かつ時間のかかる課題です。
この作業では、AVアクション、動的エージェントのセット、クリティカリティレベルなどのユーザー定義の設定に合わせた、さまざまなトラフィックシナリオ、オンデマンドに対応する動的な時間シーングラフを生成する新しい方法を紹介します。
時間グラフニューラルネットワーク(GNN)モデルは、実際の空間的相互作用パターンに導かれ、予測を意味的に有効なリンクに制限するオントロジーによって制約される、自由車両、エージェント、および静的構造の間の関係を予測することを学びます。
私たちのモデルは、要求されたシナリオに対応するリンクを正確に生成する際に、ベースラインを一貫して上回ります。
予測されたシナリオをシミュレーションでレンダリングして、AVエージェントのテスト環境としての有効性をさらに実証します。

要約(オリジナル)

Testing and validating Autonomous Vehicle (AV) performance in safety-critical and diverse scenarios is crucial before real-world deployment. However, manually creating such scenarios in simulation remains a significant and time-consuming challenge. This work introduces a novel method that generates dynamic temporal scene graphs corresponding to diverse traffic scenarios, on-demand, tailored to user-defined preferences, such as AV actions, sets of dynamic agents, and criticality levels. A temporal Graph Neural Network (GNN) model learns to predict relationships between ego-vehicle, agents, and static structures, guided by real-world spatiotemporal interaction patterns and constrained by an ontology that restricts predictions to semantically valid links. Our model consistently outperforms the baselines in accurately generating links corresponding to the requested scenarios. We render the predicted scenarios in simulation to further demonstrate their effectiveness as testing environments for AV agents.

arxiv情報

著者 Efimia Panagiotaki,Georgi Pramatarov,Lars Kunze,Daniele De Martini
発行日 2025-03-11 14:22:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | GraphSCENE: On-Demand Critical Scenario Generation for Autonomous Vehicles in Simulation はコメントを受け付けていません

Soft Actor-Critic-based Control Barrier Adaptation for Robust Autonomous Navigation in Unknown Environments

要約

自律的なナビゲーション中のモーション計画の障害は、安全性の制約が保守的すぎて、デッドロックにつながるか、リベラルすぎて衝突を引き起こす場合にしばしば発生します。
堅牢性を向上させるには、ロボットは安全性とパフォーマンスの測定値のバランスをとりながら、その目標に到達するために安全性の制約を動的に適応させる必要があります。
この目的のために、実行時に制御バリア関数(CBF)制約パラメーターを適応させるためのソフトアクタークリティック(SAC)ベースのポリシーを提案し、安全でありながら保守的な動きを確保します。
提案されたアプローチは、一般的な高レベルモーションプランナー、低レベルコントローラー、およびターゲットシステムモデル向けに設計されており、シミュレーションのみでトレーニングされています。
広範なシミュレーションと物理実験により、フレームワークがCBF制約を効果的に適応させ、ロボットが安全性を損なうことなく最終目標を達成できるようにすることを実証します。

要約(オリジナル)

Motion planning failures during autonomous navigation often occur when safety constraints are either too conservative, leading to deadlocks, or too liberal, resulting in collisions. To improve robustness, a robot must dynamically adapt its safety constraints to ensure it reaches its goal while balancing safety and performance measures. To this end, we propose a Soft Actor-Critic (SAC)-based policy for adapting Control Barrier Function (CBF) constraint parameters at runtime, ensuring safe yet non-conservative motion. The proposed approach is designed for a general high-level motion planner, low-level controller, and target system model, and is trained in simulation only. Through extensive simulations and physical experiments, we demonstrate that our framework effectively adapts CBF constraints, enabling the robot to reach its final goal without compromising safety.

arxiv情報

著者 Nicholas Mohammad,Nicola Bezzo
発行日 2025-03-11 14:33:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | Soft Actor-Critic-based Control Barrier Adaptation for Robust Autonomous Navigation in Unknown Environments はコメントを受け付けていません

PhysVLM: Enabling Visual Language Models to Understand Robotic Physical Reachability

要約

環境とロボットの物理的な到達可能性を理解することは、タスクの実行に不可欠です。
最先端のビジョン言語モデル(VLM)は環境認識に優れていますが、ロボットの身体的到達可能性の理解がないため、具体化された視覚的推論タスクで不正確または非実用的な反応を生成することがよくあります。
この問題に対処するために、多様なロボット間の物理的到達可能性の統一された表現、つまりスペース物理的到達可能性マップ(S-Pマップ)と、この到達可能性情報を視覚的推論に統合する視覚言語モデルであるPhysVLMを提案します。
具体的には、S-Pマップは、特定のロボット構成とは無関係に、ロボットの物理的な到達可能性を一般化された空間表現に抽象化し、モデルがロボット固有のパラメーターではなくリーチ性機能に焦点を合わせます。
その後、PhysVLMは、追加の機能エンコーダを組み込んでS-Pマップを処理することにより、従来のVLMアーキテクチャを拡張し、一般的なビジョン言語機能を損なうことなく、モデルが物理的な到達可能性について推論できるようにします。
PhysVLMを訓練および評価するために、シミュレートされた環境と実際の環境の両方で6つの異なるロボットのタスクを含む、大規模なマルチロボットデータセットと挑戦的なベンチマークEQA-PHYSを構築しました。
実験結果は、PhysVLMが既存のモデルを上回り、EQA-PHYSでGPT-4Oよりも14 \%の改善を達成し、Robovqa-valやOpeneqaベンチマークのロボマンバや空間vlmなどの高度な具体化されたVLMを上回ることを示しています。
さらに、S-PマップはさまざまなVLMとの強い互換性を示しており、GPT-4O-MINIへの統合により、7.1 \%のパフォーマンスが向上します。

要約(オリジナル)

Understanding the environment and a robot’s physical reachability is crucial for task execution. While state-of-the-art vision-language models (VLMs) excel in environmental perception, they often generate inaccurate or impractical responses in embodied visual reasoning tasks due to a lack of understanding of robotic physical reachability. To address this issue, we propose a unified representation of physical reachability across diverse robots, i.e., Space-Physical Reachability Map (S-P Map), and PhysVLM, a vision-language model that integrates this reachability information into visual reasoning. Specifically, the S-P Map abstracts a robot’s physical reachability into a generalized spatial representation, independent of specific robot configurations, allowing the model to focus on reachability features rather than robot-specific parameters. Subsequently, PhysVLM extends traditional VLM architectures by incorporating an additional feature encoder to process the S-P Map, enabling the model to reason about physical reachability without compromising its general vision-language capabilities. To train and evaluate PhysVLM, we constructed a large-scale multi-robot dataset, Phys100K, and a challenging benchmark, EQA-phys, which includes tasks for six different robots in both simulated and real-world environments. Experimental results demonstrate that PhysVLM outperforms existing models, achieving a 14\% improvement over GPT-4o on EQA-phys and surpassing advanced embodied VLMs such as RoboMamba and SpatialVLM on the RoboVQA-val and OpenEQA benchmarks. Additionally, the S-P Map shows strong compatibility with various VLMs, and its integration into GPT-4o-mini yields a 7.1\% performance improvement.

arxiv情報

著者 Weijie Zhou,Manli Tao,Chaoyang Zhao,Haiyun Guo,Honghui Dong,Ming Tang,Jinqiao Wang
発行日 2025-03-11 14:34:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | PhysVLM: Enabling Visual Language Models to Understand Robotic Physical Reachability はコメントを受け付けていません

Hybrid Deep Reinforcement Learning for Radio Tracer Localisation in Robotic-assisted Radioguided Surgery

要約

センチネルリンパ節生検などの放射型手術は、非イメージングガンマ/ベータ検出器による放射性標的の正確な局在に依存しています。
視覚的な表示またはガンマレベルの可聴表示に基づく手動放射性ターゲット検出は、外科医が空間情報を追跡および解釈する能力に大きく依存しています。
このホワイトペーパーでは、プローブを放射能ターゲットにナビゲートすることにより、ロボット支援の手術における自律放射型の検出を実現するための学習ベースの方法を提示します。
ディープ強化学習(DRL)と適応ロボットスキャンを組み合わせた新しいハイブリッドアプローチを提案しました。
適応型グリッドベースのスキャンは、初期方向の推定を提供する可能性があり、DRLベースのエージェントは履歴データを使用してターゲットに効率的にナビゲートすることができます。
シミュレーション実験は、95%の成功率を示し、従来の技術と比較して効率と堅牢性が向上しています。
Da Vinci Research Kit(DVRK)の実際の評価により、アプローチの実現可能性がさらに確認され、ラジオ型検出で80%の成功率が達成されます。
この方法は、一貫性を向上させ、オペレーターの依存度を低下させ、放射性視点の手術の手続き精度を向上させる可能性があります。

要約(オリジナル)

Radioguided surgery, such as sentinel lymph node biopsy, relies on the precise localization of radioactive targets by non-imaging gamma/beta detectors. Manual radioactive target detection based on visual display or audible indication of gamma level is highly dependent on the ability of the surgeon to track and interpret the spatial information. This paper presents a learning-based method to realize the autonomous radiotracer detection in robot-assisted surgeries by navigating the probe to the radioactive target. We proposed novel hybrid approach that combines deep reinforcement learning (DRL) with adaptive robotic scanning. The adaptive grid-based scanning could provide initial direction estimation while the DRL-based agent could efficiently navigate to the target utilising historical data. Simulation experiments demonstrate a 95% success rate, and improved efficiency and robustness compared to conventional techniques. Real-world evaluation on the da Vinci Research Kit (dVRK) further confirms the feasibility of the approach, achieving an 80% success rate in radiotracer detection. This method has the potential to enhance consistency, reduce operator dependency, and improve procedural accuracy in radioguided surgeries.

arxiv情報

著者 Hanyi Zhang,Kaizhong Deng,Zhaoyang Jacopo Hu,Baoru Huang,Daniel S. Elson
発行日 2025-03-11 14:44:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Hybrid Deep Reinforcement Learning for Radio Tracer Localisation in Robotic-assisted Radioguided Surgery はコメントを受け付けていません

Automating High Quality RT Planning at Scale

要約

放射線療法(RT)計画は、複雑で、主観的で、時間型であることです。
人工知能(AI)の進歩は、その精度、効率、一貫性を改善することを約束しますが、進歩は大規模で標準化されたデータセットの不足によってしばしば制限されます。
これに対処するために、高品質の治療計画を生成するためのスケーラブルなソリューションである自動反復RT計画(AIRTP)システムを紹介します。
このスケーラブルなソリューションは、AI駆動型RT計画の進歩における重要な障害を克服するために、かなりの量の一貫した高品質の治療計画を生成するように設計されています。
AIRTPパイプラインは、臨床ガイドラインを順守し、リスクのある(OAR)輪郭、ヘルパー構造の作成、ビームセットアップ、最適化、および計画の品質改善を含む重要なステップを自動化します。
さらに、3D用量分布を再現する最適化パラメーターを決定するための新しいアプローチ、つまり、用量予測を機械の制限によって制約される成果物の治療計画に変換する方法。
計画品質の比較分析は、自動化されたパイプラインが手動で生成されたものに匹敵する品質の治療計画を生成し、従来、計画ごとに数時間の労働が必要であることを明らかにしています。
AIRTPパイプラインの最初のデータリリースには、公共の研究にコミットして、Head and Neckおよび肺がんのサイトをカバーする9つのコホートが含まれており、AAPM 2025チャレンジをサポートしています。
このデータセットには、最大の知識に合わせて、既存の最大の適切にキュレーションされたパブリックデータセットと比較して、プランの数の10倍以上が特徴です。
レポ:https://github.com/riqianggao/gdp-hmm_aapmchallenge。

要約(オリジナル)

Radiotherapy (RT) planning is complex, subjective, and time-intensive. Advances in artificial intelligence (AI) promise to improve its precision, efficiency, and consistency, but progress is often limited by the scarcity of large, standardized datasets. To address this, we introduce the Automated Iterative RT Planning (AIRTP) system, a scalable solution for generating high-quality treatment plans. This scalable solution is designed to generate substantial volumes of consistently high-quality treatment plans, overcoming a key obstacle in the advancement of AI-driven RT planning. Our AIRTP pipeline adheres to clinical guidelines and automates essential steps, including organ-at-risk (OAR) contouring, helper structure creation, beam setup, optimization, and plan quality improvement, using AI integrated with RT planning software like Eclipse of Varian. Furthermore, a novel approach for determining optimization parameters to reproduce 3D dose distributions, i.e. a method to convert dose predictions to deliverable treatment plans constrained by machine limitations. A comparative analysis of plan quality reveals that our automated pipeline produces treatment plans of quality comparable to those generated manually, which traditionally require several hours of labor per plan. Committed to public research, the first data release of our AIRTP pipeline includes nine cohorts covering head-and-neck and lung cancer sites to support an AAPM 2025 challenge. This data set features more than 10 times the number of plans compared to the largest existing well-curated public data set to our best knowledge. Repo: https://github.com/RiqiangGao/GDP-HMM_AAPMChallenge.

arxiv情報

著者 Riqiang Gao,Mamadou Diallo,Han Liu,Anthony Magliari,Jonathan Sackett,Wilko Verbakel,Sandra Meyers,Masoud Zarepisheh,Rafe Mcbeth,Simon Arberet,Martin Kraus,Florin C. Ghesu,Ali Kamen
発行日 2025-03-11 14:53:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.LG, cs.RO | Automating High Quality RT Planning at Scale はコメントを受け付けていません

LightPlanner: Unleashing the Reasoning Capabilities of Lightweight Large Language Models in Task Planning

要約

近年、軽量の大手言語モデル(LLMS)は、計算リソースの要件が低く、エッジ展開に適しているため、ロボット工学分野で大きな注目を集めています。
ただし、タスク計画では、特に動的なセマンティックロジック推論を伴う複雑なタスクの場合、軽量LLMはパフォーマンスが低くなっています。
この制限に対処するために、新しいタスクプランナーであるLightPlannerを提案します。これにより、推論機能を完全に活用することにより、複雑なタスク計画における軽量LLMのパフォーマンスが向上します。
固定スキルテンプレートを使用する従来のプランナーとは異なり、LightPlannerはパラメーター化された関数呼び出しを介してロボットアクションを制御し、パラメーター値を動的に生成します。
このアプローチにより、きめの細かいスキル制御が可能になり、複雑なシナリオでタスク計画の成功率が向上します。
さらに、階層的な深い推論を紹介します。
各アクション決定ステップを生成する前に、LightPlannerは、アクション実行(フィードバック検証)、セマンティック解析(目標の一貫性検証)、およびパラメーター生成(パラメーターの妥当性検証)の3つのレベルを徹底的に考慮します。
これにより、その後のアクションコントロールの正確性が保証されます。
さらに、メモリモジュールを組み込んで歴史的な行動を保存し、それによりコンテキストの長さを削減し、長期的なタスクの計画効率を高めます。
LightPlan-40KデータセットでLightPlanner-1.5Bモデルをトレーニングします。これは、2〜13のアクションステップを持つタスク全体で40,000のアクションコントロールを含むものです。
実験は、パラメーターの数が最も少ないにもかかわらず、モデルが最高のタスク成功率を達成することを示しています。
空間セマンティック推論を含むタスクでは、成功率はReactの成功率を14.9%超えています。
さらに、Edgeデバイスで操作するLightplannerの可能性を示しています。

要約(オリジナル)

In recent years, lightweight large language models (LLMs) have garnered significant attention in the robotics field due to their low computational resource requirements and suitability for edge deployment. However, in task planning — particularly for complex tasks that involve dynamic semantic logic reasoning — lightweight LLMs have underperformed. To address this limitation, we propose a novel task planner, LightPlanner, which enhances the performance of lightweight LLMs in complex task planning by fully leveraging their reasoning capabilities. Unlike conventional planners that use fixed skill templates, LightPlanner controls robot actions via parameterized function calls, dynamically generating parameter values. This approach allows for fine-grained skill control and improves task planning success rates in complex scenarios. Furthermore, we introduce hierarchical deep reasoning. Before generating each action decision step, LightPlanner thoroughly considers three levels: action execution (feedback verification), semantic parsing (goal consistency verification), and parameter generation (parameter validity verification). This ensures the correctness of subsequent action controls. Additionally, we incorporate a memory module to store historical actions, thereby reducing context length and enhancing planning efficiency for long-term tasks. We train the LightPlanner-1.5B model on our LightPlan-40k dataset, which comprises 40,000 action controls across tasks with 2 to 13 action steps. Experiments demonstrate that our model achieves the highest task success rate despite having the smallest number of parameters. In tasks involving spatial semantic reasoning, the success rate exceeds that of ReAct by 14.9 percent. Moreover, we demonstrate LightPlanner’s potential to operate on edge devices.

arxiv情報

著者 Weijie Zhou,Yi Peng,Manli Tao,Chaoyang Zhao,Honghui Dong,Ming Tang,Jinqiao Wang
発行日 2025-03-11 14:57:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | LightPlanner: Unleashing the Reasoning Capabilities of Lightweight Large Language Models in Task Planning はコメントを受け付けていません

Deformable Linear Object Surface Placement Using Elastica Planning and Local Shape Control

要約

制約された環境での変形可能な線形オブジェクト(DLO)の操作は、困難な作業です。
このペーパーでは、単一のロボットハンドを使用してDLOを平らな表面に配置するための2層のアプローチについて説明します。
高レベルの層は、EulerのElasticaソリューションに基づく新しいDLO表面配置方法です。
このプロセス中、DLOエンドポイントはロボットグリッパーによって操作され、DLOの可変内部ポイントは、配置面と整列した部分の開始点として機能します。
低レベルのレイヤーは、パイプラインコントローラーを形成します。
コントローラーは、残留ニューラルネットワーク(RESNET)を使用してDLO電流形状を推定し、低レベルのフィードバックを使用して、モデリングと配置エラーの存在下でタスクの実行を確保します。
結果のDLO配置アプローチは、実用的なロボット操作システムの要求に応じて高レベルの操作プランナーが失敗した状態から回復することができます。
DLO配置アプローチは、生鮮食品用途向けに準備されたシリコンモックアップオブジェクトを使用するシミュレーションと実験で実証されています。

要約(オリジナル)

Manipulation of deformable linear objects (DLOs) in constrained environments is a challenging task. This paper describes a two-layered approach for placing DLOs on a flat surface using a single robot hand. The high-level layer is a novel DLO surface placement method based on Euler’s elastica solutions. During this process one DLO endpoint is manipulated by the robot gripper while a variable interior point of the DLO serves as the start point of the portion aligned with the placement surface. The low-level layer forms a pipeline controller. The controller estimates the DLO current shape using a Residual Neural Network (ResNet) and uses low-level feedback to ensure task execution in the presence of modeling and placement errors. The resulting DLO placement approach can recover from states where the high-level manipulation planner has failed as required by practical robot manipulation systems. The DLO placement approach is demonstrated with simulations and experiments that use silicon mock-up objects prepared for fresh food applications.

arxiv情報

著者 I. Grinberg,A. Levin,E. D. Rimon
発行日 2025-03-11 15:33:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Deformable Linear Object Surface Placement Using Elastica Planning and Local Shape Control はコメントを受け付けていません

Proc4Gem: Foundation models for physical agency through procedural generation

要約

ロボット学習では、環境セマンティクスを無視して、ロボットと環境の接触に関する推論のみを必要とする全身コントロールなどのタスクに焦点を当てるか、逆にコンタクトダイナミクスを無視して、ビジョンと言語の高レベルの動きに焦点を当てています。
この作業では、生成モデリング、フォトリアリックなレンダリング、手続き上の生成の進歩により、両方を必要とするタスクに取り組むことができることを示します。
セマンティックダイバースシミュレーションで正確な物理学で接触豊富な軌跡を生成することにより、動作を現実世界に直接転送する大きなマルチモーダルモデルに蒸留することができます。
具体的には、シミュレーションデータのみで微調整された基礎モデルのGeminiは、言語で指示するように指示することができます。
現実世界の結果は、シミュレーションを使用して基礎モデルを物理的な機関に吹き込むという約束を示しています。
ビデオは当社のウェブサイトhttps://sites.google.com/view/proc4gemにあります

要約(オリジナル)

In robot learning, it is common to either ignore the environment semantics, focusing on tasks like whole-body control which only require reasoning about robot-environment contacts, or conversely to ignore contact dynamics, focusing on grounding high-level movement in vision and language. In this work, we show that advances in generative modeling, photorealistic rendering, and procedural generation allow us to tackle tasks requiring both. By generating contact-rich trajectories with accurate physics in semantically-diverse simulations, we can distill behaviors into large multimodal models that directly transfer to the real world: a system we call Proc4Gem. Specifically, we show that a foundation model, Gemini, fine-tuned on only simulation data, can be instructed in language to control a quadruped robot to push an object with its body to unseen targets in unseen real-world environments. Our real-world results demonstrate the promise of using simulation to imbue foundation models with physical agency. Videos can be found at our website: https://sites.google.com/view/proc4gem

arxiv情報

著者 Yixin Lin,Jan Humplik,Sandy H. Huang,Leonard Hasenclever,Francesco Romano,Stefano Saliceti,Daniel Zheng,Jose Enrique Chen,Catarina Barros,Adrian Collister,Matt Young,Adil Dostmohamed,Ben Moran,Ken Caluwaerts,Marissa Giustina,Joss Moore,Kieran Connell,Francesco Nori,Nicolas Heess,Steven Bohez,Arunkumar Byravan
発行日 2025-03-11 16:29:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Proc4Gem: Foundation models for physical agency through procedural generation はコメントを受け付けていません