iMacSR: Intermediate Multi-Access Supervision and Regularization in Training Autonomous Driving Models

要約

ディープラーニング(DL)ベースのストリートシーンのセマンティック理解は、自律運転(AD)の基礎となっています。
DLモデルのパフォーマンスは、ネットワークの深さに大きく依存しています。
具体的には、より深いDLアーキテクチャにより、セグメンテーションのパフォーマンスが向上します。
ただし、モデルがより深くなるにつれて、最終層での従来のワンポイント監督は、中間の特徴表現を最適化するのに苦労し、サブトレーニングの結果につながります。
これに対処するために、中間のマルチアクセス監督と正規化(IMACSR)戦略を提案します。
提案されたIMACSRは、2つの新しいコンポーネントを導入します。(i)中間監督の損失が複数のネットワーク深度での堅牢な特徴のアライメントを保証するため、潜在的な特徴とグラウンドトゥルースの間の相互情報。
(ii)隠された特徴に関する否定的なエントロピーの正則化は、自信過剰予測を思いとどまらせ、過剰適合を軽減します。
これらの中間用語は、元の最終層トレーニング損失に結合され、統一された最適化目標を形成し、ネットワーク階層全体で包括的な最適化を可能にします。
提案されたIMACSRは、深い広告アーキテクチャをトレーニングするための堅牢なフレームワークを提供し、実際の運転シナリオで認識システムのパフォーマンスを進めます。
さらに、提案されたIMACSRに対して理論的収束分析を実施します。
広告ベンチマークに関する広範な実験(すなわち、Cityscapes、Camvid、およびSynthiaSfデータセット)は、IMACSRが、ユニオン(MIOU)の平均交差点で最大9.19%までの従来の最終層シングルポイント監督方法よりも優れていることを示しています。

要約(オリジナル)

Deep Learning (DL)-based street scene semantic understanding has become a cornerstone of autonomous driving (AD). DL model performance heavily relies on network depth. Specifically, deeper DL architectures yield better segmentation performance. However, as models grow deeper, traditional one-point supervision at the final layer struggles to optimize intermediate feature representations, leading to subpar training outcomes. To address this, we propose an intermediate Multi-access Supervision and Regularization (iMacSR) strategy. The proposed iMacSR introduces two novel components: (I) mutual information between latent features and ground truth as intermediate supervision loss ensures robust feature alignment at multiple network depths; and (II) negative entropy regularization on hidden features discourages overconfident predictions and mitigates overfitting. These intermediate terms are combined into the original final-layer training loss to form a unified optimization objective, enabling comprehensive optimization across the network hierarchy. The proposed iMacSR provides a robust framework for training deep AD architectures, advancing the performance of perception systems in real-world driving scenarios. In addition, we conduct theoretical convergence analysis for the proposed iMacSR. Extensive experiments on AD benchmarks (i.e., Cityscapes, CamVid, and SynthiaSF datasets) demonstrate that iMacSR outperforms conventional final-layer single-point supervision method up to 9.19% in mean Intersection over Union (mIoU).

arxiv情報

著者 Wei-Bin Kou,Guangxu Zhu,Yichen Jin,Shuai Wang,Ming Tang,Yik-Chung Wu
発行日 2025-05-01 08:52:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | iMacSR: Intermediate Multi-Access Supervision and Regularization in Training Autonomous Driving Models はコメントを受け付けていません

GLOVER: Generalizable Open-Vocabulary Affordance Reasoning for Task-Oriented Grasping

要約

人間の仕様に基づいた任意のオブジェクトの手頃な価格の(すなわち、把持可能な)部分を推測することは、外的操作に向けて前進するロボットに不可欠です。
ただし、現在の把握プランナーは、限られた視覚言語の理解と時間のかかる3D放射輝度モデリングによって妨げられ、オブジェクトとのリアルタイムのオープンボキャブラリー相互作用を制限します。
これらの制限に対処するために、RGB特徴空間内の把持可能なオブジェクトパーツの視覚的なアフォーダンスを予測するために、大規模な言語モデル(LLMS)を微調整する統一された一般化可能なオープンボキャブラリーアフォーダンス推論フレームワークであるGloverを提案します。
マルチモーダルの微調整を可能にするために、統一された視覚的および言語的なアフォーダンスラベルと注釈が付けられた、人間とオブジェクトの相互作用から10,000を超える画像のデータセットをコンパイルします。
Gloverは、LLMSからの世界の知識と常識的な推論を継承し、より微細なオブジェクトの理解と洗練されたツール使用推論を促進します。
効果的な現実世界の展開を可能にするために、グリッパーポーズをアフォーダンスデータに由来するスーパークアドリックな表面に合わせたノンパラメトリックグラスプランナーであるアフォーダンスを認識しているグレーズ推定(AGE)を提示します。
30のテーブルトップの実世界のシーンでの評価では、Gloverはパートの識別で86.0%、把握で76.3%の成功率を達成し、アフォーダンス推論では約29倍高速で、以前の最先端よりも把握ポーズ推定で40倍高速になります。
また、実施形態を介した一般化を検証し、巧妙な手を持つヒューマノイドロボットの有効性を示しています。

要約(オリジナル)

Inferring affordable (i.e., graspable) parts of arbitrary objects based on human specifications is essential for robots advancing toward open-vocabulary manipulation. Current grasp planners, however, are hindered by limited vision-language comprehension and time-consuming 3D radiance modeling, restricting real-time, open-vocabulary interactions with objects. To address these limitations, we propose GLOVER, a unified Generalizable Open-Vocabulary Affordance Reasoning framework, which fine-tunes the Large Language Models (LLMs) to predict the visual affordance of graspable object parts within RGB feature space. We compile a dataset of over 10,000 images from human-object interactions, annotated with unified visual and linguistic affordance labels, to enable multi-modal fine-tuning. GLOVER inherits world knowledge and common-sense reasoning from LLMs, facilitating more fine-grained object understanding and sophisticated tool-use reasoning. To enable effective real-world deployment, we present Affordance-Aware Grasping Estimation (AGE), a non-parametric grasp planner that aligns the gripper pose with a superquadric surface derived from affordance data. In evaluations across 30 table-top real-world scenes, GLOVER achieves success rates of 86.0% in part identification and 76.3% in grasping, with speeds approximately 29 times faster in affordance reasoning and 40 times faster in grasping pose estimation than the previous state-of-the-art. We also validate the generalization across embodiments, showing effectiveness in humanoid robots with dexterous hands.

arxiv情報

著者 Teli Ma,Zifan Wang,Jiaming Zhou,Mengmeng Wang,Junwei Liang
発行日 2025-05-01 09:13:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | GLOVER: Generalizable Open-Vocabulary Affordance Reasoning for Task-Oriented Grasping はコメントを受け付けていません

A Neural Network Mode for PX4 on Embedded Flight Controllers

要約

このペーパーでは、PX4スタック内のニューラルネットワークベースのコントローラーフレームワークのオープンソースの実装に貢献しています。
PX4オートパイロットのすべての機能を保持しながら、マイクロコントローラーに推論するためのカスタムモジュールを開発します。
空中ジムシミュレーターで訓練されたポリシーは、Tensorflow Lite形式に変換され、PX4とともに組み込まれ、フライトコントローラーにフラッシュされます。
ポリシーは、PX4内のコントロールキャスセードを代用して、正規化されたモーターRPMセットポイントを提供するエンドツーエンドの位置セットポイント追跡コントローラーを直接提供します。
シミュレーションと現実世界で実施された実験は、同様の追跡パフォーマンスを示しています。
したがって、現実の世界で神経制御ポリシーをテストするためのフライトレディパイプラインを提供します。
パイプラインは、組み込みフライトコントローラーハードウェア上のニューラルネットワークの展開を簡素化し、学習ベースの制御に関する研究を促進します。
空中ジムシミュレーターとPX4モジュールの両方は、https://github.com/ntnu-arl/aerial_gym_simulatorとhttps://github.com/sindremhegre/px4-autopilot-public/tree/for_parefor_paperでオープンソースを受けています。
ビデオ:https://youtu.be/ly1okz_uoqm?si=vtzl243bay3lbltj。

要約(オリジナル)

This paper contributes an open-sourced implementation of a neural-network based controller framework within the PX4 stack. We develop a custom module for inference on the microcontroller while retaining all of the functionality of the PX4 autopilot. Policies trained in the Aerial Gym Simulator are converted to the TensorFlow Lite format and then built together with PX4 and flashed to the flight controller. The policies substitute the control-cascade within PX4 to offer an end-to-end position-setpoint tracking controller directly providing normalized motor RPM setpoints. Experiments conducted in simulation and the real-world show similar tracking performance. We thus provide a flight-ready pipeline for testing neural control policies in the real world. The pipeline simplifies the deployment of neural networks on embedded flight controller hardware thereby accelerating research on learning-based control. Both the Aerial Gym Simulator and the PX4 module are open-sourced at https://github.com/ntnu-arl/aerial_gym_simulator and https://github.com/SindreMHegre/PX4-Autopilot-public/tree/for_paper. Video: https://youtu.be/lY1OKz_UOqM?si=VtzL243BAY3lblTJ.

arxiv情報

著者 Sindre M. Hegre,Welf Rehberg,Mihir Kulkarni,Kostas Alexis
発行日 2025-05-01 10:01:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | A Neural Network Mode for PX4 on Embedded Flight Controllers はコメントを受け付けていません

Decentralised, Self-Organising Drone Swarms using Coupled Oscillators

要約

ロボットの同期と調整の問題は長年にわたるものです。
自律的でコンピューター化されたシステムと予測不可能な現実世界の条件を組み合わせることで、パフォーマンスの低下から衝突や損害に至るまでの結果が生じる可能性があります。
このペーパーでは、結合した発振器を使用して、分散化された自己組織化のドローン群れを作成することを提案します。
これにより、集中型システムよりも回復力とスケーラビリティを備えた、ハードコーディングされた群れよりも柔軟性と適応性が向上します。
私たちの方法により、さまざまな数のドローンが自然に群れを形成し、変化する群れの状態に反応することができます。
さらに、この方法には、ドローン間の通信干渉を防ぐための規定と、滑らかでまとまりのある群れを確保するための信号処理技術が含まれます。

要約(オリジナル)

The problem of robotic synchronisation and coordination is a long-standing one. Combining autonomous, computerised systems with unpredictable real-world conditions can have consequences ranging from poor performance to collisions and damage. This paper proposes using coupled oscillators to create a drone swarm that is decentralised and self organising. This allows for greater flexibility and adaptiveness than a hard-coded swarm, with more resilience and scalability than a centralised system. Our method allows for a variable number of drones to spontaneously form a swarm and react to changing swarm conditions. Additionally, this method includes provisions to prevent communication interference between drones, and signal processing techniques to ensure a smooth and cohesive swarm.

arxiv情報

著者 Kevin Quinn,Cormac Molloy,Harun Šiljak
発行日 2025-05-01 10:35:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY, nlin.AO | Decentralised, Self-Organising Drone Swarms using Coupled Oscillators はコメントを受け付けていません

Follow Everything: A Leader-Following and Obstacle Avoidance Framework with Goal-Aware Adaptation

要約

堅牢で柔軟なリーダーのフォローは、ロボットが人間社会に統合するための重要な能力です。
既存の方法は、arbitrary意的な形のリーダーに一般化するのに苦労し、リーダーがロボットの視野を一時的に去るときに失敗することがよくありますが、この作業は両方の課題に対処する統一されたフレームワークを導入します。
まず、従来の検出モデルはセグメンテーションモデルに置き換えられ、リーダーが何でもできるようになります。
認識の堅牢性を高めるために、リーダーがフォローするタスクのユニークな特性を考慮して、複数の距離にリーダーの埋め込みを貯蔵する距離フレームバッファーが実装されています。
第二に、リーダーの可視性と動きに基づいてロボット計画状態を管理するように目標を認識している適応メカニズムは、各状態の候補軌跡を生成するグラフベースのプランナーによって補完され、障害物回避を伴う効率的なフォローを確保するように設計されています。
屋内環境と屋外環境の両方で、足のロボットフォロワーとさまざまなリーダー(人間、地上ロボット、UAV、脚のロボット、ストップサイン)を使用したシミュレーションと現実世界の実験は、成功率の競争力のある改善、視覚損失期間の減少、衝突率の低下、リーダーフォロワー距離の減少を示します。

要約(オリジナル)

Robust and flexible leader-following is a critical capability for robots to integrate into human society. While existing methods struggle to generalize to leaders of arbitrary form and often fail when the leader temporarily leaves the robot’s field of view, this work introduces a unified framework addressing both challenges. First, traditional detection models are replaced with a segmentation model, allowing the leader to be anything. To enhance recognition robustness, a distance frame buffer is implemented that stores leader embeddings at multiple distances, accounting for the unique characteristics of leader-following tasks. Second, a goal-aware adaptation mechanism is designed to govern robot planning states based on the leader’s visibility and motion, complemented by a graph-based planner that generates candidate trajectories for each state, ensuring efficient following with obstacle avoidance. Simulations and real-world experiments with a legged robot follower and various leaders (human, ground robot, UAV, legged robot, stop sign) in both indoor and outdoor environments show competitive improvements in follow success rate, reduced visual loss duration, lower collision rate, and decreased leader-follower distance.

arxiv情報

著者 Qianyi Zhang,Shijian Ma,Boyi Liu,Jingtai Liu,Jianhao Jiao,Dimitrios Kanoulas
発行日 2025-05-01 12:15:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Follow Everything: A Leader-Following and Obstacle Avoidance Framework with Goal-Aware Adaptation はコメントを受け付けていません

MULE: Multi-terrain and Unknown Load Adaptation for Effective Quadrupedal Locomotion

要約

四葉型ロボットは、多様な地形全体の荷重運搬タスク用にますます展開されています。
モデル予測制御(MPC)ベースのメソッドはペイロードの変動を説明できますが、多くの場合、事前定義された歩行スケジュールまたは軌跡ジェネレーターに依存し、構造化されていない環境での適応性を制限します。
これらの制限に対処するために、Quadrupedalロボットがさまざまなペイロードと多様な地形の両方に動的に適応できるようにする適応補強学習(RL)フレームワークを提案します。
このフレームワークは、ベースラインの移動を担当する名目ポリシーと、安定性を維持し、ペイロードのバリエーションでコマンド追跡を改善するための是正措置を学習する適応ポリシーで構成されています。
Isaacジムでの大規模なシミュレーション実験と、Unitree GO1四足動物での実世界のハードウェアの展開を通じて、提案されたアプローチを検証します。
コントローラーは、静的および動的なペイロードの変化の両方で、平らな地面、斜面、階段でテストされました。
すべての設定にわたって、適応型コントローラーは、ボディの高さと速度コマンドを追跡する際にコントローラーを一貫して上回り、明示的な歩行設計や手動チューニングを必要とせずに強化された堅牢性と適応性を示しました。

要約(オリジナル)

Quadrupedal robots are increasingly deployed for load-carrying tasks across diverse terrains. While Model Predictive Control (MPC)-based methods can account for payload variations, they often depend on predefined gait schedules or trajectory generators, limiting their adaptability in unstructured environments. To address these limitations, we propose an Adaptive Reinforcement Learning (RL) framework that enables quadrupedal robots to dynamically adapt to both varying payloads and diverse terrains. The framework consists of a nominal policy responsible for baseline locomotion and an adaptive policy that learns corrective actions to preserve stability and improve command tracking under payload variations. We validate the proposed approach through large-scale simulation experiments in Isaac Gym and real-world hardware deployment on a Unitree Go1 quadruped. The controller was tested on flat ground, slopes, and stairs under both static and dynamic payload changes. Across all settings, our adaptive controller consistently outperformed the controller in tracking body height and velocity commands, demonstrating enhanced robustness and adaptability without requiring explicit gait design or manual tuning.

arxiv情報

著者 Vamshi Kumar Kurva,Shishir Kolathaya
発行日 2025-05-01 12:41:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | MULE: Multi-terrain and Unknown Load Adaptation for Effective Quadrupedal Locomotion はコメントを受け付けていません

Optimal Interactive Learning on the Job via Facility Location Planning

要約

共同ロボットは、ユーザーに過剰に負担することなく、新しいタスクやユーザーの好みに継続的に適応する必要があります。
以前のインタラクティブなロボット学習方法は、人間の努力を減らすことを目的としていますが、通常、シングルタスクシナリオに限定されており、持続的なマルチタスクコラボレーションには適していません。
コイル(コスト最適なインタラクティブ学習)を提案します。これは、3つのクエリタイプ(スキル、好み、およびヘルプ)を戦略的に選択することにより、一連のタスク全体で人間の努力を最小限に抑えるマルチタスクインタラクションプランナーです。
ユーザーの好みがわかっている場合、コイルを耐パシッテーション施設の位置(UFL)問題として策定します。これにより、既製の近似アルゴリズムを使用して、多項式時間で境界線型計画を可能にします。
これらの近似アルゴリズムをサブルーチンとして使用して多項式時間のパフォーマンスを維持することにより、1段階の信念スペース計画を組み込むことにより、ユーザーの好みの不確実性を処理するように定式化を拡張します。
操作タスクに関するシミュレーションおよび物理実験は、私たちのフレームワークが、タスクの完了を成功させながら、人間に割り当てる作業の量を大幅に削減することを示しています。

要約(オリジナル)

Collaborative robots must continually adapt to novel tasks and user preferences without overburdening the user. While prior interactive robot learning methods aim to reduce human effort, they are typically limited to single-task scenarios and are not well-suited for sustained, multi-task collaboration. We propose COIL (Cost-Optimal Interactive Learning) — a multi-task interaction planner that minimizes human effort across a sequence of tasks by strategically selecting among three query types (skill, preference, and help). When user preferences are known, we formulate COIL as an uncapacitated facility location (UFL) problem, which enables bounded-suboptimal planning in polynomial time using off-the-shelf approximation algorithms. We extend our formulation to handle uncertainty in user preferences by incorporating one-step belief space planning, which uses these approximation algorithms as subroutines to maintain polynomial-time performance. Simulated and physical experiments on manipulation tasks show that our framework significantly reduces the amount of work allocated to the human while maintaining successful task completion.

arxiv情報

著者 Shivam Vats,Michelle Zhao,Patrick Callaghan,Mingxi Jia,Maxim Likhachev,Oliver Kroemer,George Konidaris
発行日 2025-05-01 12:45:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Optimal Interactive Learning on the Job via Facility Location Planning はコメントを受け付けていません

Implicit Neural-Representation Learning for Elastic Deformable-Object Manipulations

要約

現実世界のシナリオで、変形可能なオブジェクト、特に弾性バンドを操作する問題を解決することを目指しています。
ただし、変形可能なオブジェクト操作(DOM)には、変形可能なオブジェクトの無制限の自由度(DOF)のために、大きな状態空間で機能するポリシーが必要です。
さらに、それらの密なが部分的な観察(例:画像やポイント雲)は、政策学習のサンプリングの複雑さと不確実性を高める可能性があります。
それを把握するために、私たちは、inr-domと呼ばれる弾性Domsの新しい暗黙の神経表現(inr)学習を提案します。
私たちの方法は、署名された距離関数として表される完全で暗黙の表面を再構築する部分的に観察可能な弾性オブジェクトに関連する一貫した状態表現を学習します。
さらに、RLアルゴリズムがDOMポリシーを効率的に取得しながら、搾取可能な表現を効果的に学習できるようにする強化学習(RL)を通じて、探索的表現を微調整します。
フランカエミカパンダアームを使用した3つのシミュレートされた環境と実世界の操作研究を構築する定量的および定性的分析を実行します。
ビデオはhttp://inr-dom.github.ioで入手できます。

要約(オリジナル)

We aim to solve the problem of manipulating deformable objects, particularly elastic bands, in real-world scenarios. However, deformable object manipulation (DOM) requires a policy that works on a large state space due to the unlimited degree of freedom (DoF) of deformable objects. Further, their dense but partial observations (e.g., images or point clouds) may increase the sampling complexity and uncertainty in policy learning. To figure it out, we propose a novel implicit neural-representation (INR) learning for elastic DOMs, called INR-DOM. Our method learns consistent state representations associated with partially observable elastic objects reconstructing a complete and implicit surface represented as a signed distance function. Furthermore, we perform exploratory representation fine-tuning through reinforcement learning (RL) that enables RL algorithms to effectively learn exploitable representations while efficiently obtaining a DOM policy. We perform quantitative and qualitative analyses building three simulated environments and real-world manipulation studies with a Franka Emika Panda arm. Videos are available at http://inr-dom.github.io.

arxiv情報

著者 Minseok Song,JeongHo Ha,Bonggyeong Park,Daehyung Park
発行日 2025-05-01 13:00:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | Implicit Neural-Representation Learning for Elastic Deformable-Object Manipulations はコメントを受け付けていません

DeCo: Task Decomposition and Skill Composition for Zero-Shot Generalization in Long-Horizon 3D Manipulation

要約

新規長老3D操作タスクへの言語条件付きマルチタスク模倣学習(IL)モデルの一般化は、依然として重要な課題です。
これに対処するために、さまざまなマルチタスクILモデルと互換性のあるモデルに依存しないフレームワークであるデコ(タスク分解とスキル構成)を提案します。
DECOは、最初にILデモンストレーションをグリッパーとオブジェクト間の物理的相互作用に基づいて一連のモジュラー原子タスクに分解し、モデルが模倣学習中に多様な再利用可能なアトミックスキルを学習できるようにする原子トレーニングデータセットを構築します。
推論時に、デコはビジョン言語モデル(VLM)を活用して、新しい長老タスクの高レベルの命令を解析し、関連する原子スキルを取得し、実行を動的にスケジュールします。
空間的に認識されたスキルチェーンモジュールは、シーケンシャルスキル間のスムーズで衝突のない移行を保証します。
デコベンチを使用してシミュレーションでデコを評価します。デコベンチは、組成の長老型操作におけるマルチタスクILモデルのゼロショット一般化を評価するために特別に設計されたベンチマークです。
3つの代表的なマルチタスクILモデル(RVT-2、3DDA、およびARP)で、DECOは、12の新しい組成タスクで、それぞれ66.67%、21.53%、および57.92%の成功率の改善を達成します。
さらに、実際の実験では、6つの原子タスクのみで訓練されたデコで強化されたモデルが9つの新しい長期タスクを正常に完了し、ベースマルチタスクILモデルで53.33%の平均成功率改善をもたらします。
ビデオデモンストレーションは、https://deco226.github.ioで入手できます。

要約(オリジナル)

Generalizing language-conditioned multi-task imitation learning (IL) models to novel long-horizon 3D manipulation tasks remains a significant challenge. To address this, we propose DeCo (Task Decomposition and Skill Composition), a model-agnostic framework compatible with various multi-task IL models, designed to enhance their zero-shot generalization to novel, compositional, long-horizon 3D manipulation tasks. DeCo first decomposes IL demonstrations into a set of modular atomic tasks based on the physical interaction between the gripper and objects, and constructs an atomic training dataset that enables models to learn a diverse set of reusable atomic skills during imitation learning. At inference time, DeCo leverages a vision-language model (VLM) to parse high-level instructions for novel long-horizon tasks, retrieve the relevant atomic skills, and dynamically schedule their execution; a spatially-aware skill-chaining module then ensures smooth, collision-free transitions between sequential skills. We evaluate DeCo in simulation using DeCoBench, a benchmark specifically designed to assess zero-shot generalization of multi-task IL models in compositional long-horizon 3D manipulation. Across three representative multi-task IL models (RVT-2, 3DDA, and ARP), DeCo achieves success rate improvements of 66.67%, 21.53%, and 57.92%, respectively, on 12 novel compositional tasks. Moreover, in real-world experiments, a DeCo-enhanced model trained on only 6 atomic tasks successfully completes 9 novel long-horizon tasks, yielding an average success rate improvement of 53.33% over the base multi-task IL model. Video demonstrations are available at: https://deco226.github.io.

arxiv情報

著者 Zixuan Chen,Junhui Yin,Yangtao Chen,Jing Huo,Pinzhuo Tian,Jieqi Shi,Yiwen Hou,Yinchuan Li,Yang Gao
発行日 2025-05-01 13:52:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | DeCo: Task Decomposition and Skill Composition for Zero-Shot Generalization in Long-Horizon 3D Manipulation はコメントを受け付けていません

Forward kinematics of a general Stewart-Gough platform by elimination templates

要約

この論文は、一般的なスチュワート王のプラットフォームの前進運動の問題に対する効率的な代数解決策を提案しています。
問題は、脚の長さとプラットフォームとベースの内部ジオメトリを考えると、固定ベースに接続されたモバイルプラットフォームのすべての可能な姿勢を決定することです。
この問題は、40のソリューション(リアルであろうと複雑であろうと)があることが知られています。
提案されたアルゴリズムは、3つの主要な手順で構成されています。(i)サイズ293×362(エリミネーションテンプレート)の特定のスパースマトリックスは、プラットフォームの運動学を表す多項式システムの係数から構築されます。
(ii)このマトリックスのPLU分解は、69×69マトリックスのペアを構築するために使用されます。
(iii)このマトリックスペアの一般化された固有ベクトルを計算することにより、40のソリューション(複雑なソリューションを含む)すべてが取得されます。
提案されたアルゴリズムは、数値的に堅牢で、計算効率が高く、実装するのに簡単です – 標準の線形代数分解のみが必要です。
AlgorithmのMatlab、Julia、およびPythonの実装が公開されます。

要約(オリジナル)

The paper proposes an efficient algebraic solution to the problem of forward kinematics for a general Stewart-Gough platform. The problem involves determining all possible postures of a mobile platform connected to a fixed base by six legs, given the leg lengths and the internal geometries of the platform and base. The problem is known to have 40 solutions (whether real or complex). The proposed algorithm consists of three main steps: (i) a specific sparse matrix of size 293×362 (the elimination template) is constructed from the coefficients of the polynomial system describing the platform’s kinematics; (ii) the PLU decomposition of this matrix is used to construct a pair of 69×69 matrices; (iii) all 40 solutions (including complex ones) are obtained by computing the generalized eigenvectors of this matrix pair. The proposed algorithm is numerically robust, computationally efficient, and straightforward to implement – requiring only standard linear algebra decompositions. MATLAB, Julia, and Python implementations of the algorithm will be made publicly available.

arxiv情報

著者 Evgeniy Martyushev
発行日 2025-05-01 16:18:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Forward kinematics of a general Stewart-Gough platform by elimination templates はコメントを受け付けていません