DiffTORI: Differentiable Trajectory Optimization for Deep Reinforcement and Imitation Learning

要約

このホワイトペーパーでは、Difftoriを紹介します。これは、微分軌跡の最適化を政策表現として利用して、深い補強と模倣学習のためのアクションを生成します。
軌道最適化は、コストとダイナミクス関数によってパラメーター化された、強力で広く使用されているコントロールで使用されています。
私たちのアプローチの鍵は、微分可能な軌道最適化の最近の進捗状況を活用することです。これにより、軌道最適化のパラメーターに関する損失の勾配を計算できます。
その結果、軌道最適化のコストとダイナミクスの関数は、エンドツーエンドを学ぶことができます。
Difftoriは、以前のモデルベースのRLアルゴリズムの「客観的ミスマッチ」問題に対処します。Difftoriのダイナミクスモデルは、軌跡最適化プロセスを通じてポリシー勾配の損失を区別することによりタスクのパフォーマンスを直接最大化することが学習されています。
さらに、高次元感覚観測を備えた標準的なロボット操作タスクスイートの模倣学習のためのDifftoriをさらにベンチマークし、私たちの方法をフィードフォワードポリシークラスとエネルギーベースのモデル(EBM)と拡散と比較します。
15のモデルベースのRLタスクと、高次元画像とポイントクラウド入力を備えた35の模倣学習タスクにわたって、Difftoriは両方のドメインで以前の最先端の方法を上回ります。
私たちのコードは、https://github.com/wkwan7/difftoriで入手できます。

要約(オリジナル)

This paper introduces DiffTORI, which utilizes Differentiable Trajectory Optimization as the policy representation to generate actions for deep Reinforcement and Imitation learning. Trajectory optimization is a powerful and widely used algorithm in control, parameterized by a cost and a dynamics function. The key to our approach is to leverage the recent progress in differentiable trajectory optimization, which enables computing the gradients of the loss with respect to the parameters of trajectory optimization. As a result, the cost and dynamics functions of trajectory optimization can be learned end-to-end. DiffTORI addresses the “objective mismatch” issue of prior model-based RL algorithms, as the dynamics model in DiffTORI is learned to directly maximize task performance by differentiating the policy gradient loss through the trajectory optimization process. We further benchmark DiffTORI for imitation learning on standard robotic manipulation task suites with high-dimensional sensory observations and compare our method to feed-forward policy classes as well as Energy-Based Models (EBM) and Diffusion. Across 15 model-based RL tasks and 35 imitation learning tasks with high-dimensional image and point cloud inputs, DiffTORI outperforms prior state-of-the-art methods in both domains. Our code is available at https://github.com/wkwan7/DiffTORI.

arxiv情報

著者 Weikang Wan,Ziyu Wang,Yufei Wang,Zackory Erickson,David Held
発行日 2025-06-13 04:41:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | DiffTORI: Differentiable Trajectory Optimization for Deep Reinforcement and Imitation Learning はコメントを受け付けていません

Multi-Loco: Unifying Multi-Embodiment Legged Locomotion via Reinforcement Learning Augmented Diffusion

要約

さまざまな形態学を備えた多様な脚のロボット全体の運動ポリシーを一般化することは、観測/作用の次元とシステムのダイナミクスの違いにより、重要な課題です。
この作業では、強化学習(RL)を介して最適化された軽量残差ポリシーと形態と存在の生成拡散モデルを組み合わせた新しい統一フレームワークであるマルチロコを提案します。
拡散モデルは、多様な交差拡大データセットから形態不変の移動パターンをキャプチャし、一般化と堅牢性を改善します。
残留ポリシーは、すべての実施形態で共有され、拡散モデルによって生成されるアクションを改良し、現実世界の展開のためのタスク認識パフォーマンスと堅牢性を高めます。
シミュレーションと実際の実験の両方で、4つの足のロボットの豊富なライブラリを使用して、方法を評価しました。
PPOを備えた標準のRLフレームワークと比較して、ガウスポリシーを拡散モデルと残留用語に置き換えるアプローチは、10.35%の平均リターンの改善を達成し、車輪付きバイプされた移動タスクで最大13.57%増加します。
これらの結果は、拡大したデータと、堅牢で一般化された移動スキルの学習における複合生成アーキテクチャの利点を強調しています。

要約(オリジナル)

Generalizing locomotion policies across diverse legged robots with varying morphologies is a key challenge due to differences in observation/action dimensions and system dynamics. In this work, we propose Multi-Loco, a novel unified framework combining a morphology-agnostic generative diffusion model with a lightweight residual policy optimized via reinforcement learning (RL). The diffusion model captures morphology-invariant locomotion patterns from diverse cross-embodiment datasets, improving generalization and robustness. The residual policy is shared across all embodiments and refines the actions generated by the diffusion model, enhancing task-aware performance and robustness for real-world deployment. We evaluated our method with a rich library of four legged robots in both simulation and real-world experiments. Compared to a standard RL framework with PPO, our approach — replacing the Gaussian policy with a diffusion model and residual term — achieves a 10.35% average return improvement, with gains up to 13.57% in wheeled-biped locomotion tasks. These results highlight the benefits of cross-embodiment data and composite generative architectures in learning robust, generalized locomotion skills.

arxiv情報

著者 Shunpeng Yang,Zhen Fu,Zhefeng Cao,Guo Junde,Patrick Wensing,Wei Zhang,Hua Chen
発行日 2025-06-13 05:16:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Multi-Loco: Unifying Multi-Embodiment Legged Locomotion via Reinforcement Learning Augmented Diffusion はコメントを受け付けていません

Foundation Models in Autonomous Driving: A Survey on Scenario Generation and Scenario Analysis

要約

自動運転車の場合、複雑な環境での安全なナビゲーションは、幅広い多様でまれな運転シナリオの処理に依存します。
シミュレーションおよびシナリオベースのテストは、自律運転システムの開発と検証への重要なアプローチとして浮上しています。
従来のシナリオ生成は、ルールベースのシステム、知識主導型モデル、およびデータ駆動型の合成に依存しており、多くの場合、限られた多様性と非現実的な安全性批判的なケースを生み出します。
事前に訓練された新たな汎用AIモデルの新世代を表す基礎モデルの出現により、開発者は不均一な入力(自然言語、センサーデータ、HDマップ、制御アクションなど)を処理し、複雑な駆動シナリオの統合と解釈を可能にします。
この論文では、自律運転におけるシナリオ生成およびシナリオ分析のための基礎モデルの適用に関する調査を実施します(2025年5月現在)。
私たちの調査では、自律運転シナリオの生成と分析のための大規模な言語モデル、ビジョン言語モデル、マルチモーダル大手言語モデル、拡散モデル、世界モデルを含む統一された分類法を提示します。
さらに、方法論、オープンソースデータセット、シミュレーションプラットフォーム、ベンチマークの課題を確認し、シナリオの生成と分析に明示的に調整された評価メトリックを調べます。
最後に、調査は、公開された課題と研究の質問を強調し、有望な将来の研究の方向性を概説することで締めくくります。
レビューされたすべての論文は、補足資料を含む継続的にメンテナンスされたリポジトリにリストされており、https://github.com/tum-avs/fm-for-scenario-generation-analysで入手できます。

要約(オリジナル)

For autonomous vehicles, safe navigation in complex environments depends on handling a broad range of diverse and rare driving scenarios. Simulation- and scenario-based testing have emerged as key approaches to development and validation of autonomous driving systems. Traditional scenario generation relies on rule-based systems, knowledge-driven models, and data-driven synthesis, often producing limited diversity and unrealistic safety-critical cases. With the emergence of foundation models, which represent a new generation of pre-trained, general-purpose AI models, developers can process heterogeneous inputs (e.g., natural language, sensor data, HD maps, and control actions), enabling the synthesis and interpretation of complex driving scenarios. In this paper, we conduct a survey about the application of foundation models for scenario generation and scenario analysis in autonomous driving (as of May 2025). Our survey presents a unified taxonomy that includes large language models, vision-language models, multimodal large language models, diffusion models, and world models for the generation and analysis of autonomous driving scenarios. In addition, we review the methodologies, open-source datasets, simulation platforms, and benchmark challenges, and we examine the evaluation metrics tailored explicitly to scenario generation and analysis. Finally, the survey concludes by highlighting the open challenges and research questions, and outlining promising future research directions. All reviewed papers are listed in a continuously maintained repository, which contains supplementary materials and is available at https://github.com/TUM-AVS/FM-for-Scenario-Generation-Analysis.

arxiv情報

著者 Yuan Gao,Mattia Piccinini,Yuchen Zhang,Dingrui Wang,Korbinian Moller,Roberto Brusnicki,Baha Zarrouki,Alessio Gambi,Jan Frederik Totz,Kai Storms,Steven Peters,Andrea Stocco,Bassam Alrifaee,Marco Pavone,Johannes Betz
発行日 2025-06-13 07:25:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Foundation Models in Autonomous Driving: A Survey on Scenario Generation and Scenario Analysis はコメントを受け付けていません

Linearly Solving Robust Rotation Estimation

要約

回転推定は、コンピュータービジョンおよびロボットタスクに基本的な役割を果たし、非常に堅牢な回転推定は、安全性の高いアプリケーションに非常に役立ちます。
通常、回転の推定は、慎重な設計を必要とする非線形および非凸最適化問題と見なされます。
ただし、このホワイトペーパーでは、制約を削除せず、特異点を導入することなく線形モデルフィッティングの問題を解決するために、回転推定の問題を解決することができるという新しい視点を提供します。
さらに、回転運動の二重構造を調査し、四項球面上の大規模な円として表現できることを明らかにします。
したがって、回転推定を解決するための簡単に理解できる投票ベースの方法を提案します。
提案された方法は、ノイズと外れ値に対する並外れた堅牢性を示し、グラフィックプロセッシングユニット(GPU)と簡単に並行して計算できます。
特に、GPUの力を活用すると、提案された方法は、0.5秒未満の大規模($ 10^6 $)および重度に破損した(99 $ \%$ $ Outlier比)回転推定の問題の満足のいく回転ソリューションを取得できます。
さらに、理論的枠組みを検証し、提案された方法の優位性を実証するために、制御された実験と実際のデータセット実験を実施します。
これらの実験は、回転推定の問題を解決する際のアプローチの有効性と堅牢性をサポートする説得力のある証拠を提供します。

要約(オリジナル)

Rotation estimation plays a fundamental role in computer vision and robot tasks, and extremely robust rotation estimation is significantly useful for safety-critical applications. Typically, estimating a rotation is considered a non-linear and non-convex optimization problem that requires careful design. However, in this paper, we provide some new perspectives that solving a rotation estimation problem can be reformulated as solving a linear model fitting problem without dropping any constraints and without introducing any singularities. In addition, we explore the dual structure of a rotation motion, revealing that it can be represented as a great circle on a quaternion sphere surface. Accordingly, we propose an easily understandable voting-based method to solve rotation estimation. The proposed method exhibits exceptional robustness to noise and outliers and can be computed in parallel with graphics processing units (GPUs) effortlessly. Particularly, leveraging the power of GPUs, the proposed method can obtain a satisfactory rotation solution for large-scale($10^6$) and severely corrupted (99$\%$ outlier ratio) rotation estimation problems under 0.5 seconds. Furthermore, to validate our theoretical framework and demonstrate the superiority of our proposed method, we conduct controlled experiments and real-world dataset experiments. These experiments provide compelling evidence supporting the effectiveness and robustness of our approach in solving rotation estimation problems.

arxiv情報

著者 Yinlong Liu,Tianyu Huang,Zhi-Xin Yang
発行日 2025-06-13 08:00:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO, cs.SY, eess.SY | Linearly Solving Robust Rotation Estimation はコメントを受け付けていません

Scheduling Agile Earth Observation Satellites with Onboard Processing and Real-Time Monitoring

要約

アジャイルアース観測衛星(AEOSS)の出現は、地球観測の分野(EO)の重要な転換点を示しており、データ収集の柔軟性が向上しています。
同時に、オンボードサテライトコンピューティングおよび通信技術の進歩により、データ圧縮効率が大幅に向上し、ネットワークの遅延とうっ血が減少し、ほぼリアルタイムの情報配信をサポートします。
この論文では、アジャイルアース観測衛星スケジューリング問題(AEOSSP)に対処します。これには、全体的な観測利益を最大化するためのターゲット観測の最適なシーケンスを決定することが含まれます。
当社のアプローチでは、リアルタイムのリモートモニタリングのためのオンボードデータ処理をマルチサテライト最適化問題に統合します。
この目的のために、一連の優先度指標を定義し、建設的なヒューリスティック方法を開発し、ローカル検索(LS)戦略でさらに強化されました。
結果は、提案されたアルゴリズムが、収集されたフレームの解像度を平均で最大10%増加させることにより高品質の情報を提供し、インスタンス内のターゲットの監視頻度の分散を最大83%削減し、セット全体でより最新の情報(FIFO)方法と比較してより最新の情報を確保することを示しています。

要約(オリジナル)

The emergence of Agile Earth Observation Satellites (AEOSs) has marked a significant turning point in the field of Earth Observation (EO), offering enhanced flexibility in data acquisition. Concurrently, advancements in onboard satellite computing and communication technologies have greatly enhanced data compression efficiency, reducing network latency and congestion while supporting near real-time information delivery. In this paper, we address the Agile Earth Observation Satellite Scheduling Problem (AEOSSP), which involves determining the optimal sequence of target observations to maximize overall observation profit. Our approach integrates onboard data processing for real-time remote monitoring into the multi-satellite optimization problem. To this end, we define a set of priority indicators and develop a constructive heuristic method, further enhanced with a Local Search (LS) strategy. The results show that the proposed algorithm provides high-quality information by increasing the resolution of the collected frames by up to 10% on average, while reducing the variance in the monitoring frequency of the targets within the instance by up to 83%, ensuring more up-to-date information across the entire set compared to a First-In First-Out (FIFO) method.

arxiv情報

著者 Antonio M. Mercado-Martínez,Beatriz Soret,Antonio Jurado-Navas
発行日 2025-06-13 08:07:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.NI, cs.RO | Scheduling Agile Earth Observation Satellites with Onboard Processing and Real-Time Monitoring はコメントを受け付けていません

Construction of a Multiple-DOF Under-actuated Gripper with Force-Sensing via Deep Learning

要約

2つの3ジョイントフィンガーを備えた新しい過少作用グリッパーを紹介します。これは、強力センサーなしで、深い学習技術 – 長期短期メモリ(LSTM)モデルによるフォースフィードバック制御を実現します。
第一に、ダブル4リンケージで積み重ねられた5リンケージメカニズムは、並列と包むグラッシングモードの間の変換を自動的に実現するために指として設計されています。
これにより、単一のアクチュエータと2つの3ファランジ指を含む低コストの過少作用型グリッパーの作成が可能になります。
第二に、提案されたグリッパーに基づいて運動学と送電の理論モデルを考案し、指先の位置と接触力を正確に取得します。
5リンケージメカニズムのカップリングとデカップリングを通じて、提案されたグリッパーは、ペイロード/力/安定性を把握する予想される機能と、大きな寸法範囲を持つオブジェクトを提供します。
第三に、フォースコントロールを実現するために、統計的方法を使用して電流の不確実性を概説した後に接触センシングを活用する力フィードバック制御ポリシーを合成するためのグレーシングモードを決定するLSTMモデルが提案されています。
最後に、ペイロード、グレーズフォース、フォースセンシング、安定性を把握し、オブジェクトの次元範囲などの定量的指標を測定するための一連の実験が実装されます。
さらに、提案されたグリッパーの把握パフォーマンスは、提案されたグリッパーの高い汎用性と堅牢性を保証するために実験的に検証されます。

要約(オリジナル)

We present a novel under-actuated gripper with two 3-joint fingers, which realizes force feedback control by the deep learning technique- Long Short-Term Memory (LSTM) model, without any force sensor. First, a five-linkage mechanism stacked by double four-linkages is designed as a finger to automatically achieve the transformation between parallel and enveloping grasping modes. This enables the creation of a low-cost under-actuated gripper comprising a single actuator and two 3-phalange fingers. Second, we devise theoretical models of kinematics and power transmission based on the proposed gripper, accurately obtaining fingertip positions and contact forces. Through coupling and decoupling of five-linkage mechanisms, the proposed gripper offers the expected capabilities of grasping payload/force/stability and objects with large dimension ranges. Third, to realize the force control, an LSTM model is proposed to determine the grasping mode for synthesizing force-feedback control policies that exploit contact sensing after outlining the uncertainty of currents using a statistical method. Finally, a series of experiments are implemented to measure quantitative indicators, such as the payload, grasping force, force sensing, grasping stability and the dimension ranges of objects to be grasped. Additionally, the grasping performance of the proposed gripper is verified experimentally to guarantee the high versatility and robustness of the proposed gripper.

arxiv情報

著者 Jihao Li,Keqi Zhu,Guodong Lu,I-Ming Chen,Huixu Dong
発行日 2025-06-13 08:27:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Construction of a Multiple-DOF Under-actuated Gripper with Force-Sensing via Deep Learning はコメントを受け付けていません

Interior Point Differential Dynamic Programming, Redux

要約

非線形制約を備えた離散時間、有限層最適制御問題(OCP)を解くための構造抽出アルゴリズムであるIPDDP2を提示します。
不等式の制約は、原始二重の内部ポイントの定式化を使用して処理され、平等制約のステップ受け入れはライン検索フィルターアプローチに従います。
アルゴリズムの反復は、微分動的プログラミング(DDP)フレームワークの下で導出されます。
IPDDP2反復液の局所的な2次収束の証明が提供されます。
私たちの数値実験は、5つの異なるクラスのロボットモーション計画の問題に由来する500を超えるOCPでIPDDP2を評価します。
IPDDP2は、接触型計画のための既存の制約付きDDPアルゴリズムに対する堅牢性の改善を示し、汎用ソルバーIPOPTよりも大幅に高速です。
Juliaプログラミング言語でIPDDP2の完全な実装を提供します。

要約(オリジナル)

We present IPDDP2, a structure-exploiting algorithm for solving discrete-time, finite-horizon optimal control problems (OCPs) with nonlinear constraints. Inequality constraints are handled using a primal-dual interior point formulation and step acceptance for equality constraints follows a line-search filter approach. The iterates of the algorithm are derived under the Differential Dynamic Programming (DDP) framework. A proof of local quadratic convergence of the IPDDP2 iterates is provided. Our numerical experiments evaluate IPDDP2 on over 500 OCPs derived from five different classes of robotic motion planning problems, three of which are contact-implicit trajectory optimisation problems. IPDDP2 demonstrates improvements in robustness against existing constrained DDP algorithms for contact-implicit planning, while being significantly faster than general-purpose solver IPOPT. We provide a full implementation of IPDDP2 in the Julia programming language.

arxiv情報

著者 Ming Xu,Stephen Gould,Iman Shames
発行日 2025-06-13 09:58:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY, math.OC | Interior Point Differential Dynamic Programming, Redux はコメントを受け付けていません

Robot Context Protocol (RCP): A Runtime-Agnostic Interface for Agent-Aware Robot Control

要約

ロボットコンテキストプロトコル(RCP)は、ロボットシステムの複雑さを簡素化し、ロボット、ユーザー、および自律エージェント間のシームレスな相互作用を可能にするために設計された軽量のミドルウェアと存在する通信プロトコルです。
RCPは、バックエンドの実装からクライアント向け操作を切り離す統一された意味的に意味のあるインターフェイスを提供し、物理ロボット、クラウドベースのオーケストレーター、シミュレートされたプラットフォームなどの幅広い展開環境をサポートします。
HTTPおよびWebsocket Transport Layersに基づいて構築されたプロトコルは、読み取り、書き込み、実行、購読などの構造化された操作を備えたスキーマ駆動型メッセージ形式を定義します。
ランタイム内省、非同期フィードバック、マルチテナントネームスペースの分離、厳密なタイプの検証などの機能を統合して、堅牢性、スケーラビリティ、セキュリティを確保します。
RCPのアーキテクチャ、メッセージ構造、インターフェイスモデル、およびアダプターベースのバックエンド統合戦略が説明されており、製造、物流、ヘルスケアなどの業界全体の展開慣行と適用性が説明されています。
RCPは、複雑でマルチエージェントのエコシステムでインテリジェントで回復力があり、安全なロボット操作を可能にします。

要約(オリジナル)

The Robot Context Protocol (RCP) is a lightweight, middleware-agnostic communication protocol designed to simplify the complexity of robotic systems and enable seamless interaction between robots, users, and autonomous agents. RCP provides a unified and semantically meaningful interface that decouples client-facing operations from backend implementations, supporting a wide range of deployment environments including physical robots, cloud-based orchestrators, and simulated platforms. Built on HTTP and WebSocket transport layers, the protocol defines a schema-driven message format with structured operations such as read, write, execute, and subscribe. It integrates features such as runtime introspection, asynchronous feedback, multi-tenant namespace isolation, and strict type validation to ensure robustness, scalability, and security. The architecture, message structure, interface model, and adapter-based backend integration strategy of RCP are described, along with deployment practices and applicability across industries including manufacturing, logistics, and healthcare. RCP enables intelligent, resilient, and safe robotic operations in complex, multi-agent ecosystems.

arxiv情報

著者 Lambert Lee,Joshua Lau
発行日 2025-06-13 10:24:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Robot Context Protocol (RCP): A Runtime-Agnostic Interface for Agent-Aware Robot Control はコメントを受け付けていません

Dynamic Collaborative Material Distribution System for Intelligent Robots In Smart Manufacturing

要約

複数のロボットのコラボレーションと相互作用は、スマート製造の不可欠な側面になっています。
効果的な計画と管理は、エネルギーの節約を達成し、全体的なコストを最小限に抑える上で重要な役割を果たします。
このペーパーでは、特にスマートマニュファクチャリングにおける複数のインテリジェントロボットの材料分布ケースを使用して、リアルタイムの動的複数のソース(DMS-SD)ナビゲーションの問題に対処します。
\ cite {xiao2022efficient}などの列挙されたソリューションは、可能な限り多くの最適または最適なソリューションを生成することで問題に取り組みますが、以前の経験からの方法を学習しません。
その結果、これらの方法は大規模なマップで結果を計算するのにかなりの時間がかかる場合があり、リアルタイム操作を非現実的にします。
この課題を克服するために、DMS-SD問題に対処するための軽量の深い強化学習(DRL)方法を提案します。
提案されたDRLメソッドは、効率的にトレーニングされ、設計されたターゲットガイド付き報酬機能を使用して最適なソリューションに迅速に収束します。
よく訓練されたDRLモデルは、次の動きの計算時間をミリ秒レベルまで大幅に削減し、列挙された溶液と比較して実験で最大100倍の時間を改善します。
さらに、訓練されたDRLモデルは、モノのインターネットデバイスや携帯電話など、限られた計算リソースのみを必要とするスマートマニュアルの軽量デバイスに簡単に展開できます。

要約(オリジナル)

The collaboration and interaction of multiple robots have become integral aspects of smart manufacturing. Effective planning and management play a crucial role in achieving energy savings and minimising overall costs. This paper addresses the real-time Dynamic Multiple Sources to Single Destination (DMS-SD) navigation problem, particularly with a material distribution case for multiple intelligent robots in smart manufacturing. Enumerated solutions, such as in \cite{xiao2022efficient}, tackle the problem by generating as many optimal or near-optimal solutions as possible but do not learn patterns from the previous experience, whereas the method in \cite{xiao2023collaborative} only uses limited information from the earlier trajectories. Consequently, these methods may take a considerable amount of time to compute results on large maps, rendering real-time operations impractical. To overcome this challenge, we propose a lightweight Deep Reinforcement Learning (DRL) method to address the DMS-SD problem. The proposed DRL method can be efficiently trained and rapidly converges to the optimal solution using the designed target-guided reward function. A well-trained DRL model significantly reduces the computation time for the next movement to a millisecond level, which improves the time up to 100 times in our experiments compared to the enumerated solutions. Moreover, the trained DRL model can be easily deployed on lightweight devices in smart manufacturing, such as Internet of Things devices and mobile phones, which only require limited computational resources.

arxiv情報

著者 Ziren Xiao,Ruxin Xiao,Chang Liu,Xinheng Wang
発行日 2025-06-13 12:37:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Dynamic Collaborative Material Distribution System for Intelligent Robots In Smart Manufacturing はコメントを受け付けていません

CIRO7.2: A Material Network with Circularity of -7.2 and Reinforcement-Learning-Controlled Robotic Disassembler

要約

鉱物の自然保護区をめぐる競争は、テイクメーキの紛争に基づいた線形経済のパラダイムのために、一部が増加すると予想されています。
同時に、線形経済は、使用終了製品を資源としてではなく廃棄物と見なしているため、管理は未解決の問題のままである大量の廃棄物をもたらします。
循環経済への移行はこれらのオープンな問題を軽減できるため、このホワイトペーパーでは、コンパートメントの動的熱力学、すなわち$ \ lambda $に基づいて循環性の概念を強化することから始め、次に、0.1および0.95の栄養construmentmentmentmentmentmentmentmentmentmentmentmentmentemsemmentmentemsemmentmentemsemmentemの0.95および0.95の0.1および0.95の臨界係数の2つの固体材料の2つの固体材料を処理する熱力学的材料ネットワークをモデル化することから始めます。
2〜7 kgの材料を処理します。
その後、最先端のRLアルゴリズムを使用して、ロボット分解コンパートメントの設計に焦点を当て、$ \ lambda $に関してアルゴリズムのパフォーマンスを評価しました(図1)。
最も高い循環性は、それぞれ1 kgの2つの部分を分解する場合に達成された-2.1ですが、それぞれ3 kgのシャーシ内に含まれる1 kgの4つの部分を分解する場合、それは-7.2に減少します。
最後に、感度分析により、RLコントローラーのパフォーマンスの$ \ lambda $への影響は、分解される材料の量と重要性と正の相関があることが強調されました。
また、この作業は、円形の知能とロボット工学(CIRO)として示される新興研究分野の原則を示しています。
ソースコードは公開されています。

要約(オリジナル)

The competition over natural reserves of minerals is expected to increase in part because of the linear-economy paradigm based on take-make-dispose. Simultaneously, the linear economy considers end-of-use products as waste rather than as a resource, which results in large volumes of waste whose management remains an unsolved problem. Since a transition to a circular economy can mitigate these open issues, in this paper we begin by enhancing the notion of circularity based on compartmental dynamical thermodynamics, namely, $\lambda$, and then, we model a thermodynamical material network processing a batch of 2 solid materials of criticality coefficients of 0.1 and 0.95, with a robotic disassembler compartment controlled via reinforcement learning (RL), and processing 2-7 kg of materials. Subsequently, we focused on the design of the robotic disassembler compartment using state-of-the-art RL algorithms and assessing the algorithm performance with respect to $\lambda$ (Fig. 1). The highest circularity is -2.1 achieved in the case of disassembling 2 parts of 1 kg each, whereas it reduces to -7.2 in the case of disassembling 4 parts of 1 kg each contained inside a chassis of 3 kg. Finally, a sensitivity analysis highlighted that the impact on $\lambda$ of the performance of an RL controller has a positive correlation with the quantity and the criticality of the materials to be disassembled. This work also gives the principles of the emerging research fields indicated as circular intelligence and robotics (CIRO). Source code is publicly available.

arxiv情報

著者 Federico Zocco,Monica Malvezzi
発行日 2025-06-13 13:01:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CY, cs.RO | CIRO7.2: A Material Network with Circularity of -7.2 and Reinforcement-Learning-Controlled Robotic Disassembler はコメントを受け付けていません