Latent Theory of Mind: A Decentralized Diffusion Architecture for Cooperative Manipulation

要約

共同ロボット操作のための分散型拡散ポリシーアーキテクチャである潜在的な心の理論(Latenttom)を提示します。
私たちのポリシーにより、独自の認識と計算を備えた複数のマニピュレーターが、明示的なコミュニケーションの有無にかかわらず、共通のタスク目標に向けて互いに協力することができます。
私たちの重要な革新は、各エージェントがロボットに固有のエゴ埋め込みと、異なるセンサーのストリームとポーズにもかかわらず、両方のロボットに共通するように訓練されたコンセンサスを埋め込むという2つの潜在表現を維持できるようにすることにあります。
さらに、各ロボットはデコーダーを訓練して、潜在空間での心の理論に似たコンセンサスの埋め込みから他のロボットのエゴの埋め込みを推測させます。
トレーニングは中央で行われ、すべてのポリシーのコンセンサスエンコーダーは、トポロジカルマニホールド上のデータをクラスタリングするための数学理論であるSheaf理論に触発された損失によって監督されています。
具体的には、コンセンサスの埋め込みの束整合的なアライメントを実施するために、1次の大量のコホモロジー損失を導入します。
コンセンサス埋め込みの表現力を維持するために、心の理論と方向性コンセンサスメカニズムに基づいて構造的制約をさらに提案します。
実行を完全に配布することができ、ポリシー間の明示的な通信は必要ありません。
その場合、情報は、他のロボットのアクションとシーンへの影響を観察することにより、各ロボットのセンサーストリームを通じて暗黙的に交換されます。
あるいは、実行は直接通信を活用して、各推論ステップ中に埋め込みが1回共有され、Sheaf Laplacianを使用して埋め込みが共有されるロボットのコンセンサス埋め込みを共有することができます。
ハードウェアの実験では、Latenttomは素朴な分散型拡散ベースラインよりも優れており、バイマニュアル操作のための最先端の集中拡散ポリシーと同等のパフォーマンスを示しています。
プロジェクトWebサイト:https://stanfordmsl.github.io/latenttom/。

要約(オリジナル)

We present Latent Theory of Mind (LatentToM), a decentralized diffusion policy architecture for collaborative robot manipulation. Our policy allows multiple manipulators with their own perception and computation to collaborate with each other towards a common task goal with or without explicit communication. Our key innovation lies in allowing each agent to maintain two latent representations: an ego embedding specific to the robot, and a consensus embedding trained to be common to both robots, despite their different sensor streams and poses. We further let each robot train a decoder to infer the other robot’s ego embedding from their consensus embedding, akin to theory of mind in latent space. Training occurs centrally, with all the policies’ consensus encoders supervised by a loss inspired by sheaf theory, a mathematical theory for clustering data on a topological manifold. Specifically, we introduce a first-order cohomology loss to enforce sheaf-consistent alignment of the consensus embeddings. To preserve the expressiveness of the consensus embedding, we further propose structural constraints based on theory of mind and a directional consensus mechanism. Execution can be fully distributed, requiring no explicit communication between policies. In which case, the information is exchanged implicitly through each robot’s sensor stream by observing the actions of the other robots and their effects on the scene. Alternatively, execution can leverage direct communication to share the robots’ consensus embeddings, where the embeddings are shared once during each inference step and are aligned using the sheaf Laplacian. In our hardware experiments, LatentToM outperforms a naive decentralized diffusion baseline, and shows comparable performance with a state-of-the-art centralized diffusion policy for bi-manual manipulation. Project website: https://stanfordmsl.github.io/LatentToM/.

arxiv情報

著者 Chengyang He,Gadiel Sznaier Camps,Xu Liu,Mac Schwager,Guillaume Sartoretti
発行日 2025-05-14 05:03:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Latent Theory of Mind: A Decentralized Diffusion Architecture for Cooperative Manipulation はコメントを受け付けていません

Robot-Assisted Drone Recovery on a Wavy Surface Using Error-State Kalman Filter and Receding Horizon Model Predictive Control

要約

乱れた水面でドローンを回収することは、海上ロボット工学における重要な課題のままです。
この論文では、2つの主要なタスクに対処する波状の表面でのロボット支援ドローン回復のための統一されたフレームワークを提案します。1つ目は、エラーステートカルマンフィルター(ESKF)を使用した波誘発妨害下での移動ドローンの位置の正確な予測、および第二に、Reming Horizo​​nコントロール(RHC)を介したマニピュレーターの効果的な動き計画です。
具体的には、ESKFはドローンの将来の位置を0.5秒先に予測しますが、マニピュレーターはリアルタイムでキャプチャ軌道を計画しているため、波誘発性の基本動ちだけでなく、限られたトルク制約も克服します。
マニピュレーターサブシステムとUAVサブシステムを含むシステム設計を提供します。
UAV側では、ポジションコントロールと停止ペイロード戦略がどのように実装されているかを詳しく説明します。
マニピュレーターの側では、RHCスキームが従来の低レベルのコントロールアルゴリズムよりも優れていることを示します。
シミュレーションと現実世界の実験 – 波に耐えられたモーションデータを使用 – は、私たちのアプローチが高い成功率を達成することを示しています – 95%を超えて、従来のベースライン方法を最大10%、精度が20%上回ることを示しています。
結果は、最先端の(SOTA)パフォーマンスを達成し、海上ドローン運用のための実用的なソリューションを提供するシステムの実現可能性と堅牢性を強調しています。

要約(オリジナル)

Recovering a drone on a disturbed water surface remains a significant challenge in maritime robotics. In this paper, we propose a unified framework for Robot-Assisted Drone Recovery on a Wavy Surface that addresses two major tasks: Firstly, accurate prediction of a moving drone’s position under wave-induced disturbances using an Error-State Kalman Filter (ESKF), and secondly, effective motion planning for a manipulator via Receding Horizon Control (RHC). Specifically, the ESKF predicts the drone’s future position 0.5s ahead, while the manipulator plans a capture trajectory in real time, thus overcoming not only wave-induced base motions but also limited torque constraints. We provide a system design that comprises a manipulator subsystem and a UAV subsystem. On the UAV side, we detail how position control and suspended payload strategies are implemented. On the manipulator side, we show how an RHC scheme outperforms traditional low-level control algorithms. Simulation and real-world experiments – using wave-disturbed motion data – demonstrate that our approach achieves a high success rate – above 95% and outperforms conventional baseline methods by up to 10% in efficiency and 20% in precision. The results underscore the feasibility and robustness of our system, which achieves state-of-the-art (SOTA) performance and offers a practical solution for maritime drone operations.

arxiv情報

著者 Yimou Wu,Mingyang Liang,Ruoyu Xu
発行日 2025-05-14 05:04:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Robot-Assisted Drone Recovery on a Wavy Surface Using Error-State Kalman Filter and Receding Horizon Model Predictive Control はコメントを受け付けていません

UAV-VLPA*: A Vision-Language-Path-Action System for Optimal Route Generation on a Large Scales

要約

UAV-VLPA*(Visual-Language-Planning-and-Action)システムは、無人航空機(UAV)のコミュニケーションと運用効率を高めるために設計された航空ロボット工学の最先端の進歩を表しています。
高度な計画機能を統合することにより、システムは巡回セールスマンの問題(TSP)に対処して飛行経路を最適化し、従来の方法と比較して総軌道の長さを18.5%減らします。
さらに、A*アルゴリズムを組み込むと、堅牢な障害物回避が可能になり、複雑な環境での安全で効率的なナビゲーションが確保されます。
このシステムは、Visual Language Model(VLM)およびGPTの自然言語処理機能と組み合わせた衛星画像処理を活用し、ユーザーが単純なテキストコマンドを介して詳細なフライトプランを生成できるようにします。
視覚的および言語分析のこのシームレスな融合は、正確な意思決定とミッション計画を強化し、UAV-VLPA*を最新の空中操作のための変革的なツールにします。
比類のない運用効率、ナビゲーションの安全性、ユーザーフレンドリーな機能により、UAV-VLPA*は自律航空ロボット工学の新しい基準を設定し、この分野での将来の革新への道を開きます。

要約(オリジナル)

The UAV-VLPA* (Visual-Language-Planning-and-Action) system represents a cutting-edge advancement in aerial robotics, designed to enhance communication and operational efficiency for unmanned aerial vehicles (UAVs). By integrating advanced planning capabilities, the system addresses the Traveling Salesman Problem (TSP) to optimize flight paths, reducing the total trajectory length by 18.5\% compared to traditional methods. Additionally, the incorporation of the A* algorithm enables robust obstacle avoidance, ensuring safe and efficient navigation in complex environments. The system leverages satellite imagery processing combined with the Visual Language Model (VLM) and GPT’s natural language processing capabilities, allowing users to generate detailed flight plans through simple text commands. This seamless fusion of visual and linguistic analysis empowers precise decision-making and mission planning, making UAV-VLPA* a transformative tool for modern aerial operations. With its unmatched operational efficiency, navigational safety, and user-friendly functionality, UAV-VLPA* sets a new standard in autonomous aerial robotics, paving the way for future innovations in the field.

arxiv情報

著者 Oleg Sautenkov,Aibek Akhmetkazy,Yasheerah Yaqoot,Muhammad Ahsan Mustafa,Grik Tadevosyan,Artem Lykov,Dzmitry Tsetserukou
発行日 2025-05-14 06:03:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | UAV-VLPA*: A Vision-Language-Path-Action System for Optimal Route Generation on a Large Scales はコメントを受け付けていません

Ethical Aspects of the Use of Social Robots in Elderly Care — A Systematic Qualitative Review

要約

背景:高齢者ケアにおけるソーシャルロボット工学の使用は、リソースが不足しているために新たなケアのニーズを満たす1つの方法としてますます議論されています。
多くの潜在的な利点はロボットケアテクノロジーに関連していますが、さまざまな倫理的課題があります。
責任ある実装と使用に向けたステップをサポートするために、このレビューは、意思決定者の観点から高齢者ケアにおけるソーシャルロボットの使用に関する倫理的側面に関する概要を開発します。
方法:電子データベースは、「倫理的側面」、「ソーシャルロボティクス」、「高齢者ケア」の重要な概念に基づいた包括的な検索戦略を使用して照会されました。
抽象とタイトルのスクリーニングは、2人の著者によって独立して実施されました。
全文スクリーニングは、共同統合フェーズに続いて1人の著者によって実施されました。
統合されたコーディングフレームワークに基づいて、1人の著者によってMAXQDA24を使用してデータを抽出しました。
分析は、修正された定性的コンテンツ分析を通じて実行されました。
結果:合計1,518の出版物が上映され、248の出版物が含まれていました。
私たちは、倫理的危険、倫理的機会、不安定な質問のスキームで分析を組織し、3つの異なる利害関係者グループに影響を与える少なくとも60の広範な倫理的側面を特定しました。
いくつかの倫理的問題はよく知られており、広く議論されていますが、私たちの分析は、実際の観点から考慮する価値のある、しばしばわずかに認識されている潜在的に関連する側面の多数を示しています。
ディスカッション:調査結果は、実装シナリオのコンテキスト的かつ詳細な評価の必要性を強調しています。
倫理的言説の膨大な知識を利用するために、私たちは意思決定者が慎重な倫理的審議に従事できるようにこの談話の特定の性質を理解する必要があると仮定します。

要約(オリジナル)

Background: The use of social robotics in elderly care is increasingly discussed as one way of meeting emerging care needs due to scarce resources. While many potential benefits are associated with robotic care technologies, there is a variety of ethical challenges. To support steps towards a responsible implementation and use, this review develops an overview on ethical aspects of the use of social robots in elderly care from a decision-makers’ perspective. Methods: Electronic databases were queried using a comprehensive search strategy based on the key concepts of ‘ethical aspects’, ‘social robotics’ and ‘elderly care’. Abstract and title screening was conducted by two authors independently. Full-text screening was conducted by one author following a joint consolidation phase. Data was extracted using MAXQDA24 by one author, based on a consolidated coding framework. Analysis was performed through modified qualitative content analysis. Results: A total of 1,518 publications were screened, and 248 publications were included. We have organized our analysis in a scheme of ethical hazards, ethical opportunities and unsettled questions, identifying at least 60 broad ethical aspects affecting three different stakeholder groups. While some ethical issues are well-known and broadly discussed our analysis shows a plethora of potentially relevant aspects, often only marginally recognized, that are worthy of consideration from a practical perspective. Discussion: The findings highlight the need for a contextual and detailed evaluation of implementation scenarios. To make use of the vast knowledge of the ethical discourse, we hypothesize that decision-makers need to understand the specific nature of this discourse to be able to engage in careful ethical deliberation.

arxiv情報

著者 Marianne Leineweber,Clara Victoria Keusgen,Marc Bubeck,Joschka Haltaufderheide,Robert Ranisch,Corinna Klingler
発行日 2025-05-14 08:46:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CY, cs.RO | Ethical Aspects of the Use of Social Robots in Elderly Care — A Systematic Qualitative Review はコメントを受け付けていません

AdaWorld: Learning Adaptable World Models with Latent Actions

要約

世界モデルは、アクション制御された将来の予測を学ぶことを目指しており、インテリジェントエージェントの開発に不可欠であることが証明されています。
ただし、ほとんどの既存の世界モデルは、実質的なアクションラベルデータとコストのかかるトレーニングに大きく依存しているため、限られた相互作用を通じて異種のアクションを備えた新しい環境に適応することが困難です。
この制限は、より広いドメイン全体の適用性を妨げる可能性があります。
この制限を克服するために、効率的な適応を可能にする革新的な世界モデル学習アプローチであるAdaworldを提案します。
重要なアイデアは、世界モデルの事前削除中にアクション情報を組み込むことです。
これは、ビデオから潜在的なアクションを自己監視する方法で抽出し、フレーム間で最も重要な遷移をキャプチャすることによって達成されます。
次に、これらの潜在的なアクションを条件とする自己回帰の世界モデルを開発します。
この学習パラダイムは、高度に適応性のある世界モデルを可能にし、限られた相互作用や微調整でも効率的な転送と新しい行動の学習を促進します。
複数の環境にわたる当社の包括的な実験は、Adaworldがシミュレーション品質と視覚計画の両方で優れたパフォーマンスを達成することを示しています。

要約(オリジナル)

World models aim to learn action-controlled future prediction and have proven essential for the development of intelligent agents. However, most existing world models rely heavily on substantial action-labeled data and costly training, making it challenging to adapt to novel environments with heterogeneous actions through limited interactions. This limitation can hinder their applicability across broader domains. To overcome this limitation, we propose AdaWorld, an innovative world model learning approach that enables efficient adaptation. The key idea is to incorporate action information during the pretraining of world models. This is achieved by extracting latent actions from videos in a self-supervised manner, capturing the most critical transitions between frames. We then develop an autoregressive world model that conditions on these latent actions. This learning paradigm enables highly adaptable world models, facilitating efficient transfer and learning of new actions even with limited interactions and finetuning. Our comprehensive experiments across multiple environments demonstrate that AdaWorld achieves superior performance in both simulation quality and visual planning.

arxiv情報

著者 Shenyuan Gao,Siyuan Zhou,Yilun Du,Jun Zhang,Chuang Gan
発行日 2025-05-14 10:26:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | AdaWorld: Learning Adaptable World Models with Latent Actions はコメントを受け付けていません

METDrive: Multi-modal End-to-end Autonomous Driving with Temporal Guidance

要約

マルチモーダルエンドツーエンドの自律運転は、最近の研究で有望な進歩を示しています。
より多くのモダリティをエンドツーエンドのネットワークに埋め込むことにより、運転環境の静的な側面と動的な側面の両方についてのシステムの理解が強化され、それによって自律運転の安全性が向上します。
この論文では、回転角、ステアリング、スロットル信号、ウェイポイントベクターなど、自我状態の埋め込み時系列の特徴からの時間的ガイダンスを活用するエンドツーエンドのシステムであるMetDriveを紹介します。
知覚センサーデータから派生した幾何学的特徴とエゴ状態データの時系列機能は、提案された時間ガイダンス損失関数とウェイポイント予測を共同で導きます。
Carla Leaderboard BenchmarksでMetDriveを評価し、70%の運転スコア、94%のルート完了スコア、および違反スコア0.78を達成しました。

要約(オリジナル)

Multi-modal end-to-end autonomous driving has shown promising advancements in recent work. By embedding more modalities into end-to-end networks, the system’s understanding of both static and dynamic aspects of the driving environment is enhanced, thereby improving the safety of autonomous driving. In this paper, we introduce METDrive, an end-to-end system that leverages temporal guidance from the embedded time series features of ego states, including rotation angles, steering, throttle signals, and waypoint vectors. The geometric features derived from perception sensor data and the time series features of ego state data jointly guide the waypoint prediction with the proposed temporal guidance loss function. We evaluated METDrive on the CARLA leaderboard benchmarks, achieving a driving score of 70%, a route completion score of 94%, and an infraction score of 0.78.

arxiv情報

著者 Ziang Guo,Xinhao Lin,Zakhar Yagudin,Artem Lykov,Yong Wang,Yanqiang Li,Dzmitry Tsetserukou
発行日 2025-05-14 10:33:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | METDrive: Multi-modal End-to-end Autonomous Driving with Temporal Guidance はコメントを受け付けていません

A drone that learns to efficiently find objects in agricultural fields: from simulation to the real world

要約

ドローンは、精密な農業におけるデータ収集に有望ですが、バッテリー容量によって制限されています。
したがって、効率的なパスプランナーが必要です。
このホワイトペーパーでは、オブジェクトの検出と不確実な事前知識を使用する抽象シミュレーションで、強化学習(RL)を使用してトレーニングされたドローンパスプランナーを紹介します。
RLエージェントは飛行方向を制御し、飛行を終了できます。
ドローンの飛行コントローラーとカメラ画像を処理するための検出ネットワークと組み合わせてエージェントを使用することにより、実際のデータでエージェントのパフォーマンスを評価することができます。
シミュレーションでは、エージェントは、完全なカバレッジプランナーと比較して平均78%短い飛行経路を獲得し、リコールが14%低くなりました。
現実世界のデータでは、エージェントは完全なカバレッジプランナーと比較して72%の短い飛行経路を示しましたが、リコールが25%低くなりました。
実際のデータのパフォーマンスの低下は、実際のオブジェクト分布と事前知識の精度が低いことに起因し、改善の可能性を示しています。
全体として、雑草検出などのすべてのオブジェクトを見つけることが重要ではないアプリケーションの場合、学習ベースのパスプランナーは適切かつ効率的であると結論付けました。

要約(オリジナル)

Drones are promising for data collection in precision agriculture, however, they are limited by their battery capacity. Efficient path planners are therefore required. This paper presents a drone path planner trained using Reinforcement Learning (RL) on an abstract simulation that uses object detections and uncertain prior knowledge. The RL agent controls the flight direction and can terminate the flight. By using the agent in combination with the drone’s flight controller and a detection network to process camera images, it is possible to evaluate the performance of the agent on real-world data. In simulation, the agent yielded on average a 78% shorter flight path compared to a full coverage planner, at the cost of a 14% lower recall. On real-world data, the agent showed a 72% shorter flight path compared to a full coverage planner, however, at the cost of a 25% lower recall. The lower performance on real-world data was attributed to the real-world object distribution and the lower accuracy of prior knowledge, and shows potential for improvement. Overall, we concluded that for applications where it is not crucial to find all objects, such as weed detection, the learned-based path planner is suitable and efficient.

arxiv情報

著者 Rick van Essen,Gert Kootstra
発行日 2025-05-14 10:59:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | A drone that learns to efficiently find objects in agricultural fields: from simulation to the real world はコメントを受け付けていません

Feature Extractor or Decision Maker: Rethinking the Role of Visual Encoders in Visuomotor Policies

要約

エンドツーエンド(E2E)視覚運動ポリシーは通常、統一された全体として扱われますが、視覚エンコーダーを前処理するためにドメイン外(OOD)データを使用した最近のアプローチは、視覚エンコーダーをネットワークからきれいに分離し、残りはポリシーと呼ばれます。
この機能的分離の妥当性を評価するために設計された実験的なフレームワークである視覚的アライメントテストを提案します。
我々の結果は、E2Eトレーニングを受けたモデルでは、視覚エンコーダーが運動データの監督に起因する意思決定に積極的に貢献し、想定される機能的分離と矛盾することを示しています。
対照的に、エンコーダーがこの機能を欠いているOODプレーンモデルは、E2Eポリシーによって達成された最先端のパフォーマンスと比較して、ベンチマーク結果で平均パフォーマンス低下を経験します。
視覚エンコーダーの役割のこの最初の調査は、タスクコンディショニングやコンテキスト認識エンコーダーの開発など、意思決定能力に対処するための将来の事前トレーニング方法を導くための最初のステップを提供できると考えています。

要約(オリジナル)

An end-to-end (E2E) visuomotor policy is typically treated as a unified whole, but recent approaches using out-of-domain (OOD) data to pretrain the visual encoder have cleanly separated the visual encoder from the network, with the remainder referred to as the policy. We propose Visual Alignment Testing, an experimental framework designed to evaluate the validity of this functional separation. Our results indicate that in E2E-trained models, visual encoders actively contribute to decision-making resulting from motor data supervision, contradicting the assumed functional separation. In contrast, OOD-pretrained models, where encoders lack this capability, experience an average performance drop of 42\% in our benchmark results, compared to the state-of-the-art performance achieved by E2E policies. We believe this initial exploration of visual encoders’ role can provide a first step towards guiding future pretraining methods to address their decision-making ability, such as developing task-conditioned or context-aware encoders.

arxiv情報

著者 Ruiyu Wang,Zheyu Zhuang,Shutong Jin,Nils Ingelhag,Danica Kragic,Florian T. Pokorny
発行日 2025-05-14 11:40:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Feature Extractor or Decision Maker: Rethinking the Role of Visual Encoders in Visuomotor Policies はコメントを受け付けていません

Embodied Intelligent Industrial Robotics: Concepts and Techniques

要約

近年、具体化されたインテリジェントロボット(EIR)は、マルチモーダル認識、自律的な意思決定、および身体的相互作用に大きな進歩を遂げています。
一部のロボットは、家やショッピングモールなどの汎用シナリオですでにテストされています。
私たちは、産業シーンで具体化された知性の研究と応用を進めることを目指しています。
ただし、現在のEIRには、産業環境セマンティクスと産業操作オブジェクト間の規範的制約についての深い理解がありません。
このギャップに対処するために、このペーパーでは、最初に産業用ロボット工学の歴史と主流のEIRフレームワークをレビューします。
次に、具体化されたインテリジェント産業用ロボット(EIIR)の概念を紹介し、産業環境向けの知識主導型EIIRテクノロジーフレームワークを提案します。
フレームワークには、世界モデル、高レベルのタスクプランナー、低レベルのスキルコントローラー、シミュレーターの4つの主要なモジュールが含まれます。
また、各モジュールに関連するテクノロジーの現在の開発を確認し、産業用アプリケーションに適応する最近の進捗状況を強調しています。
最後に、EIIRが産業シナリオで直面する重要な課題を要約し、将来の研究の方向性を提案します。
EIIRテクノロジーは、次世代の産業用ロボット工学を形作ると考えています。
具体化されたインテリジェントな産業ロボットに基づいた産業システムは、インテリジェントな製造を可能にするための強力な可能性を提供します。
私たちはこの分野での新しい研究を追跡し、要約し続け、このレビューが産業具体化された知性に関心のある学者やエンジニアにとって貴重な参照として役立つことを願っています。
一緒に、私たちはこのテクノロジーの急速な進歩と適用を促進するのを支援することができます。
関連するプロジェクトは、https://github.com/jackeyzengl/embodied_intelligent_industrial_robotics_paper_listにあります。

要約(オリジナル)

In recent years, embodied intelligent robotics (EIR) has made significant progress in multi-modal perception, autonomous decision-making, and physical interaction. Some robots have already been tested in general-purpose scenarios such as homes and shopping malls. We aim to advance the research and application of embodied intelligence in industrial scenes. However, current EIR lacks a deep understanding of industrial environment semantics and the normative constraints between industrial operating objects. To address this gap, this paper first reviews the history of industrial robotics and the mainstream EIR frameworks. We then introduce the concept of the embodied intelligent industrial robotics (EIIR) and propose a knowledge-driven EIIR technology framework for industrial environments. The framework includes four main modules: world model, high-level task planner, low-level skill controller, and simulator. We also review the current development of technologies related to each module and highlight recent progress in adapting them to industrial applications. Finally, we summarize the key challenges EIIR faces in industrial scenarios and suggest future research directions. We believe that EIIR technology will shape the next generation of industrial robotics. Industrial systems based on embodied intelligent industrial robots offer strong potential for enabling intelligent manufacturing. We will continue to track and summarize new research in this area and hope this review will serve as a valuable reference for scholars and engineers interested in industrial embodied intelligence. Together, we can help drive the rapid advancement and application of this technology. The associated project can be found at https://github.com/jackeyzengl/Embodied_Intelligent_Industrial_Robotics_Paper_List.

arxiv情報

著者 Chaoran Zhang,Chenhao Zhang,Zhaobo Xu,Qinghongbing Xie,Pingfa Feng,Long Zeng
発行日 2025-05-14 11:41:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Embodied Intelligent Industrial Robotics: Concepts and Techniques はコメントを受け付けていません

Is Linear Feedback on Smoothed Dynamics Sufficient for Stabilizing Contact-Rich Plans?

要約

コンタクトが豊富な操作のためのプランナーとコントローラーの設計は、多くの勾配ベースのコントローラー合成ツールが想定する滑らかさ条件に違反するため、非常に困難です。
接触スムージングは​​、スムーズなシステムで非滑らかなシステムを近似し、これらの合成ツールをより効果的に使用できるようにします。
ただし、古典的な制御合成方法を適用して滑らかに接触するダイナミクスを適用すると、比較的標識がありません。
このペーパーでは、接触平滑化に基づいた微分シミュレーターを使用して、線形コントローラー合成の有効性を分析します。
(a)不確実な条件やダイナミクスに対して堅牢なオープンループ計画、および(b)オープンループプランの周りで安定化するフィードバックの利益を計算するために、接触のスムージングを活用するための自然なベースラインを導入します。
テストベッドとしてロボットの両体全身操作を使用して、300を超える軌道で広範な実験的実験を行い、LQRが接触豊富なプランを安定化するには不十分であると思われる理由を分析します。
このペーパーとハードウェアの実験を要約するビデオは、https://youtu.be/hlaki6qbwqg?si=_zcambbd6rgsitm9にあります。

要約(オリジナル)

Designing planners and controllers for contact-rich manipulation is extremely challenging as contact violates the smoothness conditions that many gradient-based controller synthesis tools assume. Contact smoothing approximates a non-smooth system with a smooth one, allowing one to use these synthesis tools more effectively. However, applying classical control synthesis methods to smoothed contact dynamics remains relatively under-explored. This paper analyzes the efficacy of linear controller synthesis using differential simulators based on contact smoothing. We introduce natural baselines for leveraging contact smoothing to compute (a) open-loop plans robust to uncertain conditions and/or dynamics, and (b) feedback gains to stabilize around open-loop plans. Using robotic bimanual whole-body manipulation as a testbed, we perform extensive empirical experiments on over 300 trajectories and analyze why LQR seems insufficient for stabilizing contact-rich plans. The video summarizing this paper and hardware experiments is found here: https://youtu.be/HLaKi6qbwQg?si=_zCAmBBD6rGSitm9.

arxiv情報

著者 Yuki Shirai,Tong Zhao,H. J. Terry Suh,Huaijiang Zhu,Xinpei Ni,Jiuguang Wang,Max Simchowitz,Tao Pang
発行日 2025-05-14 11:58:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO, cs.SY, eess.SY | Is Linear Feedback on Smoothed Dynamics Sufficient for Stabilizing Contact-Rich Plans? はコメントを受け付けていません