DataPlatter: Boosting Robotic Manipulation Generalization with Minimal Costly Data

要約

具体化されたAIにおけるビジョン言語アクション(VLA)モデルの採用の拡大は、多様な操作デモの需要を強化します。
ただし、データ収集に関連する高コストは、多くの場合、すべてのシナリオでデータカバレッジが不十分であるため、モデルのパフォーマンスが制限されます。
大きなワークスペースの空間推論段階(SRP)が障害の場合を支配することが観察されています。
幸いなことに、このデータは低コストで収集でき、モデルのパフォーマンスを改善するために安価なデータを活用する可能性を強調しています。
このホワイトペーパーでは、Training Trajectoriesを明確に収集できるSRPデータを豊富に豊富に収集して、VLAモデルの一般化を強化するために、トレーニングの軌跡を明確にレバレッジに切り離すフレームワークであるDataplatterメソッドを紹介します。
分析を通じて、適切な割合を持つ追加のSRPデータを備えたサブタスク固有のトレーニングが、ロボット操作のパフォーマンス触媒として機能し、費用のかかる物理的インタラクションフェーズ(PIP)データの利用を最大化できることを実証します。
実験では、費用対効果の高いSRP軌道の大部分を限られたPIPデータに導入することにより、ゼロショットシーンで成功率で41 \%の最大改善を達成できる一方で、操作スキルを新しいターゲットに転送する機能を備えていることが示されています。

要約(オリジナル)

The growing adoption of Vision-Language-Action (VLA) models in embodied AI intensifies the demand for diverse manipulation demonstrations. However, high costs associated with data collection often result in insufficient data coverage across all scenarios, which limits the performance of the models. It is observed that the spatial reasoning phase (SRP) in large workspace dominates the failure cases. Fortunately, this data can be collected with low cost, underscoring the potential of leveraging inexpensive data to improve model performance. In this paper, we introduce the DataPlatter method, a framework that decouples training trajectories into distinct task stages and leverages abundant easily collectible SRP data to enhance VLA model’s generalization. Through analysis we demonstrate that sub-task-specific training with additional SRP data with proper proportion can act as a performance catalyst for robot manipulation, maximizing the utilization of costly physical interaction phase (PIP) data. Experiments show that through introducing large proportion of cost-effective SRP trajectories into a limited set of PIP data, we can achieve a maximum improvement of 41\% on success rate in zero-shot scenes, while with the ability to transfer manipulation skill to novel targets.

arxiv情報

著者 Liming Zheng,Feng Yan,Fanfan Liu,Chengjian Feng,Yufeng Zhong,Yiyang Huang,Lin Ma
発行日 2025-03-25 10:11:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | DataPlatter: Boosting Robotic Manipulation Generalization with Minimal Costly Data はコメントを受け付けていません

BimArt: A Unified Approach for the Synthesis of 3D Bimanual Interaction with Articulated Objects

要約

Bimartを提示します。Bimartは、関節オブジェクトとの3D双方向の手相互作用を合成するための新しい生成アプローチです。
以前の作品とは異なり、参照の把握、粗い手の軌跡、または把握して明確にするための個別のモードに依存しません。
これを達成するために、まず、明確な特徴表現を備えたオブジェクトの軌跡に条件付けられた距離ベースのコンタクトマップを生成し、操作のための豊富な両マニュアルパターンを明らかにします。
次に、学習した連絡先を使用して、ハンドモーションジェネレーターを導き、オブジェクトの動きと明確化のための多様で現実的な双近の動きを生成します。
私たちの作品は、明確なオブジェクトの特徴表現と連絡先に関する重要な洞察を提供し、両手手オブジェクト相互作用の複雑で高次元の空間を飼いならす有効性を示しています。
包括的な定量的実験を通じて、動きの質と多様性における最先端を上回る簡略化された高品質のハンドオブジェクトアニメーションへの明確なステップを示します。
プロジェクトページ:https://vcai.mpi-inf.mpg.de/projects/bimart/。

要約(オリジナル)

We present BimArt, a novel generative approach for synthesizing 3D bimanual hand interactions with articulated objects. Unlike prior works, we do not rely on a reference grasp, a coarse hand trajectory, or separate modes for grasping and articulating. To achieve this, we first generate distance-based contact maps conditioned on the object trajectory with an articulation-aware feature representation, revealing rich bimanual patterns for manipulation. The learned contact prior is then used to guide our hand motion generator, producing diverse and realistic bimanual motions for object movement and articulation. Our work offers key insights into feature representation and contact prior for articulated objects, demonstrating their effectiveness in taming the complex, high-dimensional space of bimanual hand-object interactions. Through comprehensive quantitative experiments, we demonstrate a clear step towards simplified and high-quality hand-object animations that surpass the state of the art in motion quality and diversity. Project page: https://vcai.mpi-inf.mpg.de/projects/bimart/.

arxiv情報

著者 Wanyue Zhang,Rishabh Dabral,Vladislav Golyanik,Vasileios Choutas,Eduardo Alvarado,Thabo Beeler,Marc Habermann,Christian Theobalt
発行日 2025-03-25 10:41:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR, cs.RO | BimArt: A Unified Approach for the Synthesis of 3D Bimanual Interaction with Articulated Objects はコメントを受け付けていません

On-Device Self-Supervised Learning of Low-Latency Monocular Depth from Only Events

要約

イベントカメラは、ミリワットの電力のみに対して低遅延の知覚を提供します。
これにより、小さな空飛ぶドローンなどのリソース制限のあるアジャイルロボットに非常に適しています。
コントラストの最大化に基づいた自己教師の学習は、イベントベースのロボットビジョンにとって大きな可能性を秘めています。これは、高周波の地上真理の必要性を認め、ロボットの運用環境でのオンライン学習を可能にするためです。
ただし、オンラインでオンボード学習は、競争力のある視覚認識パフォーマンスを維持しながら、リアルタイム学習のために十分な計算効率を達成するという主要な課題を提起します。
この作業では、コントラストの最大化パイプラインの時間とメモリ効率を改善し、低遅延の単眼深度のデバイス学習を可能にします。
小さなドローンのオンライン学習は、トレーニング前のみと比較して、より正確な深さの推定値とより成功した障害物回避行動をもたらすことを実証します。
ベンチマークの実験は、提案されたパイプラインが効率的であるだけでなく、自己科学的アプローチの間で最先端の深度推定パフォーマンスを達成することを示しています。
私たちの仕事は、オンラインでデバイス上のロボット学習の未使用の可能性を利用して、より小さな現実のギャップとより良いパフォーマンスを約束します。

要約(オリジナル)

Event cameras provide low-latency perception for only milliwatts of power. This makes them highly suitable for resource-restricted, agile robots such as small flying drones. Self-supervised learning based on contrast maximization holds great potential for event-based robot vision, as it foregoes the need for high-frequency ground truth and allows for online learning in the robot’s operational environment. However, online, on-board learning raises the major challenge of achieving sufficient computational efficiency for real-time learning, while maintaining competitive visual perception performance. In this work, we improve the time and memory efficiency of the contrast maximization pipeline, making on-device learning of low-latency monocular depth possible. We demonstrate that online learning on board a small drone yields more accurate depth estimates and more successful obstacle avoidance behavior compared to only pre-training. Benchmarking experiments show that the proposed pipeline is not only efficient, but also achieves state-of-the-art depth estimation performance among self-supervised approaches. Our work taps into the unused potential of online, on-device robot learning, promising smaller reality gaps and better performance.

arxiv情報

著者 Jesse Hagenaars,Yilun Wu,Federico Paredes-Vallés,Stein Stroobants,Guido de Croon
発行日 2025-03-25 10:43:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | On-Device Self-Supervised Learning of Low-Latency Monocular Depth from Only Events はコメントを受け付けていません

ZodiAq: An Isotropic Flagella-Inspired Soft Underwater Drone for Safe Marine Exploration

要約

流体力学的効果、動的な結合の複雑さ、海洋生物とのデリケートな相互作用の必要性など、ロボットの水中探索の固有の課題は、海洋探査におけるソフトロボットアプローチの採用を求めています。
これに対処するために、原核生物の細菌鞭毛に触発された柔らかい水中ドローンである新しいプロトタイプZodiaqを提示します。
ZodiaqのユニークなDodecahedral構造は、12個の鞭毛のような腕を備えており、設計の冗長性とコンプライアンスを保証し、複雑な水中地形をナビゲートするのに最適です。
このプロトタイプは、ラズベリーPIに基づいた中央ユニットを備えており、慣性、深さ、視力検出のための感覚システムに接続されており、通信用の音響モデムがあります。
実装された制御法と組み合わせて、Zodiaqをインテリジェントシステムにします。
このペーパーでは、Zodiaqの設計と製造プロセスについて詳しく説明し、設計の選択とプロトタイプ機能を強調しています。
コセラットロッドのひずみベースのモデリングに基づいて、分析と制御を容易にするために、シミュレーションツールボックス内でプロトタイプのデジタルツインを開発しました。
動的水生条件での動作を最適化するために、単純化されたモデルベースのコントローラーが開発および実装され、流体力学的環境でのインテリジェントで適応的な動きを促進しました。
広範な実験デモンストレーションは、ドローンの可能性を強調し、設計の冗長性、具体化された知性、rawり、歩行のクロール、および多様な水中環境での実用的なアプリケーションを紹介します。
この研究は、水中のソフトロボット工学の分野に大きく貢献し、安全で効率的で環境に配慮した水中探査のための有望な新しい道を提供します。

要約(オリジナル)

The inherent challenges of robotic underwater exploration, such as hydrodynamic effects, the complexity of dynamic coupling, and the necessity for sensitive interaction with marine life, call for the adoption of soft robotic approaches in marine exploration. To address this, we present a novel prototype, ZodiAq, a soft underwater drone inspired by prokaryotic bacterial flagella. ZodiAq’s unique dodecahedral structure, equipped with 12 flagella-like arms, ensures design redundancy and compliance, ideal for navigating complex underwater terrains. The prototype features a central unit based on a Raspberry Pi, connected to a sensory system for inertial, depth, and vision detection, and an acoustic modem for communication. Combined with the implemented control law, it renders ZodiAq an intelligent system. This paper details the design and fabrication process of ZodiAq, highlighting design choices and prototype capabilities. Based on the strain-based modeling of Cosserat rods, we have developed a digital twin of the prototype within a simulation toolbox to ease analysis and control. To optimize its operation in dynamic aquatic conditions, a simplified model-based controller has been developed and implemented, facilitating intelligent and adaptive movement in the hydrodynamic environment. Extensive experimental demonstrations highlight the drone’s potential, showcasing its design redundancy, embodied intelligence, crawling gait, and practical applications in diverse underwater settings. This research contributes significantly to the field of underwater soft robotics, offering a promising new avenue for safe, efficient, and environmentally conscious underwater exploration.

arxiv情報

著者 Anup Teejo Mathew,Daniel Feliu-Talegon,Yusuf Abdullahi Adamu,Ikhlas Ben Hmida,Costanza Armanini,Cesare Stefanini,Lakmal Seneviratne,Federico Renda
発行日 2025-03-25 11:23:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, physics.app-ph | ZodiAq: An Isotropic Flagella-Inspired Soft Underwater Drone for Safe Marine Exploration はコメントを受け付けていません

Energy-aware Joint Orchestration of 5G and Robots: Experimental Testbed and Field Validation

要約

5Gモバイルネットワークは、屋外環境でモバイルロボットを接続および操作するための新しい次元を導入し、5Gネットワ​​ークのクラウドネイティブとオフロード機能を活用して、完全に柔軟で共同クラウドロボット操作を可能にします。
ただし、ロボットのバッテリー寿命が限られていることは、実際の探査シナリオでの効果的な採用に対する大きな障害のままです。
このホワイトペーパーでは、フィールド実験を介して、オロスの潜在的な省エネのゲイン、5Gとロボットオペレーティングシステム(ROS)の共同オーケストレーションを調査し、ナビゲーションとセンシングの両方で複数の5G接続されたロボットを調整し、クラウドネイティブのサービスリソースの利用を最適化しながら、実際のフィードバックに基づいてロボットとエネルギー消費を最小限に抑えます。
私たちは、市販の既製のロボットとキャンパスに展開されたローカル5Gインフラストラクチャで構成される実験的なテストベッドで、提案されたOROを設計、実装、評価しました。
実験結果は、オロスが5Gエッジインフラストラクチャに要求の厳しい計算タスクをオフロードし、オンボードセンサーの動的エネルギー管理(たとえば、それらが不要になったときに切り替える)により、エネルギー節約の観点から、最先端のアプローチを大幅に上回ることを実証しました。
この戦略は、ロボットで約15%のエネルギー節約を達成し、それによりバッテリー寿命を延ばし、それにより、より長い動作時間とより良いリソース利用が可能になります。

要約(オリジナル)

5G mobile networks introduce a new dimension for connecting and operating mobile robots in outdoor environments, leveraging cloud-native and offloading features of 5G networks to enable fully flexible and collaborative cloud robot operations. However, the limited battery life of robots remains a significant obstacle to their effective adoption in real-world exploration scenarios. This paper explores, via field experiments, the potential energy-saving gains of OROS, a joint orchestration of 5G and Robot Operating System (ROS) that coordinates multiple 5G-connected robots both in terms of navigation and sensing, as well as optimizes their cloud-native service resource utilization while minimizing total resource and energy consumption on the robots based on real-time feedback. We designed, implemented and evaluated our proposed OROS in an experimental testbed composed of commercial off-the-shelf robots and a local 5G infrastructure deployed on a campus. The experimental results demonstrated that OROS significantly outperforms state-of-the-art approaches in terms of energy savings by offloading demanding computational tasks to the 5G edge infrastructure and dynamic energy management of on-board sensors (e.g., switching them off when they are not needed). This strategy achieves approximately 15% energy savings on the robots, thereby extending battery life, which in turn allows for longer operating times and better resource utilization.

arxiv情報

著者 Milan Groshev,Lanfranco Zanzi,Carmen Delgado,Xi Li,Antonio de la Oliva,Xavier Costa-Perez
発行日 2025-03-25 12:54:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.NI, cs.RO | Energy-aware Joint Orchestration of 5G and Robots: Experimental Testbed and Field Validation はコメントを受け付けていません

Imitation Learning with Limited Actions via Diffusion Planners and Deep Koopman Controllers

要約

拡散ベースのロボットポリシーの最近の進歩は、マルチモーダルの行動を模倣する上で重要な可能性を示しています。
ただし、これらのアプローチでは、通常、対応するロボットアクションラベルとペアになった大量のデモデータが必要であり、かなりのデータ収集の負担を生み出します。
この作業では、観測デモデータを活用することにより、逆ダイナミクスコントローラーのアクション-DATA効率を改善することを目的としたプラン – トロールフレームワークを提案します。
具体的には、深いKoopmanオペレーターのフレームワークを採用して動的システムをモデル化し、観測のみの軌跡を利用して潜在的なアクション表現を学習します。
この潜在的な表現は、線形アクションデコーダーを使用して実際の高次元連続アクションに効果的にマッピングでき、最小限のアクションラベルデータを必要とします。
シミュレートされたロボット操作タスクの実験と、マルチモーダルの専門家デモンストレーションを使用した実際のロボット実験を通じて、私たちのアプローチはアクションデータ効率を大幅に向上させ、アクションデータが限られているタスクの成功率を達成することを実証します。

要約(オリジナル)

Recent advances in diffusion-based robot policies have demonstrated significant potential in imitating multi-modal behaviors. However, these approaches typically require large quantities of demonstration data paired with corresponding robot action labels, creating a substantial data collection burden. In this work, we propose a plan-then-control framework aimed at improving the action-data efficiency of inverse dynamics controllers by leveraging observational demonstration data. Specifically, we adopt a Deep Koopman Operator framework to model the dynamical system and utilize observation-only trajectories to learn a latent action representation. This latent representation can then be effectively mapped to real high-dimensional continuous actions using a linear action decoder, requiring minimal action-labeled data. Through experiments on simulated robot manipulation tasks and a real robot experiment with multi-modal expert demonstrations, we demonstrate that our approach significantly enhances action-data efficiency and achieves high task success rates with limited action data.

arxiv情報

著者 Jianxin Bi,Kelvin Lim,Kaiqi Chen,Yifei Huang,Harold Soh
発行日 2025-03-25 13:23:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | Imitation Learning with Limited Actions via Diffusion Planners and Deep Koopman Controllers はコメントを受け付けていません

Risk-Aware Reinforcement Learning for Autonomous Driving: Improving Safety When Driving through Intersection

要約

自律運転に補強学習を適用することで、広範囲にわたる注目が集まっています。
ただし、古典的な強化学習方法は、予想される報酬を最大化することによりポリシーを最適化しますが、十分な安全性に関する考慮事項がなく、多くの場合、エージェントを危険な状況に置きます。
このペーパーでは、交差点を越えた​​ときの安全性能を向上させるための自律運転のためのリスク認識強化学習アプローチを提案します。
安全な批評家は、俳優を更新するために報酬批評家と協力して運転リスクを評価し、仕事をするために構築されています。
これに基づいて、ラグランジュ弛緩法と周期的勾配反復を組み合わせて、アクションを実行可能な安全な領域に投影します。
さらに、マルチホップとマルチレイヤーの知覚(MLP)混合注意メカニズム(MMAM)がアクター批判ネットワークに組み込まれており、ポリシーが動的トラフィ​​ックに適応し、順列感度の課題を克服できるようにします。
これにより、ポリシーは、通過する機会の特定を強化しながら、周囲の潜在的なリスクにより効果的に焦点を合わせます。
シミュレーションテストは、署名されていない交差点でさまざまなタスクで実施されます。
結果は、提案されたアプローチが衝突率を効果的に削減し、ベースラインアルゴリズムと比較して交差効率を向上させることを示しています。
さらに、アブレーション実験は、リスク認識とMMAMをRLに組み込むことの利点を示しています。

要約(オリジナル)

Applying reinforcement learning to autonomous driving has garnered widespread attention. However, classical reinforcement learning methods optimize policies by maximizing expected rewards but lack sufficient safety considerations, often putting agents in hazardous situations. This paper proposes a risk-aware reinforcement learning approach for autonomous driving to improve the safety performance when crossing the intersection. Safe critics are constructed to evaluate driving risk and work in conjunction with the reward critic to update the actor. Based on this, a Lagrangian relaxation method and cyclic gradient iteration are combined to project actions into a feasible safe region. Furthermore, a Multi-hop and Multi-layer perception (MLP) mixed Attention Mechanism (MMAM) is incorporated into the actor-critic network, enabling the policy to adapt to dynamic traffic and overcome permutation sensitivity challenges. This allows the policy to focus more effectively on surrounding potential risks while enhancing the identification of passing opportunities. Simulation tests are conducted on different tasks at unsignalized intersections. The results show that the proposed approach effectively reduces collision rates and improves crossing efficiency in comparison to baseline algorithms. Additionally, our ablation experiments demonstrate the benefits of incorporating risk-awareness and MMAM into RL.

arxiv情報

著者 Bo Leng,Ran Yu,Wei Han,Lu Xiong,Zhuoren Li,Hailong Huang
発行日 2025-03-25 14:17:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Risk-Aware Reinforcement Learning for Autonomous Driving: Improving Safety When Driving through Intersection はコメントを受け付けていません

Leveraging Cognitive States for Adaptive Scaffolding of Understanding in Explanatory Tasks in HRI

要約

足場戦略がどのように人間とロボットの相互作用における人間の理解に影響するかを理解することは、効果的な支援システムを開発するために重要です。
この実証研究では、否定に基づいた言語の足場戦略は、潜在的なエラーからユーザーをバイアース化するが、処理コストを改善する手段として処理コストとためらうことを増加させることを意味します。
適応戦略では、ユーザーは、現在の理解と処理能力の状態に関して、タスクのパフォーマンス、以前の足場戦略、および現在の眼の視線挙動に基づくスコアリングスキームを介して推定されました。
この研究では、否定とためらうことを提供する適応戦略を、肯定のみを提供するという非適応戦略と比較されました。
適応型足場戦略は、計算モデルシフトを使用して生成されました。
我々の調査結果は、シフトを使用して適応性のある足場戦略を使用すると、(1)より長い反応時間に反映されるように処理コストの増加になる傾向があるが、(2)エラーの理解がほぼ23%であることによって証明されるタスク理解が改善されることを示しています。
さまざまな認知状態にわたるShiftの選択された足場戦略の効率を評価し、5つの州のうち3つで、エラー率がベースライン条件と比較して低いことを発見しました。
これらの結果がシフトモデルの仮定とどのように一致するかについて説明し、洗練の領域を強調表示します。
さらに、否定やためらいなどの足場戦略が、より効果的な人間のロボットの説明的対話にどのように貢献するかを示します。

要約(オリジナル)

Understanding how scaffolding strategies influence human understanding in human-robot interaction is important for developing effective assistive systems. This empirical study investigates linguistic scaffolding strategies based on negation as an important means that de-biases the user from potential errors but increases processing costs and hesitations as a means to ameliorate processing costs. In an adaptive strategy, the user state with respect to the current state of understanding and processing capacity was estimated via a scoring scheme based on task performance, prior scaffolding strategy, and current eye gaze behavior. In the study, the adaptive strategy of providing negations and hesitations was compared with a non-adaptive strategy of providing only affirmations. The adaptive scaffolding strategy was generated using the computational model SHIFT. Our findings indicate that using adaptive scaffolding strategies with SHIFT tends to (1) increased processing costs, as reflected in longer reaction times, but (2) improved task understanding, evidenced by a lower error rate of almost 23%. We assessed the efficiency of SHIFT’s selected scaffolding strategies across different cognitive states, finding that in three out of five states, the error rate was lower compared to the baseline condition. We discuss how these results align with the assumptions of the SHIFT model and highlight areas for refinement. Moreover, we demonstrate how scaffolding strategies, such as negation and hesitation, contribute to more effective human-robot explanatory dialogues.

arxiv情報

著者 André Groß,Birte Richter,Bjarne Thomzik,Britta Wrede
発行日 2025-03-25 14:18:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.RO | Leveraging Cognitive States for Adaptive Scaffolding of Understanding in Explanatory Tasks in HRI はコメントを受け付けていません

Semi-SD: Semi-Supervised Metric Depth Estimation via Surrounding Cameras for Autonomous Driving

要約

このホワイトペーパーでは、自律運転で周囲のカメラ機器に合わせた新しいメトリック深度推定フレームワークであるSemi-SDを紹介します。
この作業では、入力データは隣接する周囲のフレームとカメラパラメーターで構成されています。
視覚的な融合機能を構築するために、統一された空間的セマンティック融合モジュールを提案します。
周囲のカメラと隣接するフレームのクロスアテンションコンポーネントは、メトリックスケール情報の改良と時間的特徴のマッチングに焦点を当てるために利用されています。
これに基づいて、周囲のカメラ、対応する推定深度、および外因性パラメーターを使用してポーズ推定フレームワークを提案します。これは、マルチカメラセットアップのスケールのあいまいさに効果的に対処します。
さらに、セマンティックワールドモデルと単眼深度推定世界モデルは、深さ推定の質を向上させる深度推定を監督するために統合されています。
DDADおよびNuscenesデータセットに関するアルゴリズムを評価し、結果は、この方法が周囲のカメラベースの深度推定品質の観点から最先端のパフォーマンスを達成することを示しています。
ソースコードは、https://github.com/xieyuser/semi-sdで入手できます。

要約(オリジナル)

In this paper, we introduce Semi-SD, a novel metric depth estimation framework tailored for surrounding cameras equipment in autonomous driving. In this work, the input data consists of adjacent surrounding frames and camera parameters. We propose a unified spatial-temporal-semantic fusion module to construct the visual fused features. Cross-attention components for surrounding cameras and adjacent frames are utilized to focus on metric scale information refinement and temporal feature matching. Building on this, we propose a pose estimation framework using surrounding cameras, their corresponding estimated depths, and extrinsic parameters, which effectively address the scale ambiguity in multi-camera setups. Moreover, semantic world model and monocular depth estimation world model are integrated to supervised the depth estimation, which improve the quality of depth estimation. We evaluate our algorithm on DDAD and nuScenes datasets, and the results demonstrate that our method achieves state-of-the-art performance in terms of surrounding camera based depth estimation quality. The source code will be available on https://github.com/xieyuser/Semi-SD.

arxiv情報

著者 Yusen Xie,Zhengmin Huang,Shaojie Shen,Jun Ma
発行日 2025-03-25 14:39:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Semi-SD: Semi-Supervised Metric Depth Estimation via Surrounding Cameras for Autonomous Driving はコメントを受け付けていません

Hierarchical Performance-Based Design Optimization Framework for Soft Grippers

要約

このペーパーでは、マルチフィンガーのソフトグリッパーの設計最適化のための階層的でパフォーマンスベースのフレームワークを紹介します。
体系的に定義されたパフォーマンスインデックスの必要性に対処するために、フレームワークは最適化プロセスを3つの統合レイヤー、タスクスペース、モーションスペース、設計スペースに構成します。
タスク空間では、パフォーマンスインデックスはコア目標として定義され、モーションスペースはこれらを特定の動きのプリミティブに解釈します。
最後に、設計スペースは、システムのジオメトリと材料分布を改良するためにパラメトリックおよびトポロジーの最適化手法を適用し、主要なパフォーマンスメトリック全体でバランスの取れた設計を実現します。
フレームワークの階層化された構造により、SG設計が強化され、複雑なタスクのバランスの取れたパフォーマンスとスケーラビリティが確保され、ソフトロボット工学のより広範な進歩に貢献します。

要約(オリジナル)

This paper presents a hierarchical, performance-based framework for the design optimization of multi-fingered soft grippers. To address the need for systematically defined performance indices, the framework structures the optimization process into three integrated layers: Task Space, Motion Space, and Design Space. In the Task Space, performance indices are defined as core objectives, while the Motion Space interprets these into specific movement primitives. Finally, the Design Space applies parametric and topological optimization techniques to refine the geometry and material distribution of the system, achieving a balanced design across key performance metrics. The framework’s layered structure enhances SG design, ensuring balanced performance and scalability for complex tasks and contributing to broader advancements in soft robotics.

arxiv情報

著者 Hamed Rahimi Nohooji,Holger Voos
発行日 2025-03-25 15:13:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Hierarchical Performance-Based Design Optimization Framework for Soft Grippers はコメントを受け付けていません