Grasp EveryThing (GET): 1-DoF, 3-Fingered Gripper with Tactile Sensing for Robust Grasping

要約

多くの形状とサイズのオブジェクトを安全に把握するための新しい1-dof、3本指のデザインであるすべての(get)グリッパーを紹介します。
標準の平行な顎のアクチュエーターに取り付けられたデザインは、2つの指が2つの指がV字型に収束する2つの狭い1つの構成に配置された3つの狭いテーパー指の指を備えています。
Get Gripperは、2つの平らな指を持つ従来のデザインよりも、オブジェクトジオメトリに適合し、安全な握りを形成する能力があります。
自己類似性の原理に触発されて、これらのV字型の指は、幅広いオブジェクトサイズを横切って安全につかむことができます。
この目的のために、指はパラメトリックに設計されており、パラレルジョーグリッパーを備えたロボット具体化の便利なサイズ変更と交換性があります。
さらに、小さなオブジェクトの操作を強化するために、剛性のある爪を組み込みます。
触覚センシングは、外部に取り付けられたカメラを介してスタンドアロンの指に統合できます。
ニューラルネットワークは、多様なジオメトリのセットにわたって平均検証誤差が1.3〜nの触覚画像からの正常な力を推定するように訓練されました。
15個のオブジェクトを把握し、テレオ操作を介して3つのタスクを実行する際に、Get Fingersは一貫して標準的なフラットフィンガーを上回っています。
複数のロボット実施形態で使用する指のデザインは、GitHubで利用できます。

要約(オリジナル)

We introduce the Grasp EveryThing (GET) gripper, a novel 1-DoF, 3-finger design for securely grasping objects of many shapes and sizes. Mounted on a standard parallel jaw actuator, the design features three narrow, tapered fingers arranged in a two-against-one configuration, where the two fingers converge into a V-shape. The GET gripper is more capable of conforming to object geometries and forming secure grasps than traditional designs with two flat fingers. Inspired by the principle of self-similarity, these V-shaped fingers enable secure grasping across a wide range of object sizes. Further to this end, fingers are parametrically designed for convenient resizing and interchangeability across robotic embodiments with a parallel jaw gripper. Additionally, we incorporate a rigid fingernail to enhance small object manipulation. Tactile sensing can be integrated into the standalone finger via an externally-mounted camera. A neural network was trained to estimate normal force from tactile images with an average validation error of 1.3~N across a diverse set of geometries. In grasping 15 objects and performing 3 tasks via teleoperation, the GET fingers consistently outperformed standard flat fingers. Finger designs for use with multiple robotic embodiments are available on GitHub.

arxiv情報

著者 Michael Burgess,Edward H. Adelson
発行日 2025-05-14 20:04:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

Neural Inertial Odometry from Lie Events

要約

ニューラル変位前(NDP)は、慣性臭気のドリフトを減らし、既製のフィルターと容易に融合できる不確実性の推定値を提供できます。
ただし、さまざまなIMUサンプリングレートと軌跡プロファイルに一般化することができず、多様な設定での堅牢性を制限します。
この課題に対処するために、生のIMUデータを含む従来のNDP入力を、入力レートの変化に対して堅牢で、異なる軌跡プロファイルで観察すると好ましいinvarianceを持つ嘘のイベントに置き換えます。
固定速度でサンプリングされた生のIMUデータとは異なり、IMU前統合の変化の標準がSE(3)グループの嘘代数にマッピングされた場合、Lieイベントはしきい値を超えたときにサンプリングされます。
イベントベースのビジョンに触発されて、1Dシグナルでレベルクロスするという概念を、嘘代数のレベルクロスに一般化し、この代数内のバイナリ偏光極性を正規化する嘘極性に一般化します。
これらの極性を組み込んだ嘘のイベントに関するNDPのトレーニングにより、既製の下流の慣性臭トメトリ法の軌道誤差が最大21%減少することを示しています。
IMUSまたはカメラよりも多くのセンサーがイベントベースのサンプリングパラダイムの恩恵を受けることができ、この作業はこの方向の重要な第一歩を踏み出すと推測します。

要約(オリジナル)

Neural displacement priors (NDP) can reduce the drift in inertial odometry and provide uncertainty estimates that can be readily fused with off-the-shelf filters. However, they fail to generalize to different IMU sampling rates and trajectory profiles, which limits their robustness in diverse settings. To address this challenge, we replace the traditional NDP inputs comprising raw IMU data with Lie events that are robust to input rate changes and have favorable invariances when observed under different trajectory profiles. Unlike raw IMU data sampled at fixed rates, Lie events are sampled whenever the norm of the IMU pre-integration change, mapped to the Lie algebra of the SE(3) group, exceeds a threshold. Inspired by event-based vision, we generalize the notion of level-crossing on 1D signals to level-crossings on the Lie algebra and generalize binary polarities to normalized Lie polarities within this algebra. We show that training NDPs on Lie events incorporating these polarities reduces the trajectory error of off-the-shelf downstream inertial odometry methods by up to 21% with only minimal preprocessing. We conjecture that many more sensors than IMUs or cameras can benefit from an event-based sampling paradigm and that this work makes an important first step in this direction.

arxiv情報

著者 Royina Karegoudra Jayanth,Yinshuang Xu,Evangelos Chatzipantazis,Kostas Daniilidis,Daniel Gehrig
発行日 2025-05-14 20:18:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

Physical synchronization of soft self-oscillating limbs for fast and autonomous locomotion

要約

動物は、脳から身体内の身体的カップリングへの調節をオフロードすることにより、堅牢な運動を達成します。
対照的に、人工システムの移動は、多くの場合、集中化されたプロセッサに依存します。
制御信号なしで、自己展開の手足と環境の間の物理的相互作用を通じて出現する同期された歩行を使用して、迅速かつ自律的な移動戦略を導入します。
各四肢は、300 HERTZに達する周波数で周期的なステッピング運動を実行するために一定の空気の流れのみを必要とする単一のソフトチューブです。
これらの自己展開のいくつかを組み合わせることにより、それらの物理的同期により、同等の最先端よりも桁違いに高速な移動速度が可能になります。
身体環境のダイナミクスを通じて、これらの一見単純なデバイスは、障害物の回避、水陸両用歩行遷移、光軸などの自律性を示します。

要約(オリジナル)

Animals achieve robust locomotion by offloading regulation from the brain to physical couplings within the body. In contrast, locomotion in artificial systems often depends on centralized processors. We introduce a rapid and autonomous locomotion strategy with synchronized gaits emerging through physical interactions between self-oscillating limbs and the environment, without control signals. Each limb is a single soft tube that only requires constant flow of air to perform cyclic stepping motions at frequencies reaching 300 hertz. By combining several of these self-oscillating limbs, their physical synchronization enables locomotion speeds that are orders of magnitude faster than comparable state-of-the-art. Through body-environment dynamics, these seemingly simple devices exhibit autonomy, including obstacle avoidance, amphibious gait transitions, and phototaxis.

arxiv情報

著者 Alberto Comoretto,Harmannus A. H. Schomaker,Johannes T. B. Overvelde
発行日 2025-05-14 20:21:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.soft, cs.RO, physics.app-ph | コメントする

CRADMap: Applied Distributed Volumetric Mapping with 5G-Connected Multi-Robots and 4D Radar Perception

要約

スパースと機能のスラムメソッドは、堅牢なカメラポーズの推定を提供します。
ただし、多くの場合、検査やシーンの認識タスクに必要な詳細レベルをキャプチャできません。
逆に、密なスラムアプローチはより豊かなシーンの再構成を生成しますが、3Dマップを作成するために法外な計算負荷を課します。
グローバルな最適化のためにバックエンドのコビンを使用して最先端の(SOTA)ORBSLAM3システムを拡張することにより、これらの問題に対処するCradMapとして指定された新しい分散型ボリュームマッピングフレームワークを提示します。
ボリューム再構築のための当社のパイプラインは、5G接続、幾何学の集約、および複数の自律モバイルロボット(AMR)からの占有情報を介して、搭載されたリソースを過度に触れずに集中サーバーで密なキーフレームを融合します。
これにより、各AMRは独立してマッピングを実行でき、バックエンドは高忠実度のリアルタイム3Dマップを構築します。
可視(BTV)を超えて動作し、標準の視覚センサーの制限を克服するために、SLAMとのセンサー融合なしで独立して機能するスタンドアロン4D MMWaveレーダーモジュールを自動化しました。
BTVシステムは、散らかった環境で閉塞された金属オブジェクトの検出とマッピングを可能にし、検査シナリオでの状況認識を高めます。
セクション〜\ ref {sec:iv}の実験的検証は、フレームワークの有効性を示しています。

要約(オリジナル)

Sparse and feature SLAM methods provide robust camera pose estimation. However, they often fail to capture the level of detail required for inspection and scene awareness tasks. Conversely, dense SLAM approaches generate richer scene reconstructions but impose a prohibitive computational load to create 3D maps. We present a novel distributed volumetric mapping framework designated as CRADMap that addresses these issues by extending the state-of-the-art (SOTA) ORBSLAM3 system with the COVINS on the backend for global optimization. Our pipeline for volumetric reconstruction fuses dense keyframes at a centralized server via 5G connectivity, aggregating geometry, and occupancy information from multiple autonomous mobile robots (AMRs) without overtaxing onboard resources. This enables each AMR to independently perform mapping while the backend constructs high-fidelity real-time 3D maps. To operate Beyond the Visible (BtV) and overcome the limitations of standard visual sensors, we automated a standalone 4D mmWave radar module that functions independently without sensor fusion with SLAM. The BtV system enables the detection and mapping of occluded metallic objects in cluttered environments, enhancing situational awareness in inspection scenarios. Experimental validation in Section~\ref{sec:IV} demonstrates the effectiveness of our framework.

arxiv情報

著者 Maaz Qureshi,Alexander Werner,Zhenan Liu,Amir Khajepour,George Shaker,William Melek
発行日 2025-05-14 21:25:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

Learning Rock Pushability on Rough Planetary Terrain

要約

構造化されていない環境でのモバイルナビゲーションのコンテキストでは、主要なアプローチは障害の回避を伴います。
一般的なパス計画アルゴリズムは、意図したパスから無期限に逸脱し、障害物が空間的に残された後、ルートの最も近いポイントに戻ることを条件としています。
ただし、複数のエージェントが繰り返し使用するパス上の障害を回避すると、長期的な効率を妨げ、アクティブなパス計画システムに永続的な依存につながる可能性があります。
この研究では、モバイルロボットの上に取り付けられたロボットマニピュレーターの操作能力を活用することにより、非構造化環境でのモバイルナビゲーションへの代替アプローチを提案します。
提案されたフレームワークは、外部受容および固有受容のフィードバックを統合して、障害物のプッシュアフォーダンスを評価し、回避ではなく再配置を促進します。
予備的な視覚推定では、障害物と依存している表面の両方の特性を考慮していますが、プッシュアフォーダンス推定モジュールは、ガイダンス信号としてロボットマニピュレーターを介して障害物と相互作用することによって得られる力フィードバックを利用します。
ナビゲーションアプローチの目的は、自律的なインフラ開発や火星の表面など、自律的なインフラ開発が不可欠な環境で艦隊が費やす全体の時間を短縮することにより、複数のエージェントが長期間にわたって利用するルートの効率を高めることです。

要約(オリジナル)

In the context of mobile navigation in unstructured environments, the predominant approach entails the avoidance of obstacles. The prevailing path planning algorithms are contingent upon deviating from the intended path for an indefinite duration and returning to the closest point on the route after the obstacle is left behind spatially. However, avoiding an obstacle on a path that will be used repeatedly by multiple agents can hinder long-term efficiency and lead to a lasting reliance on an active path planning system. In this study, we propose an alternative approach to mobile navigation in unstructured environments by leveraging the manipulation capabilities of a robotic manipulator mounted on top of a mobile robot. Our proposed framework integrates exteroceptive and proprioceptive feedback to assess the push affordance of obstacles, facilitating their repositioning rather than avoidance. While our preliminary visual estimation takes into account the characteristics of both the obstacle and the surface it relies on, the push affordance estimation module exploits the force feedback obtained by interacting with the obstacle via a robotic manipulator as the guidance signal. The objective of our navigation approach is to enhance the efficiency of routes utilized by multiple agents over extended periods by reducing the overall time spent by a fleet in environments where autonomous infrastructure development is imperative, such as lunar or Martian surfaces.

arxiv情報

著者 Tuba Girgin,Emre Girgin,Cagri Kilic
発行日 2025-05-14 22:23:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | コメントする

EdgeAI Drone for Autonomous Construction Site Demonstrator

要約

自律システムとロボット工学の分野は、建設、物流、消防などの民事アプリケーションでかなりの注目を集めています。
それにもかかわらず、これらの技術の広範な採用は、AIモデルを実行するための堅牢な処理ユニットの必要性によって妨げられています。
Edge-aiソリューションは、公務員を自動化し、安全性を向上させ、持続可能性を向上させることができる低電力で費用対効果の高いロボット工学を可能にし、かなりの約束を提供します。
このペーパーでは、建設現場での自律的なマルチロボット操作のための新しいエッジエッジ対応ドローンベースの監視システムを紹介します。
当社のシステムは、カスタムビルドUAVプラットフォームと5G対応のマルチエージェント調整インフラストラクチャ内で、軽量MCUベースのオブジェクト検出モデルを統合します。
建設環境におけるリアルタイムの障害物検出と動的なパス計画の問題を具体的にターゲットにし、MCUベースのエッジアプリケーション向けに特別に作成された包括的なデータセットを提供します。
フィールド実験は、実用的な実行可能性を実証し、最適な運用パラメーターを特定し、既存のUAVソリューションと比較してアプローチのスケーラビリティと計算効率の利点を強調します。
建設現場での自動運転車の現在および将来の役割についても、Edge-AIソリューションの有効性についても説明します。
github.com/egirgin/storaige-b950でデータセットを公開しています

要約(オリジナル)

The fields of autonomous systems and robotics are receiving considerable attention in civil applications such as construction, logistics, and firefighting. Nevertheless, the widespread adoption of these technologies is hindered by the necessity for robust processing units to run AI models. Edge-AI solutions offer considerable promise, enabling low-power, cost-effective robotics that can automate civil services, improve safety, and enhance sustainability. This paper presents a novel Edge-AI-enabled drone-based surveillance system for autonomous multi-robot operations at construction sites. Our system integrates a lightweight MCU-based object detection model within a custom-built UAV platform and a 5G-enabled multi-agent coordination infrastructure. We specifically target the real-time obstacle detection and dynamic path planning problem in construction environments, providing a comprehensive dataset specifically created for MCU-based edge applications. Field experiments demonstrate practical viability and identify optimal operational parameters, highlighting our approach’s scalability and computational efficiency advantages compared to existing UAV solutions. The present and future roles of autonomous vehicles on construction sites are also discussed, as well as the effectiveness of edge-AI solutions. We share our dataset publicly at github.com/egirgin/storaige-b950

arxiv情報

著者 Emre Girgin,Arda Taha Candan,Coşkun Anıl Zaman
発行日 2025-05-14 22:34:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

X-Sim: Cross-Embodiment Learning via Real-to-Sim-to-Real

要約

人間のビデオは、ロボット操作ポリシーをトレーニングするためのスケーラブルな方法を提供しますが、標準の模倣学習アルゴリズムに必要なアクションラベルがありません。
既存の交差体のアプローチは、人間の動きをロボットアクションにマッピングしようとしますが、実施形態が大きく異なる場合に失敗することがよくあります。
ロボットポリシーを学習するために密集した転送可能な信号としてオブジェクトモーションを使用する実際のフレームワークであるX-SIMを提案します。
X-SIMは、RGBDヒューマンビデオからのフォトリアリックなシミュレーションを再構築し、オブジェクト中心の報酬を定義するオブジェクトの軌跡を追跡することから始めます。
これらの報酬は、シミュレーションで強化学習(RL)ポリシーを訓練するために使用されます。
学習ポリシーは、さまざまな視点と照明でレンダリングされた合成ロールアウトを使用して、画像条件付き拡散ポリシーに蒸留されます。
現実の世界に転送するために、X-SIMは、展開中に実際の観測とシミュレーションを整列させるオンラインドメイン適応手法を導入します。
重要なことに、X-SIMはロボットテレオ操作データを必要としません。
2つの環境で5つの操作タスクで評価し、次のことを示します。(1)ハンドトラッキングおよびSIMからリアルのベースラインよりも平均30%を改善し、(2)データ収集時間の10倍の少ない動作と一致し、(3)新しいカメラの視点とテスト時間の変更に一般化します。
コードとビデオはhttps://portal-cornell.github.io/x-sim/で入手できます。

要約(オリジナル)

Human videos offer a scalable way to train robot manipulation policies, but lack the action labels needed by standard imitation learning algorithms. Existing cross-embodiment approaches try to map human motion to robot actions, but often fail when the embodiments differ significantly. We propose X-Sim, a real-to-sim-to-real framework that uses object motion as a dense and transferable signal for learning robot policies. X-Sim starts by reconstructing a photorealistic simulation from an RGBD human video and tracking object trajectories to define object-centric rewards. These rewards are used to train a reinforcement learning (RL) policy in simulation. The learned policy is then distilled into an image-conditioned diffusion policy using synthetic rollouts rendered with varied viewpoints and lighting. To transfer to the real world, X-Sim introduces an online domain adaptation technique that aligns real and simulated observations during deployment. Importantly, X-Sim does not require any robot teleoperation data. We evaluate it across 5 manipulation tasks in 2 environments and show that it: (1) improves task progress by 30% on average over hand-tracking and sim-to-real baselines, (2) matches behavior cloning with 10x less data collection time, and (3) generalizes to new camera viewpoints and test-time changes. Code and videos are available at https://portal-cornell.github.io/X-Sim/.

arxiv情報

著者 Prithwish Dan,Kushal Kedia,Angela Chao,Edward Weiyi Duan,Maximus Adrian Pace,Wei-Chiu Ma,Sanjiban Choudhury
発行日 2025-05-15 00:43:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | コメントする

Unsupervised Radar Point Cloud Enhancement via Arbitrary LiDAR Guided Diffusion Prior

要約

産業用自動化では、レーダーは機械の知覚における重要なセンサーです。
ただし、レーダーの角度分解能は、レーダーの動作波長とそのアンテナアレイの有効な開口部の両方に依存するレイリー基準によって本質的に制限されています。これらのハードウェア誘導制限を克服するために、最近のニューラルネットワークベースの方法は、レーダーポイントクラウド解像度を強化するためにレーダー測定と組み合わせた高解像度LIDARデータを活用しています。
効果的ですが、これらのアプローチには広範なペアのデータセットが必要であり、獲得に費用がかかり、キャリブレーションエラーが発生しやすいです。
これらの課題は、ペアの高解像度の地下真実データに依存せずにレーダーの解像度を改善できる方法の必要性を動機付けます。
ここでは、ペアのトレーニングデータを必要とせずに、任意のlidar誘導拡散モデルを事前として使用する監視されていないレーダーポイント拡張アルゴリズムを導入します。
具体的には、私たちのアプローチは、レーダー角の推定回復を逆問題として定式化し、任意のLIDARドメインの知識を持つ拡散モデルを通じて事前知識を組み込みます。
実験結果は、私たちの方法が、従来の正規化手法と比較して高い忠実度と低ノイズ性能を達成することを示しています。
さらに、ペアのトレーニング方法と比較して、同等のパフォーマンスを達成するだけでなく、改善された一般化能力も提供します。
私たちの知る限り、これは、ペアのトレーニングデータに依存するのではなく、拡散モデルを介して事前知識を統合することにより、レーダーポイント出力を強化する最初のアプローチです。
私たちのコードは、https://github.com/yyxr75/radarinvで入手できます。

要約(オリジナル)

In industrial automation, radar is a critical sensor in machine perception. However, the angular resolution of radar is inherently limited by the Rayleigh criterion, which depends on both the radar’s operating wavelength and the effective aperture of its antenna array.To overcome these hardware-imposed limitations, recent neural network-based methods have leveraged high-resolution LiDAR data, paired with radar measurements, during training to enhance radar point cloud resolution. While effective, these approaches require extensive paired datasets, which are costly to acquire and prone to calibration error. These challenges motivate the need for methods that can improve radar resolution without relying on paired high-resolution ground-truth data. Here, we introduce an unsupervised radar points enhancement algorithm that employs an arbitrary LiDAR-guided diffusion model as a prior without the need for paired training data. Specifically, our approach formulates radar angle estimation recovery as an inverse problem and incorporates prior knowledge through a diffusion model with arbitrary LiDAR domain knowledge. Experimental results demonstrate that our method attains high fidelity and low noise performance compared to traditional regularization techniques. Additionally, compared to paired training methods, it not only achieves comparable performance but also offers improved generalization capability. To our knowledge, this is the first approach that enhances radar points output by integrating prior knowledge via a diffusion model rather than relying on paired training data. Our code is available at https://github.com/yyxr75/RadarINV.

arxiv情報

著者 Yanlong Yang,Jianan Liu,Guanxiong Luo,Hao Li,Euijoon Ahn,Mostafa Rahimi Azghadi,Tao Huang
発行日 2025-05-15 01:10:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

Diffusion-SAFE: Shared Autonomy Framework with Diffusion for Safe Human-to-Robot Driving Handover

要約

車両制御のための共有自治の安全な引き渡しは、現代の車両では確立されています。
ただし、事故を回避するには、多くの場合、数秒前にアクションが必要です。
これにより、衝突状態または安全でない状態が予測される場合、人間のドライバーの行動と、シームレスな介入のための専門家の制御戦略を理解する必要があります。
(1)潜在的なリスクの検出のための人間の運転行動を予測するために、拡散モデルを活用する閉ループ共有自律フレームワークである拡散セーフを提案します。
エンジニアリングスコア関数を使用して運転性能を評価する以前の作品とは異なり、私たちのアプローチにより、パフォーマンス評価とデモンストレーションからの最適なアクションシーケンス生成の両方が可能になります。
拡散ベースの副操縦士の前後のプロセスを調整することにより、我々の方法は、介入前にドライバーの行動を模倣することにより、制御権限の徐々に移行し、突然の買収を軽減し、スムーズな移行につながることにより、制御権限の徐々に移行します。
シミュレーション(Carracing-V0)と実世界(ROSベースのレースカー)の両方で拡散セーフを評価し、ヒト運転の類似性、安全性、計算効率を測定しました。
結果は、98.5%のハンドオーバー率が成功したことを示しており、人間のアクションを徐々に修正し、最適なロボットアクションを継続的にサンプリングする際のフレームワークの有効性を強調しています。

要約(オリジナル)

Safe handover in shared autonomy for vehicle control is well-established in modern vehicles. However, avoiding accidents often requires action several seconds in advance. This necessitates understanding human driver behavior and an expert control strategy for seamless intervention when a collision or unsafe state is predicted. We propose Diffusion-SAFE, a closed-loop shared autonomy framework leveraging diffusion models to: (1) predict human driving behavior for detection of potential risks, (2) generate safe expert trajectories, and (3) enable smooth handovers by blending human and expert policies over a short time horizon. Unlike prior works which use engineered score functions to rate driving performance, our approach enables both performance evaluation and optimal action sequence generation from demonstrations. By adjusting the forward and reverse processes of the diffusion-based copilot, our method ensures a gradual transition of control authority, by mimicking the drivers’ behavior before intervention, which mitigates abrupt takeovers, leading to smooth transitions. We evaluated Diffusion-SAFE in both simulation (CarRacing-v0) and real-world (ROS-based race car), measuring human-driving similarity, safety, and computational efficiency. Results demonstrate a 98.5\% successful handover rate, highlighting the framework’s effectiveness in progressively correcting human actions and continuously sampling optimal robot actions.

arxiv情報

著者 Yunxin Fan,Monroe Kennedy III
発行日 2025-05-15 01:12:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, H.5.2 | コメントする

EMMOE: A Comprehensive Benchmark for Embodied Mobile Manipulation in Open Environments

要約

自然言語によって制御された自律的なホームロボットの開発は、長い間人類の追求でした。
大規模な言語モデル(LLMS)と具体化されたインテリジェンスの進歩により、この目標が近づいていますが、いくつかの課題は持続します。より複雑なロボットタスクの統一ベンチマークの欠如、限られた評価方法とメトリック、LLMSとモバイル操作の軌跡間のデータの互換性。
これらの問題に対処するために、オープン環境で具体化されたモバイル操作(EMMOE)を提案します。これは、エージェントがユーザーの指示を解釈し、連続空間で毎日のタスクを実行する必要があるベンチマークです。
Emmoeは、より多様な評価のための3つの新しいメトリックとともに、高レベルと低レベルの具体化されたタスクを統合フレームワークにシームレスに統合します。
さらに、さまざまなタスク属性、詳細なプロセスアノテーション、障害後の再プラン、およびLLMトレーニングの2つのサブデータセットを特徴とする〜\データセットを収集します。
さらに、私たちは〜\モデルを設計し、洗練されたエージェントシステムは、直接優先最適化(DPO)、軽い加重ナビゲーションおよび操作モデル、および複数のエラー検出メカニズムを備えたLLMで構成されています。
最後に、〜\モデルのパフォーマンスとさまざまなモデルとポリシーの評価を示します。

要約(オリジナル)

Developing autonomous home robots controlled by natural language has long been a pursuit of humanity. While advancements in large language models (LLMs) and embodied intelligence make this goal closer, several challenges persist: the lack of a unified benchmark for more complex robot tasks, limited evaluation methods and metrics, data incompatibility between LLMs and mobile manipulation trajectories. To address these issues, we propose Embodied Mobile Manipulation in Open Environments (EMMOE), a benchmark that requires agents to interpret user instructions and execute long-horizon everyday tasks in continuous space. EMMOE seamlessly integrates high-level and low-level embodied tasks into a unified framework, along with three new metrics for more diverse assessment. Additionally, we collect~\dataset, which features in various task attributes, detailed process annotations, re-plans after failures, and two sub-datasets for LLM training. Furthermore, we design~\model, a sophisticated agent system consists of LLM with Direct Preference Optimization (DPO), light weighted navigation and manipulation models, and multiple error detection mechanisms. Finally, we demonstrate~\model’s performance and evaluations of different models and policies.

arxiv情報

著者 Dongping Li,Tielong Cai,Tianci Tang,Wenhao Chai,Katherine Rose Driggs-Campbell,Gaoang Wang
発行日 2025-05-15 01:34:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | コメントする