Doppler Correspondence: Non-Iterative Scan Matching With Doppler Velocity-Based Correspondence

要約

スキャンマッチングの成功を達成することは、Lidar臭気に不可欠です。
ただし、有害な気象条件や繰り返しの幾何学的パターンを備えた挑戦的な環境では、スキャンのマッチングが誤っているため、Lidar臭気性の性能が低下します。
最近、周波数変調された連続波4D LIDARおよび4Dレーダーテクノロジーの出現により、これらの不利な条件に対処する可能性が提供されました。
4Dという用語は、ドップラー速度とともに範囲、方位角、および標高によって特徴付けられるポイントクラウドデータを指します。
4Dデータは利用可能ですが、4D LIDARと4Dレーダーのほとんどのスキャンマッチング方法は、連続したスキャン間の最も近いポイントを繰り返し識別し、ドップラー情報を見落とすことにより、依然として対応を確立します。
このペーパーでは、幾何学的および運動学的基礎を備えたセンサーの翻訳と小さな回転に不変である、単純なドップラー速度ベースの対応 – ドップラーの対応 – を初めて紹介します。
広範な実験は、提案された方法により、反復プロセスなしで連続したポイントクラウドの直接的な一致が可能になり、計算上効率を高めることができることを示しています。
さらに、幾何学的なパターンを備えた環境で、より堅牢な対応推定を提供します。

要約(オリジナル)

Achieving successful scan matching is essential for LiDAR odometry. However, in challenging environments with adverse weather conditions or repetitive geometric patterns, LiDAR odometry performance is degraded due to incorrect scan matching. Recently, the emergence of frequency-modulated continuous wave 4D LiDAR and 4D radar technologies has provided the potential to address these unfavorable conditions. The term 4D refers to point cloud data characterized by range, azimuth, and elevation along with Doppler velocity. Although 4D data is available, most scan matching methods for 4D LiDAR and 4D radar still establish correspondence by repeatedly identifying the closest points between consecutive scans, overlooking the Doppler information. This paper introduces, for the first time, a simple Doppler velocity-based correspondence — Doppler Correspondence — that is invariant to translation and small rotation of the sensor, with its geometric and kinematic foundations. Extensive experiments demonstrate that the proposed method enables the direct matching of consecutive point clouds without an iterative process, making it computationally efficient. Additionally, it provides a more robust correspondence estimation in environments with repetitive geometric patterns.

arxiv情報

著者 Jiwoo Kim,Geunsik Bae,Changseung Kim,Jinwoo Lee,Woojae Shin,Hyondong Oh
発行日 2025-02-17 05:37:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Doppler Correspondence: Non-Iterative Scan Matching With Doppler Velocity-Based Correspondence はコメントを受け付けていません

Learning from Imperfect Demonstrations with Self-Supervision for Robotic Manipulation

要約

特にタスクの障害からの不完全なデータのためのデータ利用の改善は、現実世界での挑戦的で時間がかかり、高価なデータ収集プロセスのためにロボット操作に重要です。
現在の模倣学習(IL)は通常、不完全なデータを破棄し、成功した専門家データのみに焦点を当てています。
強化学習(RL)は探索と障害から学ぶことができますが、SIM2REALギャップと密な報酬とオンライン探査への依存により、実際のシナリオで効果的に適用することが困難になります。
この作業では、オフラインでロボット操作のモデルパフォーマンスを改善するための報酬情報を必要とせずに、不完全なデータを活用するという課題を征服することを目指しています。
具体的には、エキスパートと不完全なデータを組み合わせて、失敗した軌道セグメントの品質スコアを計算する自己監視データフィルタリングフレームワーク(SSDF)を導入します。
故障したデータからの高品質のセグメントは、トレーニングデータセットを拡張するために使用されます。
次に、強化されたデータセットを、ロボット操作タスクの下流のポリシー学習方法で使用できます。
フランカロボットアームを使用して、高忠実度Sapienシミュレーターと実世界のロボット操作タスクに基づいて構築されたManiskill2ベンチマークに関する広範な実験により、SSDFは高品質の不完全なデータでトレーニングデータセットを正確に拡張し、すべてのロボットの成功率を改善できることが示されました。
操作タスク。

要約(オリジナル)

Improving data utilization, especially for imperfect data from task failures, is crucial for robotic manipulation due to the challenging, time-consuming, and expensive data collection process in the real world. Current imitation learning (IL) typically discards imperfect data, focusing solely on successful expert data. While reinforcement learning (RL) can learn from explorations and failures, the sim2real gap and its reliance on dense reward and online exploration make it difficult to apply effectively in real-world scenarios. In this work, we aim to conquer the challenge of leveraging imperfect data without the need for reward information to improve the model performance for robotic manipulation in an offline manner. Specifically, we introduce a Self-Supervised Data Filtering framework (SSDF) that combines expert and imperfect data to compute quality scores for failed trajectory segments. High-quality segments from the failed data are used to expand the training dataset. Then, the enhanced dataset can be used with any downstream policy learning method for robotic manipulation tasks. Extensive experiments on the ManiSkill2 benchmark built on the high-fidelity Sapien simulator and real-world robotic manipulation tasks using the Franka robot arm demonstrated that the SSDF can accurately expand the training dataset with high-quality imperfect data and improve the success rates for all robotic manipulation tasks.

arxiv情報

著者 Kun Wu,Ning Liu,Zhen Zhao,Di Qiu,Jinming Li,Zhengping Che,Zhiyuan Xu,Qinru Qiu,Jian Tang
発行日 2025-02-17 06:41:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO, I.2.9 | Learning from Imperfect Demonstrations with Self-Supervision for Robotic Manipulation はコメントを受け付けていません

Anti-Degeneracy Scheme for Lidar SLAM based on Particle Filter in Geometry Feature-Less Environments

要約

粒子フィルタリングに基づく同時ローカリゼーションとマッピング(SLAM)は、その高効率のため、屋内シナリオで広く採用されています。
ただし、ジオメトリの特徴のないシーンでは、制約の欠如により精度が大幅に低下します。
この記事では、深い学習に基づいて偏系系統システムを提案します。
第一に、連続空間内の座標を離散インデックスに変換するためにスケール不変の線形マッピングを設計します。そこでは、ガウスモデルに基づくデータ増強法が提案され、モデルのパフォーマンスを確保し、粒子数の変化の影響を効果的に軽減することにより、モデルのパフォーマンスを確保することが提案されています。
機能分布。
第二に、粒子集団の分布を精査することにより縮退を特定できる残留ニューラルネットワーク(ResNet)と変圧器を使用して、変性検出モデルを開発します。
第三に、適応的な抗ゲネラシー戦略が設計されています。これは、最初にリザンププロセスで融合と摂動を実行し、ポーズ最適化の豊富で正確な初期値を提供し、粗と細かいマッチングを組み合わせた階層的なポーズ最適化を使用します。
グローバルな最適なポーズを検索する能力を高めるために、最適化頻度とセンサーの信頼性を退化の程度に従って調整します。
最後に、モデルの最適性、およびアブレーション実験を通じて計算時間における画像マトリックス法とGPUの改善を実証し、シミュレーション実験と実際の実験を通じて、さまざまなシナリオでの偏系システムのパフォーマンスを検証します。
この作業は、公開のためにIEEEに提出されました。
著作権は予告なしに転送される場合があります。その後、このバージョンは利用できなくなる可能性があります。

要約(オリジナル)

Simultaneous localization and mapping (SLAM) based on particle filtering has been extensively employed in indoor scenarios due to its high efficiency. However, in geometry feature-less scenes, the accuracy is severely reduced due to lack of constraints. In this article, we propose an anti-degeneracy system based on deep learning. Firstly, we design a scale-invariant linear mapping to convert coordinates in continuous space into discrete indexes, in which a data augmentation method based on Gaussian model is proposed to ensure the model performance by effectively mitigating the impact of changes in the number of particles on the feature distribution. Secondly, we develop a degeneracy detection model using residual neural networks (ResNet) and transformer which is able to identify degeneracy by scrutinizing the distribution of the particle population. Thirdly, an adaptive anti-degeneracy strategy is designed, which first performs fusion and perturbation on the resample process to provide rich and accurate initial values for the pose optimization, and use a hierarchical pose optimization combining coarse and fine matching, which is able to adaptively adjust the optimization frequency and the sensor trustworthiness according to the degree of degeneracy, in order to enhance the ability of searching the global optimal pose. Finally, we demonstrate the optimality of the model, as well as the improvement of the image matrix method and GPU on the computation time through ablation experiments, and verify the performance of the anti-degeneracy system in different scenarios through simulation experiments and real experiments. This work has been submitted to IEEE for publication. Copyright may be transferred without notice, after which this version may no longer be available.

arxiv情報

著者 Yanbin Li,Wei Zhang,Zhiguo Zhang,Xiaogang Shi,Ziruo Li,Mingming Zhang,Hongping Xie,Wenzheng Chi
発行日 2025-02-17 06:42:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Anti-Degeneracy Scheme for Lidar SLAM based on Particle Filter in Geometry Feature-Less Environments はコメントを受け付けていません

SurgPose: a Dataset for Articulated Robotic Surgical Tool Pose Estimation and Tracking

要約

正確かつ効率的な外科的ロボットツールのポーズ推定は、外科的訓練や学習ベースの自律操作における拡張現実(AR)などのダウンストリームアプリケーションにとって根本的な重要性です。
人間と動物のポーズ推定において大きな進歩がなされていますが、公開されたデータが不足しているため、外科的ロボット工学の課題です。
Da Vinci End Effector Kinematicsと困難なキャリブレーション手順の比較的大きな絶対誤差により、校正された運動学のデータ収集が高価になります。
この制限に駆られ、Surposeと呼ばれるデータセットを収集し、視覚的な外科的ツールのポーズ推定と追跡のために、インスタンスに認識されたセマンティックキーポイントとスケルトンを提供しました。
紫外線(UV)反応塗料を使用してキーポイントをマークすることにより、白色光の下では見えず、UV光の下で蛍光を発します。異なる照明条件下で同じ軌跡を実行して、それぞれ生ビデオとキーポイント注釈を収集します。
Surposeデータセットは、6つのカテゴリの約120kの手術器具インスタンス(トレーニングでは80k、検証用)で構成されています。
各機器インスタンスには、7つのセマンティックキーポイントが付いています。
ビデオはステレオペアで収集されるため、2Dポーズをステレオマッチングの深さに基づいて3Dに持ち上げることができます。
データセットのリリースに加えて、外科用品追跡に対するいくつかのベースラインアプローチをテストして、外科の有用性を実証します。
詳細については、surpose.github.ioをご覧ください。

要約(オリジナル)

Accurate and efficient surgical robotic tool pose estimation is of fundamental significance to downstream applications such as augmented reality (AR) in surgical training and learning-based autonomous manipulation. While significant advancements have been made in pose estimation for humans and animals, it is still a challenge in surgical robotics due to the scarcity of published data. The relatively large absolute error of the da Vinci end effector kinematics and arduous calibration procedure make calibrated kinematics data collection expensive. Driven by this limitation, we collected a dataset, dubbed SurgPose, providing instance-aware semantic keypoints and skeletons for visual surgical tool pose estimation and tracking. By marking keypoints using ultraviolet (UV) reactive paint, which is invisible under white light and fluorescent under UV light, we execute the same trajectory under different lighting conditions to collect raw videos and keypoint annotations, respectively. The SurgPose dataset consists of approximately 120k surgical instrument instances (80k for training and 40k for validation) of 6 categories. Each instrument instance is labeled with 7 semantic keypoints. Since the videos are collected in stereo pairs, the 2D pose can be lifted to 3D based on stereo-matching depth. In addition to releasing the dataset, we test a few baseline approaches to surgical instrument tracking to demonstrate the utility of SurgPose. More details can be found at surgpose.github.io.

arxiv情報

著者 Zijian Wu,Adam Schmidt,Randy Moore,Haoying Zhou,Alexandre Banks,Peter Kazanzides,Septimiu E. Salcudean
発行日 2025-02-17 08:04:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | SurgPose: a Dataset for Articulated Robotic Surgical Tool Pose Estimation and Tracking はコメントを受け付けていません

Disentangled Iterative Surface Fitting for Contact-stable Grasp Planning

要約

この作業では、表面フィッティングベースのグラスプランニングアルゴリズムの制限に対処します。これは、主にグリッパーとオブジェクトの表面の幾何学的アライメントに焦点を当て、接触点分布の安定性を見落とし、しばしば不安定な接触構成による不安定な握りをもたらします。
この制限を克服するために、幾何学的互換性を維持しながら接触の安定性を統合する新しい表面フィッティングアルゴリズムを提案します。
人間の把握行動に触発されて、私たちの方法は、把握の最適化を3つの順次ステップに分解しません:(1)接触正常性を調整するための回転最適化、(2)質量の中心(COM)アライメントを改善するための翻訳改善、および(3)グリッパーアパーチャ調整
コンタクトポイント分布を最適化します。
10個のYCBデータセットオブジェクトのシミュレーションを通じてアプローチを検証し、接触の安定性を無視する従来の表面フィッティング方法よりも把握成功の80%の改善を示しています。
詳細については、プロジェクトページのページをご覧ください:https://tomoya-yamanokuchi.github.io/disf-project-page/。

要約(オリジナル)

In this work, we address the limitation of surface fitting-based grasp planning algorithm, which primarily focuses on geometric alignment between the gripper and object surface while overlooking the stability of contact point distribution, often resulting in unstable grasps due to inadequate contact configurations. To overcome this limitation, we propose a novel surface fitting algorithm that integrates contact stability while preserving geometric compatibility. Inspired by human grasping behavior, our method disentangles the grasp pose optimization into three sequential steps: (1) rotation optimization to align contact normals, (2) translation refinement to improve Center of Mass (CoM) alignment, and (3) gripper aperture adjustment to optimize contact point distribution. We validate our approach through simulations on ten YCB dataset objects, demonstrating an 80% improvement in grasp success over conventional surface fitting methods that disregard contact stability. Further details can be found on our project page: https://tomoya-yamanokuchi.github.io/disf-project-page/.

arxiv情報

著者 Tomoya Yamanokuchi,Alberto Bacchin,Emilio Olivastri,Takamitsu Matsubara,Emanuele Menegatti
発行日 2025-02-17 08:05:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Disentangled Iterative Surface Fitting for Contact-stable Grasp Planning はコメントを受け付けていません

EMOS: Embodiment-aware Heterogeneous Multi-robot Operating System with LLM Agents

要約

不均一なマルチロボットシステム(HMR)は、単一のロボットが単独で管理できない複雑なタスクに取り組むための強力なアプローチとして浮上しています。
現在の大型言語モデルベースのマルチエージェントシステム(LLMベースのMAS)は、ソフトウェア開発やオペレーティングシステムなどの分野で成功を示していますが、これらのシステムをロボットコントロールに適用すると、独自の課題が発生します。
特に、マルチロボットシステムの各エージェントの機能は、事前定義された役割ではなく、ロボットの物理的構成に本質的に結び付けられています。
この問題に対処するために、さまざまな実施形態と能力を備えた不均一ロボット間の効果的なコラボレーションと、Habitat-Masという名前の新しいベンチマークとともに設計された新しいマルチエージェントフレームワークを紹介します。
私たちの重要なデザインの1つは$ \ textit {robot resume} $です。人間が設計したロールプレイを採用する代わりに、エージェントがロボットURDFファイルを理解し、ロボット運動学ツールを呼び出して物理能力の説明を生成する自己宣伝アプローチを提案します。
タスクの計画と行動の実行における行動を導く。
Habitat-MASベンチマークは、マルチエージェントフレームワークが、1)操作、2)知覚、3)ナビゲーション、4)包括的な多階建てのオブジェクトの再配置を含む、具体化された推論を必要とするタスクをどのように処理するかを評価するように設計されています。
実験結果は、ロボットの履歴書とマルチエージェントシステムの階層設計が、この複雑な問題コンテキスト内で不均一なマルチロボットシステムの効果的な動作に不可欠であることを示しています。

要約(オリジナル)

Heterogeneous multi-robot systems (HMRS) have emerged as a powerful approach for tackling complex tasks that single robots cannot manage alone. Current large-language-model-based multi-agent systems (LLM-based MAS) have shown success in areas like software development and operating systems, but applying these systems to robot control presents unique challenges. In particular, the capabilities of each agent in a multi-robot system are inherently tied to the physical composition of the robots, rather than predefined roles. To address this issue, we introduce a novel multi-agent framework designed to enable effective collaboration among heterogeneous robots with varying embodiments and capabilities, along with a new benchmark named Habitat-MAS. One of our key designs is $\textit{Robot Resume}$: Instead of adopting human-designed role play, we propose a self-prompted approach, where agents comprehend robot URDF files and call robot kinematics tools to generate descriptions of their physics capabilities to guide their behavior in task planning and action execution. The Habitat-MAS benchmark is designed to assess how a multi-agent framework handles tasks that require embodiment-aware reasoning, which includes 1) manipulation, 2) perception, 3) navigation, and 4) comprehensive multi-floor object rearrangement. The experimental results indicate that the robot’s resume and the hierarchical design of our multi-agent system are essential for the effective operation of the heterogeneous multi-robot system within this intricate problem context.

arxiv情報

著者 Junting Chen,Checheng Yu,Xunzhe Zhou,Tianqi Xu,Yao Mu,Mengkang Hu,Wenqi Shao,Yikai Wang,Guohao Li,Lin Shao
発行日 2025-02-17 08:33:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.MA, cs.RO, I.2.10 | EMOS: Embodiment-aware Heterogeneous Multi-robot Operating System with LLM Agents はコメントを受け付けていません

High-quality Unknown Object Instance Segmentation via Quadruple Boundary Error Refinement

要約

構造化されていない環境での未知のオブジェクトの正確で効率的なセグメンテーションは、ロボット操作に不可欠です。
不明なオブジェクトインスタンスセグメンテーション(UOIS)は、不明なカテゴリと背景のすべてのオブジェクトを識別することを目的としており、さまざまなロボットタスクの重要な機能となっています。
ただし、既存の方法は、過剰セグメンテーションとセグメンテーションを過小評価することに苦労しており、把握などの操作タスクの失敗につながります。
これらの課題に対処するために、高品質のUOIのための新しいエラー情報の改良アプローチであるQuber(四重境界誤差の改良)を提案します。
Quberは、最初の推定四重境界誤差 – 正常陽性、真のネガティブ、偽陽性、および偽陰性ピクセル – 初期セグメンテーションのインスタンス境界で。
次に、エラーガイド付き融合メカニズムを使用してセグメンテーションを改良し、微細粒度とインスタンスレベルのセグメンテーションエラーの両方を効果的に修正します。
3つのパブリックベンチマークでの広範な評価は、Quberが最先端の方法を上回り、0.1秒未満の高速推論時間を維持しながら、さまざまなUOIメソッドを一貫して改善することを示しています。
さらに、Quberが乱雑な環境でターゲットオブジェクトを把握することの成功率を改善することを示します。
コードと補足資料は、https://sites.google.com/view/uois-quberで入手できます。

要約(オリジナル)

Accurate and efficient segmentation of unknown objects in unstructured environments is essential for robotic manipulation. Unknown Object Instance Segmentation (UOIS), which aims to identify all objects in unknown categories and backgrounds, has become a key capability for various robotic tasks. However, existing methods struggle with over-segmentation and under-segmentation, leading to failures in manipulation tasks such as grasping. To address these challenges, we propose QuBER (Quadruple Boundary Error Refinement), a novel error-informed refinement approach for high-quality UOIS. QuBER first estimates quadruple boundary errors-true positive, true negative, false positive, and false negative pixels-at the instance boundaries of the initial segmentation. It then refines the segmentation using an error-guided fusion mechanism, effectively correcting both fine-grained and instance-level segmentation errors. Extensive evaluations on three public benchmarks demonstrate that QuBER outperforms state-of-the-art methods and consistently improves various UOIS methods while maintaining a fast inference time of less than 0.1 seconds. Furthermore, we show that QuBER improves the success rate of grasping target objects in cluttered environments. Code and supplementary materials are available at https://sites.google.com/view/uois-quber.

arxiv情報

著者 Seunghyeok Back,Sangbeom Lee,Kangmin Kim,Joosoon Lee,Sungho Shin,Jemo Maeng,Kyoobin Lee
発行日 2025-02-17 08:43:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | High-quality Unknown Object Instance Segmentation via Quadruple Boundary Error Refinement はコメントを受け付けていません

Leader and Follower: Interactive Motion Generation under Trajectory Constraints

要約

ゲームと映画制作の急速な進歩により、テキストからインタラクティブな動きを生み出すことは、コンテンツの作成プロセスに革命をもたらす可能性のために大きな注目を集めています。
多くの実用的なアプリケーションでは、仮想文字のモーション範囲または軌跡に厳格な制約を課す必要があります。
ただし、テキスト入力のみに依存する既存の方法は、特に望ましい軌跡を指定​​する際に、ユーザーの意図を正確にキャプチャする上で大きな課題に直面しています。
その結果、生成された動きは、しばしばもっともらしいと精度を欠いています。
さらに、カスタマイズされたモーション生成のための既存の軌跡ベースの方法は、単一の俳優シナリオの再訓練に依存しています。これにより、さまざまなデータセットへの柔軟性と適応性が制限され、2因子の動きにおけるインタラクティブが制限されます。
指定された軌跡に続いてインタラクティブな動きを生成するために、このペーパーは、パートナーダンスの役割の割り当てに触発された、複雑な動きをリーダーに隔離します。フォロワーダイナミックです。
このフレームワークに基づいて、このペーパーでは、インタラクティブモーション生成におけるモーション範囲の改良プロセスを調査し、ペースコントローラーと運動学的同期アダプターを統合するトレーニングなしのアプローチを提案します。
このフレームワークは、リーダーの動きを制御し、リーダーと整合するためのフォロワーの動きを修正することにより、軌道に準拠する動きを生成する既存のモデルの能力を高めます。
実験結果は、提案されたアプローチが、軌道情報をよりよく活用することにより、リアリズムと精度の両方で既存の方法を上回ることを示しています。

要約(オリジナル)

With the rapid advancement of game and film production, generating interactive motion from texts has garnered significant attention due to its potential to revolutionize content creation processes. In many practical applications, there is a need to impose strict constraints on the motion range or trajectory of virtual characters. However, existing methods that rely solely on textual input face substantial challenges in accurately capturing the user’s intent, particularly in specifying the desired trajectory. As a result, the generated motions often lack plausibility and accuracy. Moreover, existing trajectory – based methods for customized motion generation rely on retraining for single – actor scenarios, which limits flexibility and adaptability to different datasets, as well as interactivity in two-actor motions. To generate interactive motion following specified trajectories, this paper decouples complex motion into a Leader – Follower dynamic, inspired by role allocation in partner dancing. Based on this framework, this paper explores the motion range refinement process in interactive motion generation and proposes a training-free approach, integrating a Pace Controller and a Kinematic Synchronization Adapter. The framework enhances the ability of existing models to generate motion that adheres to trajectory by controlling the leader’s movement and correcting the follower’s motion to align with the leader. Experimental results show that the proposed approach, by better leveraging trajectory information, outperforms existing methods in both realism and accuracy.

arxiv情報

著者 Runqi Wang,Caoyuan Ma,Jian Zhao,Hanrui Xu,Dongfang Sun,Haoyang Chen,Lin Xiong,Zheng Wang,Xuelong Li
発行日 2025-02-17 08:52:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Leader and Follower: Interactive Motion Generation under Trajectory Constraints はコメントを受け付けていません

Bridging Language and Action: A Survey of Language-Conditioned Robot Manipulation

要約

言語条件付きロボット操作は、自然言語で伝えられた指示を理解して実行するためにロボットを教えることにより、人間とロボットエージェントの間のシームレスなコミュニケーションと協力を可能にすることを目的とした新興分野です。
この学際的な分野は、人間の指示とロボット行動の間のギャップを埋めるために、シーンの理解、言語処理、およびポリシー学習を統合します。
この包括的な調査では、言語条件付きのロボット操作における最近の進歩を体系的に調査します。
既存の方法を、言語条件付きの報酬形状、言語条件付けされた政策学習、神経反体系人工知能、および大規模な言語モデル(LLM)やビジョン言語モデル(VLM)などの基礎モデル(FM)の利用に分類します。
具体的には、意味情報抽出、環境と評価、補助タスク、およびタスク表現戦略に関する最先端の手法を分析します。
比較分析を実施することにより、言語の指示をロボットアクションでブリッジングする際の現在のアプローチの強みと制限を強調します。
最後に、一般化能力の向上を可能にし、言語条件付きロボットマニピュレーターの安全性の問題に対処することに焦点を当てた、オープンな課題と将来の研究の方向性について説明します。

要約(オリジナル)

Language-conditioned robot manipulation is an emerging field aimed at enabling seamless communication and cooperation between humans and robotic agents by teaching robots to comprehend and execute instructions conveyed in natural language. This interdisciplinary area integrates scene understanding, language processing, and policy learning to bridge the gap between human instructions and robotic actions. In this comprehensive survey, we systematically explore recent advancements in language-conditioned robotic manipulation. We categorize existing methods into language-conditioned reward shaping, language-conditioned policy learning, neuro-symbolic artificial intelligence, and the utilization of foundational models (FMs) such as large language models (LLMs) and vision-language models (VLMs). Specifically, we analyze state-of-the-art techniques concerning semantic information extraction, environment and evaluation, auxiliary tasks, and task representation strategies. By conducting a comparative analysis, we highlight the strengths and limitations of current approaches in bridging language instructions with robot actions. Finally, we discuss open challenges and future research directions, focusing on potentially enhancing generalization capabilities and addressing safety issues in language-conditioned robot manipulators.

arxiv情報

著者 Hongkuan Zhou,Xiangtong Yao,Oier Mees,Yuan Meng,Ted Xiao,Yonatan Bisk,Jean Oh,Edward Johns,Mohit Shridhar,Dhruv Shah,Jesse Thomason,Kai Huang,Joyce Chai,Zhenshan Bing,Alois Knoll
発行日 2025-02-17 10:45:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Bridging Language and Action: A Survey of Language-Conditioned Robot Manipulation はコメントを受け付けていません

Omnidirectional Sensor Placement: A Large-Scale Computational Study and Novel Hybrid Accelerated-Refinement Heuristics

要約

このペーパーでは、全方向性センサー配置問題(OSPP)を研究します。これには、センサー数を最小限に抑えながら、ユーザー定義のカバレッジ要件を実現するために、連続2D環境に静的センサーを配置することが含まれます。
この問題は、特に環境検査、ターゲット検索、地域のパトロールなどの可視性ベースのルート計画タスクを最適化するために、モバイルロボット工学のアプリケーションによって動機付けられています。
Lidar、360度カメラ、マルチセンサーアレイなどの実際のセンシングテクノロジーに関連しながら、センサーの向きの制約を排除する全方向性視認性モデルに焦点を当てています。
3つの重要なモデルが考慮されます。無制限の可視性、物理的またはアプリケーション固有の制約を反映する限られた範囲の可視性、およびロボット工学のセンサー配置の不確実性を説明するためのローカリゼーションの不確実性の可視性。
私たちの最初の貢献は、OSPPの古典的な凸分配とサンプリングベースのヒューリスティックを比較し、ランタイム効率とソリューション品質のトレードオフを分析する大規模な計算研究です。
私たちの2番目の貢献は、新しいクラスのハイブリッド加速施設(HAR)ヒューリスティックです。これは、複数のセンサー配置方法からの出力を組み合わせて洗練しながら、前処理技術を組み込み、洗練を加速させます。
結果は、HARヒューリスティックが従来の方法を大幅に上回り、センサー数が最も低く、サンプリングベースのアプローチのランタイムを改善することを示しています。
さらに、特定のHARヒューリスティックをローカリゼーション不確実性の可視性モデルに適応させ、小規模から中程度のローカリゼーションの不確実性に必要なカバレッジを達成することを示しています。
将来の作業では、HARを可視性ベースのルート計画タスクに適用したり、新しいセンサー配置アプローチを検討して、不確実性の下で正式なカバレッジ保証を達成します。

要約(オリジナル)

This paper studies the omnidirectional sensor-placement problem (OSPP), which involves placing static sensors in a continuous 2D environment to achieve a user-defined coverage requirement while minimizing sensor count. The problem is motivated by applications in mobile robotics, particularly for optimizing visibility-based route planning tasks such as environment inspection, target search, and region patrolling. We focus on omnidirectional visibility models, which eliminate sensor orientation constraints while remaining relevant to real-world sensing technologies like LiDAR, 360-degree cameras, and multi-sensor arrays. Three key models are considered: unlimited visibility, limited-range visibility to reflect physical or application-specific constraints, and localization-uncertainty visibility to account for sensor placement uncertainty in robotics. Our first contribution is a large-scale computational study comparing classical convex-partitioning and sampling-based heuristics for the OSPP, analyzing their trade-off between runtime efficiency and solution quality. Our second contribution is a new class of hybrid accelerated-refinement (HAR) heuristics, which combine and refine outputs from multiple sensor-placement methods while incorporating preprocessing techniques to accelerate refinement. Results demonstrate that HAR heuristics significantly outperform traditional methods, achieving the lowest sensor counts and improving the runtime of sampling-based approaches. Additionally, we adapt a specific HAR heuristic to the localization-uncertainty visibility model, showing that it achieves the required coverage for small to moderate localization uncertainty. Future work may apply HAR to visibility-based route planning tasks or explore novel sensor-placement approaches to achieve formal coverage guarantees under uncertainty.

arxiv情報

著者 Jan Mikula,Miroslav Kulich
発行日 2025-02-17 11:08:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CG, cs.RO | Omnidirectional Sensor Placement: A Large-Scale Computational Study and Novel Hybrid Accelerated-Refinement Heuristics はコメントを受け付けていません