Tightly Coupled SLAM with Imprecise Architectural Plans

要約

屋内環境をナビゲートするロボットは、多くの場合、アーキテクチャプランにアクセスできます。これは、ローカリゼーションとマッピング機能を強化するための事前知識として機能します。
一部のSLAMアルゴリズムは、実際の環境におけるグローバルなローカリゼーションのためのこれらの計画を活用していますが、通常、重要な課題を見落としています。「計画されている」建築デザインは、「生まれた」現実世界の環境からしばしば逸脱しています。
このギャップに対処するために、Lidarベースの同時ローカリゼーションとマッピングを、逸脱の存在下での建築計画とマッピングする新しいアルゴリズムを提示します。
私たちの方法では、多層セマンティック表現を利用して、ロボットをローカライズするだけでなく、リアルタイムで「計画的な」環境と構築された環境間のグローバルなアライメントと構造的逸脱を推定します。
アプローチを検証するために、最大35 cmおよび15度までの構造的逸脱に対する堅牢性を示すシミュレーションおよび実際のデータセットで実験を実行しました。
平均して、私たちの方法では、シミュレートされた環境でベースラインよりも43%少ないローカリゼーションエラーを達成しますが、実際の環境では、構築された3Dマップでは7%低い平均アライメントエラーが示されています。

要約(オリジナル)

Robots navigating indoor environments often have access to architectural plans, which can serve as prior knowledge to enhance their localization and mapping capabilities. While some SLAM algorithms leverage these plans for global localization in real-world environments, they typically overlook a critical challenge: the ‘as-planned’ architectural designs frequently deviate from the ‘as-built’ real-world environments. To address this gap, we present a novel algorithm that tightly couples LIDAR-based simultaneous localization and mapping with architectural plans under the presence of deviations. Our method utilizes a multi-layered semantic representation to not only localize the robot, but also to estimate global alignment and structural deviations between ‘as-planned’ and as-built environments in real-time. To validate our approach, we performed experiments in simulated and real datasets demonstrating robustness to structural deviations up to 35 cm and 15 degrees. On average, our method achieves 43% less localization error than baselines in simulated environments, while in real environments, the as-built 3D maps show 7% lower average alignment error

arxiv情報

著者 Muhammad Shaheer,Jose Andres Millan-Romera,Hriday Bavle,Marco Giberna,Jose Luis Sanchez-Lopez,Javier Civera,Holger Voos
発行日 2025-06-12 07:44:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Tightly Coupled SLAM with Imprecise Architectural Plans はコメントを受け付けていません

Are We Generalizing from the Exception? An In-the-Wild Study on Group-Sensitive Conversation Design in Human-Agent Interactions

要約

このペーパーでは、2つの現実世界の研究を通じて、2つの社会的にインタラクティブなエージェント(SIA)におけるグループに適合する会話デザインの影響を調査します。
ソーシャルロボットであるFurhatと仮想エージェントのメタフマンの両方のSIAは、ハイブリッド検索と生成モデルを組み合わせた会話型人工知能(CAI)バックエンドを装備していました。
この研究は、ドイツの博物館で、ダイアド、トライアド、または大規模なグループでSIAとやり取りした合計$ n = 188ドルの参加者で、野生の環境で実施されました。
結果は、認識された満足度に対するグループに敏感な会話デザインの重要な効果を明らかにしませんでしたが、この調査結果は、多党の相互作用のためにCAIを適応させるという課題と、異なる実施形態(ロボット対\仮想エージェント)の課題についての貴重な洞察を提供し、言語の多元化を超えたマルチモーダル戦略の必要性を強調しています。
これらの洞察は、ヒューマンエージェント相互作用(HAI)、ヒトロボット相互作用(HRI)、およびより広範なヒューマシン相互作用(HMI)の分野に貢献し、グループ設定における効果的な対話適応に関する将来の研究の洞察を提供します。

要約(オリジナル)

This paper investigates the impact of a group-adaptive conversation design in two socially interactive agents (SIAs) through two real-world studies. Both SIAs – Furhat, a social robot, and MetaHuman, a virtual agent – were equipped with a conversational artificial intelligence (CAI) backend combining hybrid retrieval and generative models. The studies were carried out in an in-the-wild setting with a total of $N = 188$ participants who interacted with the SIAs – in dyads, triads or larger groups – at a German museum. Although the results did not reveal a significant effect of the group-sensitive conversation design on perceived satisfaction, the findings provide valuable insights into the challenges of adapting CAI for multi-party interactions and across different embodiments (robot vs.\ virtual agent), highlighting the need for multimodal strategies beyond linguistic pluralization. These insights contribute to the fields of Human-Agent Interaction (HAI), Human-Robot Interaction (HRI), and broader Human-Machine Interaction (HMI), providing insights for future research on effective dialogue adaptation in group settings.

arxiv情報

著者 Ana Müller,Sabina Jeschke,Anja Richert
発行日 2025-06-12 08:11:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Are We Generalizing from the Exception? An In-the-Wild Study on Group-Sensitive Conversation Design in Human-Agent Interactions はコメントを受け付けていません

Robotic Policy Learning via Human-assisted Action Preference Optimization

要約

信頼性の高い復活したロボットシステムを確立することは、実際のアプリケーションを展開するために不可欠です。
Vision-Language-action(VLA)モデルは、このようなロボット展開の基礎モデルとして広く認識されていますが、専門家のデモンストレーションへの依存は、障害からの修正と学習の重要な機能を妨げます。
この制限を緩和するために、VLAモデルの優先アライメントを通じて展開障害を修正し、効果的な適応を促進するように設計されたHAPOという名前の人間支援のアクション選好最適化方法を導入します。
この方法は、人間の介入による信頼できる障害補正と相互作用の軌跡収集のための人間のロボットコラボレーションフレームワークから始まります。
これらのヒト介入軌道は、アクション選好最適化プロセス内でさらに採用され、VLAモデルを促進し、障害アクションの発生を緩和しながら修正アクションの適応を強化します。
具体的には、VLAモデルに好みの最適化を導入する際に不可逆的な相互作用とトークン確率の不一致の問題に対処するための適応的な再重み付けアルゴリズムを提案し、相互作用から導出されたバイナリの望ましい信号からのモデル学習を促進します。
これらのモジュールを組み合わせることで、人間支援のアクション選好最適化方法により、VLAモデルの障害からの信頼できる展開と効果的な学習が保証されます。
シミュレーションと現実世界のシナリオで行われた実験は、さまざまな操作タスクにわたるフレームワークの優れた一般化と堅牢性を証明しています。

要約(オリジナル)

Establishing a reliable and iteratively refined robotic system is essential for deploying real-world applications. While Vision-Language-Action (VLA) models are widely recognized as the foundation model for such robotic deployment, their dependence on expert demonstrations hinders the crucial capabilities of correction and learning from failures. To mitigate this limitation, we introduce a Human-assisted Action Preference Optimization method named HAPO, designed to correct deployment failures and foster effective adaptation through preference alignment for VLA models. This method begins with a human-robot collaboration framework for reliable failure correction and interaction trajectory collection through human intervention. These human-intervention trajectories are further employed within the action preference optimization process, facilitating VLA models to mitigate failure action occurrences while enhancing corrective action adaptation. Specifically, we propose an adaptive reweighting algorithm to address the issues of irreversible interactions and token probability mismatch when introducing preference optimization into VLA models, facilitating model learning from binary desirability signals derived from interactions. Through combining these modules, our human-assisted action preference optimization method ensures reliable deployment and effective learning from failure for VLA models. The experiments conducted in simulation and real-world scenarios prove superior generalization and robustness of our framework across a variety of manipulation tasks.

arxiv情報

著者 Wenke Xia,Yichu Yang,Hongtao Wu,Xiao Ma,Tao Kong,Di Hu
発行日 2025-06-12 11:22:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Robotic Policy Learning via Human-assisted Action Preference Optimization はコメントを受け付けていません

EmbodiedGen: Towards a Generative 3D World Engine for Embodied Intelligence

要約

具体化されたインテリジェンスタスクのトレーニングと評価には、物理​​的に現実的で正確にスケーリングされたシミュレーション3Dワールドを構築することが重要です。
3Dデータ資産の多様性、リアリズム、低コストのアクセシビリティ、および手頃な価格は、具体化されたAIの一般化とスケーラビリティを達成するために重要です。
ただし、現在の具体化されたインテリジェンスタスクのほとんどは、手動で作成および注釈付けされた従来の3Dコンピューターグラフィックアセットに依然として大きく依存しており、生産コストが高く、リアリズムが限られています。
これらの制限は、データ駆動型のアプローチのスケーラビリティを大幅に妨げます。
インタラクティブな3Dワールドジェネレーションの基礎プラットフォームであるEmbodiedGenを提示します。
これにより、正確な物理的特性と実世界のスケールを備えた高品質、制御可能、および光選挙的3Dアセットのスケーラブルな生成が、低コストで統合ロボット学の説明形式(URDF)で実世界のスケールを可能にします。
これらの資産は、細粒の物理的制御のためにさまざまな物理シミュレーションエンジンに直接インポートし、トレーニングと評価の下流タスクをサポートできます。
EmbodiedGenは、画像から3D、テキストから3D、テクスチャ生成、明確なオブジェクト生成、シーン生成、レイアウト生成の6つの重要なモジュールで構成される使いやすく、フル機能のツールキットです。
EmbodiedGenは、生成的3Dアセットで構成される多様でインタラクティブな3Dワールドを生成し、生成AIを活用して、具体化されたインテリジェンス関連の研究のニーズに対する一般化と評価の課題に対処します。
コードはhttps://horizo​​nrobotics.github.io/robot_lab/embodied_gen/index.htmlで入手できます。

要約(オリジナル)

Constructing a physically realistic and accurately scaled simulated 3D world is crucial for the training and evaluation of embodied intelligence tasks. The diversity, realism, low cost accessibility and affordability of 3D data assets are critical for achieving generalization and scalability in embodied AI. However, most current embodied intelligence tasks still rely heavily on traditional 3D computer graphics assets manually created and annotated, which suffer from high production costs and limited realism. These limitations significantly hinder the scalability of data driven approaches. We present EmbodiedGen, a foundational platform for interactive 3D world generation. It enables the scalable generation of high-quality, controllable and photorealistic 3D assets with accurate physical properties and real-world scale in the Unified Robotics Description Format (URDF) at low cost. These assets can be directly imported into various physics simulation engines for fine-grained physical control, supporting downstream tasks in training and evaluation. EmbodiedGen is an easy-to-use, full-featured toolkit composed of six key modules: Image-to-3D, Text-to-3D, Texture Generation, Articulated Object Generation, Scene Generation and Layout Generation. EmbodiedGen generates diverse and interactive 3D worlds composed of generative 3D assets, leveraging generative AI to address the challenges of generalization and evaluation to the needs of embodied intelligence related research. Code is available at https://horizonrobotics.github.io/robot_lab/embodied_gen/index.html.

arxiv情報

著者 Wang Xinjie,Liu Liu,Cao Yu,Wu Ruiqi,Qin Wenkang,Wang Dehui,Sui Wei,Su Zhizhong
発行日 2025-06-12 11:43:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | EmbodiedGen: Towards a Generative 3D World Engine for Embodied Intelligence はコメントを受け付けていません

Automated Generation of Precedence Graphs in Digital Value Chains for Automotive Production

要約

この調査では、自動車の製造におけるデジタルバリューチェーンを調べ、識別、ソフトウェアの点滅、カスタマイズ、および車両ネットワークの電子制御ユニットの試運転に焦点を当てています。
自動化されたスケジューリングアルゴリズムを使用して、このプロセスチェーンを最適化するための新しい優先順位グラフ設計が提案されています。これは、効率的なグラフ生成のための整数線形プログラミングと自然言語処理と分類技術を介して、不均一なソースからの構造化されたデータ抽出を組み合わせます。
結果は、主要なメトリックの大幅な改善を示しています。
このアルゴリズムは、デジタルバリューチェーンプロセスを実行するために高価なハードウェアとソフトウェアを備えた生産ステーションの数を減らし、効率的なスケジューリングとアイドル時間の短縮により容量の利用を増やします。
タスクの並列化が最適化されているため、合理化されたワークフローとスループットが増加します。
従来のスケジューリング方法と比較して、自動化されたアプローチにより、準備時間が50%短縮され、スケジューリングアクティビティが短縮されました。これは、優先グラフを作成するのに2分かかるためです。
アルゴリズムの制約の柔軟性により、高い応答性を維持し、バックアップステーションを排除し、新しいトポロジの統合を促進しながら、車両固有の構成が可能になります。
自動スケジューリングは、効率、機能、適応性の手動方法を大幅に上回ります。

要約(オリジナル)

This study examines the digital value chain in automotive manufacturing, focusing on the identification, software flashing, customization, and commissioning of electronic control units in vehicle networks. A novel precedence graph design is proposed to optimize this process chain using an automated scheduling algorithm, which combines structured data extraction from heterogeneous sources via natural language processing and classification techniques with mixed integer linear programming for efficient graph generation. The results show significant improvements in key metrics. The algorithm reduces the number of production stations equipped with expensive hardware and software to execute digital value chain processes, while also increasing capacity utilization through efficient scheduling and reduced idle time. Task parallelization is optimized, resulting in streamlined workflows and increased throughput. Compared to the traditional scheduling method, the automated approach has reduced preparation time by 50% and reduced scheduling activities, as it now takes two minutes to create the precedence graph. The flexibility of the algorithm’s constraints allows for vehicle-specific configurations while maintaining high responsiveness, eliminating backup stations and facilitating the integration of new topologies. Automated scheduling significantly outperforms manual methods in efficiency, functionality, and adaptability.

arxiv情報

著者 Cornelius Hake,Christian Friedrich
発行日 2025-06-12 13:02:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO, cs.SY, eess.SY | Automated Generation of Precedence Graphs in Digital Value Chains for Automotive Production はコメントを受け付けていません

An $O(n$)-Algorithm for the Higher-Order Kinematics and Inverse Dynamics of Serial Manipulators using Spatial Representation of Twists

要約

一般的に最適な制御、特にロボットアームの平坦性ベースの制御は、目的の動きを達成するために必要な関節トルク/力の1回目と2回目の導関数を計算する必要があります。
必要な計算効率を考慮して、再帰$ O(n)$ – アルゴリズムがこの目的に提案されました。
コンパクトでありながら効率的な定式化を目指して、嘘グループの定式化が最近提案され、ひねりとレンチの体が固定されたハイブリッド表現を利用しました。
この論文では、空間表現を使用して定式化が導入されています。
2次逆ダイナミクスアルゴリズムには、4次前方および逆運動アルゴリズムが伴います。
すべての嘘グループの定式化の利点は、それらを容易に入手できるベクトル量の観点からパラメーター化できることです。
この方法は、7 Dof Franka Emika Panda Robotのために実証されています。

要約(オリジナル)

Optimal control in general, and flatness-based control in particular, of robotic arms necessitate to compute the first and second time derivatives of the joint torques/forces required to achieve a desired motion. In view of the required computational efficiency, recursive $O(n)$-algorithms were proposed to this end. Aiming at compact yet efficient formulations, a Lie group formulation was recently proposed, making use of body-fixed and hybrid representation of twists and wrenches. In this paper a formulation is introduced using the spatial representation. The second-order inverse dynamics algorithm is accompanied by a fourth-order forward and inverse kinematics algorithm. An advantage of all Lie group formulations is that they can be parameterized in terms of vectorial quantities that are readily available. The method is demonstrated for the 7 DOF Franka Emika Panda robot.

arxiv情報

著者 Andreas Mueller
発行日 2025-06-12 13:30:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SC, math.GR, math.OC, physics.class-ph | An $O(n$)-Algorithm for the Higher-Order Kinematics and Inverse Dynamics of Serial Manipulators using Spatial Representation of Twists はコメントを受け付けていません

APEX: Action Priors Enable Efficient Exploration for Skill Imitation on Articulated Robots

要約

模倣による学習は、ロボットが十分に規制された複雑な行動を開発し、自然なデモンストレーションから直接恩恵を受ける効果的な方法を提供します。
通常、最先端の模倣学習(IL)アプローチは、通常、敵対的な運動前(AMP)を活用します。これは、印象的な結果にもかかわらず、2つの重要な制限に苦しんでいます。
彼らはモードの崩壊を起こしやすく、それはしばしばシミュレーション環境への過剰適合につながり、したがってSIMからリアルのギャップを増加させ、彼らは多様な行動を効果的に学ぶのに苦労しています。
これらの制限を克服するために、Apexを導入します(アクションプライアーは効率的な探索を可能にします):デモンストレーションを強化学習(RL)に直接統合するシンプルでありながら多用途のILフレームワーク(RL)を統合し、専門家に情報を与えられたプライアーとの接地行動を維持します。
これは、最初は専門家のデモンストレーションに向けて探査をバイアスするが、ポリシーが独立して探求できるようにすることを最初に偏っている崩壊するアクションプライアーの組み合わせを通じて達成します。
これは、スタイルの一貫性とタスクパフォ​​ーマンスのバランスを効果的にバランスさせるマルチクリティックRLフレームワークによって補完されます。
私たちのアプローチは、サンプル効率の良いILを達成し、単一のポリシー内で多様なスキルを獲得することを可能にします。
Apexは、さまざまな速度に一般化し、粗い地形のナビゲートや階段の登山などの複雑なタスク全体で参照のようなスタイルを保存し、以前のフラットテレイン運動モーションデータのみを利用します。
Unitree GO2四足動物での広範なハードウェア実験を通じて、フレームワークを検証します。
そこでは、Apexは、多様で機敏な移動歩行、固有の歩行遷移、およびプラットフォームで最も高い報告速度を私たちの知識を得て生成します(ハードウェアの〜3.3 m/sのピーク速度)。
我々の結果は、Apexを既存のILメソッドに代わる説得力のある代替手段として確立し、より良い効率、適応性、および現実世界のパフォーマンスを提供します。
https://marmotlab.github.io/apex/

要約(オリジナル)

Learning by imitation provides an effective way for robots to develop well-regulated complex behaviors and directly benefit from natural demonstrations. State-of-the-art imitation learning (IL) approaches typically leverage Adversarial Motion Priors (AMP), which, despite their impressive results, suffer from two key limitations. They are prone to mode collapse, which often leads to overfitting to the simulation environment and thus increased sim-to-real gap, and they struggle to learn diverse behaviors effectively. To overcome these limitations, we introduce APEX (Action Priors enable Efficient eXploration): a simple yet versatile IL framework that integrates demonstrations directly into reinforcement learning (RL), maintaining high exploration while grounding behavior with expert-informed priors. We achieve this through a combination of decaying action priors, which initially bias exploration toward expert demonstrations but gradually allow the policy to explore independently. This is complemented by a multi-critic RL framework that effectively balances stylistic consistency with task performance. Our approach achieves sample-efficient IL and enables the acquisition of diverse skills within a single policy. APEX generalizes to varying velocities and preserves reference-like styles across complex tasks such as navigating rough terrain and climbing stairs, utilizing only flat-terrain kinematic motion data as a prior. We validate our framework through extensive hardware experiments on the Unitree Go2 quadruped. There, APEX yields diverse and agile locomotion gaits, inherent gait transitions, and the highest reported speed for the platform to the best of our knowledge (peak velocity of ~3.3 m/s on hardware). Our results establish APEX as a compelling alternative to existing IL methods, offering better efficiency, adaptability, and real-world performance. https://marmotlab.github.io/APEX/

arxiv情報

著者 Shivam Sood,Laukik B Nakhwa,Yuhong Cao,Sun Ge,Guillaume Sartoretti
発行日 2025-06-12 14:15:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | APEX: Action Priors Enable Efficient Exploration for Skill Imitation on Articulated Robots はコメントを受け付けていません

Grounded Vision-Language Navigation for UAVs with Open-Vocabulary Goal Understanding

要約

Vision-and-Language Navigation(VLN)は、自律的なロボット工学における長年の課題であり、複雑な環境をナビゲートしながら人間の指示に従う能力をエージェントに支援することを目指しています。
この分野には2つの重要なボトルネックが残っています。分散環境への一般化と、固定された離散アクションスペースへの依存です。
これらの課題に対処するために、言語誘導飛行を実行するために無人航空機(UAV)に合わせたフレームワークであるVision-Language Fly(VLFLY)を提案します。
ローカリゼーションまたはアクティブなレンジのセンサーの要件がなければ、VLFLYは、オンボードモノクラーカメラによってキャプチャされたエゴセントリック観測から純粋に連続速度コマンドを出力します。
VLFLYは、3つのモジュールを統合します。高レベルの言語を再フォーマルする大規模な言語モデル(LLM)に基づく命令エンコーダ、構造化プロンプト、ビジョン言語モデル(VLM)が視覚言語の類似性を介してゴールイメージに合わせた目標リトリーバー、および実行可能なトレー物観を生成するウェイポイントプランナーを統合します。
VLFLYは、追加の微調整なしに多様なシミュレーション環境で評価され、すべてのベースラインを常にアウトパフォームします。
さらに、直接的および間接的な指示の下での屋内および屋外環境での実際のVLNタスクは、VLFLYが抽象的な言語入力が存在する場合でも、堅牢なオープンボキャブラリー目標の理解と一般化ナビゲーション機能を達成することを示しています。

要約(オリジナル)

Vision-and-language navigation (VLN) is a long-standing challenge in autonomous robotics, aiming to empower agents with the ability to follow human instructions while navigating complex environments. Two key bottlenecks remain in this field: generalization to out-of-distribution environments and reliance on fixed discrete action spaces. To address these challenges, we propose Vision-Language Fly (VLFly), a framework tailored for Unmanned Aerial Vehicles (UAVs) to execute language-guided flight. Without the requirement for localization or active ranging sensors, VLFly outputs continuous velocity commands purely from egocentric observations captured by an onboard monocular camera. The VLFly integrates three modules: an instruction encoder based on a large language model (LLM) that reformulates high-level language into structured prompts, a goal retriever powered by a vision-language model (VLM) that matches these prompts to goal images via vision-language similarity, and a waypoint planner that generates executable trajectories for real-time UAV control. VLFly is evaluated across diverse simulation environments without additional fine-tuning and consistently outperforms all baselines. Moreover, real-world VLN tasks in indoor and outdoor environments under direct and indirect instructions demonstrate that VLFly achieves robust open-vocabulary goal understanding and generalized navigation capabilities, even in the presence of abstract language input.

arxiv情報

著者 Yuhang Zhang,Haosheng Yu,Jiaping Xiao,Mir Feroskhan
発行日 2025-06-12 14:40:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Grounded Vision-Language Navigation for UAVs with Open-Vocabulary Goal Understanding はコメントを受け付けていません

In-Hand Object Pose Estimation via Visual-Tactile Fusion

要約

ロボットオブジェクトの操作には、正確なインポーズの推定が重要ですが、視覚閉塞は視力ベースのアプローチにとって大きな課題のままです。
このホワイトペーパーでは、ロボットインオブジェクトのポーズ推定へのアプローチを提示し、視覚的な情報と触覚情報を組み合わせて、ロボットの手で把握したオブジェクトの位置と方向を正確に決定します。
リストに取り付けられたRGB-Dカメラからの視覚情報を、ロボットグリッパーの指先に取り付けられた視覚ベースの触覚センサーからの触覚情報と融合することにより、視覚閉塞の課題に対処します。
私たちのアプローチでは、重み付けおよびセンサー融合モジュールを採用して、異種センサータイプのポイントクラウドを組み合わせ、各モダリティのポーズ推定プロセスへの貢献を制御します。
加重ポイント雲に適応した拡張反復的な最も近いポイント(ICP)アルゴリズムを使用して、6Dオブジェクトのポーズを推定します。
私たちの実験は、触覚情報を組み込むことで、特に閉塞が高い場合、ポーズ推定の精度が大幅に向上することを示しています。
私たちの方法では、平均ポーズ推定誤差が7.5 mmおよび16.7度を達成し、視力のみのベースラインを最大20%上回ります。
また、現実世界の挿入タスクで正確なオブジェクト操作を実行する方法の能力も示します。

要約(オリジナル)

Accurate in-hand pose estimation is crucial for robotic object manipulation, but visual occlusion remains a major challenge for vision-based approaches. This paper presents an approach to robotic in-hand object pose estimation, combining visual and tactile information to accurately determine the position and orientation of objects grasped by a robotic hand. We address the challenge of visual occlusion by fusing visual information from a wrist-mounted RGB-D camera with tactile information from vision-based tactile sensors mounted on the fingertips of a robotic gripper. Our approach employs a weighting and sensor fusion module to combine point clouds from heterogeneous sensor types and control each modality’s contribution to the pose estimation process. We use an augmented Iterative Closest Point (ICP) algorithm adapted for weighted point clouds to estimate the 6D object pose. Our experiments show that incorporating tactile information significantly improves pose estimation accuracy, particularly when occlusion is high. Our method achieves an average pose estimation error of 7.5 mm and 16.7 degrees, outperforming vision-only baselines by up to 20%. We also demonstrate the ability of our method to perform precise object manipulation in a real-world insertion task.

arxiv情報

著者 Felix Nonnengießer,Alap Kshirsagar,Boris Belousov,Jan Peters
発行日 2025-06-12 15:00:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | In-Hand Object Pose Estimation via Visual-Tactile Fusion はコメントを受け付けていません

RationalVLA: A Rational Vision-Language-Action Model with Dual System

要約

現実世界のロボット展開の基本的な要件は、自然言語の指示を理解し、対応する能力です。
既存の言語条件付き操作タスクは、通常、指示が環境と完全に一致していると仮定します。
この仮定は、指示が曖昧、無関係、または実行不可能である可能性のある現実的なシナリオでの堅牢性と一般化を制限します。
この問題に対処するために、合理的な操作(Rama)を紹介します。これは、目に見えない実行可能な指示と拒否されるべき欠陥のある指示の両方でモデルに挑戦する新しいベンチマークです。
RAMAでは、視覚、物理、セマンティック、モーション、安全性、コンテキスト外の6つの次元にまたがる多様な欠陥のある指示を含む、14,000を超えるサンプルを含むデータセットを構築します。
さらに、合理的なビジョン言語アクションモデル(RationalVLA)を提案します。
これは、学習可能な潜在スペース埋め込みを導入することにより、高レベルの視覚言語モデルと低レベルの操作ポリシーを統合するロボットアームのデュアルシステムです。
この設計により、RationalVLAは指示を推論し、実行不可能なコマンドを拒否し、操作を効果的に実行できます。
実験は、RationalVLAが標準的な操作タスクの競争力を維持しながら、Ramaの最先端のベースラインを14.5%高い成功率と0.94の平均タスク長さよりも優れていることを示しています。
実際の試験では、実際のアプリケーションにおける有効性と堅牢性をさらに検証します。
プロジェクトページはhttps://irpn-eai.github.io/rationalvlaです。

要約(オリジナル)

A fundamental requirement for real-world robotic deployment is the ability to understand and respond to natural language instructions. Existing language-conditioned manipulation tasks typically assume that instructions are perfectly aligned with the environment. This assumption limits robustness and generalization in realistic scenarios where instructions may be ambiguous, irrelevant, or infeasible. To address this problem, we introduce RAtional MAnipulation (RAMA), a new benchmark that challenges models with both unseen executable instructions and defective ones that should be rejected. In RAMA, we construct a dataset with over 14,000 samples, including diverse defective instructions spanning six dimensions: visual, physical, semantic, motion, safety, and out-of-context. We further propose the Rational Vision-Language-Action model (RationalVLA). It is a dual system for robotic arms that integrates the high-level vision-language model with the low-level manipulation policy by introducing learnable latent space embeddings. This design enables RationalVLA to reason over instructions, reject infeasible commands, and execute manipulation effectively. Experiments demonstrate that RationalVLA outperforms state-of-the-art baselines on RAMA by a 14.5% higher success rate and 0.94 average task length, while maintaining competitive performance on standard manipulation tasks. Real-world trials further validate its effectiveness and robustness in practical applications. Our project page is https://irpn-eai.github.io/rationalvla.

arxiv情報

著者 Wenxuan Song,Jiayi Chen,Wenxue Li,Xu He,Han Zhao,Pengxiang Ding Shiyan Su,Feilong Tang,Xuelian Cheng,Donglin Wang,Zongyuan Ge,Xinhu Zheng,Zhe Liu,Hesheng Wang,Yunhui Liu,Haoang Li
発行日 2025-06-12 15:44:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | RationalVLA: A Rational Vision-Language-Action Model with Dual System はコメントを受け付けていません