Language-Grounded Hierarchical Planning and Execution with Multi-Robot 3D Scene Graphs

要約

このホワイトペーパーでは、3Dシーングラフで有効になったマッピング、ローカリゼーション、およびタスクおよびモーションプランニング(TAMP)を統合して、自然言語で表現された複雑な指示を実行するマルチロボットシステムを紹介します。
当社のシステムは、オープンセットのオブジェクトベースのマップを組み込んだ共有3Dシーングラフを構築します。これは、マルチロボット3Dシーングラフフュージョンにレバレッジされています。
この表現は、リアルタイムのビュー不変の再局在化(オブジェクトベースのマップを介して)と計画(3Dシーングラフを介して)をサポートし、ロボットのチームが周囲について推論し、複雑なタスクを実行できるようにします。
さらに、共有3Dシーングラフとロボット機能からコンテキストを活用することにより、オペレーターの意図を大規模な言語モデル(LLM)を使用して計画ドメイン定義言語(PDDL)目標に変換する計画アプローチを紹介します。
大規模で屋外環境での実際のタスクに関するシステムのパフォーマンスの実験的評価を提供します。

要約(オリジナル)

In this paper, we introduce a multi-robot system that integrates mapping, localization, and task and motion planning (TAMP) enabled by 3D scene graphs to execute complex instructions expressed in natural language. Our system builds a shared 3D scene graph incorporating an open-set object-based map, which is leveraged for multi-robot 3D scene graph fusion. This representation supports real-time, view-invariant relocalization (via the object-based map) and planning (via the 3D scene graph), allowing a team of robots to reason about their surroundings and execute complex tasks. Additionally, we introduce a planning approach that translates operator intent into Planning Domain Definition Language (PDDL) goals using a Large Language Model (LLM) by leveraging context from the shared 3D scene graph and robot capabilities. We provide an experimental assessment of the performance of our system on real-world tasks in large-scale, outdoor environments.

arxiv情報

著者 Jared Strader,Aaron Ray,Jacob Arkin,Mason B. Peterson,Yun Chang,Nathan Hughes,Christopher Bradley,Yi Xuan Jia,Carlos Nieto-Granda,Rajat Talak,Chuchu Fan,Luca Carlone,Jonathan P. How,Nicholas Roy
発行日 2025-06-09 06:02:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Language-Grounded Hierarchical Planning and Execution with Multi-Robot 3D Scene Graphs はコメントを受け付けていません

SIS: Seam-Informed Strategy for T-shirt Unfolding

要約

縫い目は、衣服の情報が豊富なコンポーネントです。
さまざまな種類の縫い目とそれらの組み合わせが存在することで、衣服の取り扱いのために握る点を選択するのに役立ちます。
この論文では、Tシャツを把握したり展開したりするなど、衣服を処理するためのアクションを見つけるための新しい縫い目に基づいた戦略(SIS)を提案します。
デュアルアームマニピュレーターシステムの一対のグラッピングポイントの候補は、提案されたSEAM特徴抽出方法(SFEM)を使用して抽出されます。
ロボットシステムの1組の把握ポイントは、提案された決定マトリックス反復法(DMIM)によって選択されます。
決定マトリックスは、最初に複数の人間のデモによって計算され、ロボットの実行結果によって更新され、ロボットの把握と展開のパフォーマンスが向上します。
提案されたスキームは、シミュレーションに依存せずに実際のデータでトレーニングされていることに注意してください。
実験結果は、提案された戦略の有効性を示しています。
プロジェクトビデオは、https://github.com/lancexz/sisで入手できます

要約(オリジナル)

Seams are information-rich components of garments. The presence of different types of seams and their combinations helps to select grasping points for garment handling. In this paper, we propose a new Seam-Informed Strategy (SIS) for finding actions for handling a garment, such as grasping and unfolding a T-shirt. Candidates for a pair of grasping points for a dual-arm manipulator system are extracted using the proposed Seam Feature Extraction Method (SFEM). A pair of grasping points for the robot system is selected by the proposed Decision Matrix Iteration Method (DMIM). The decision matrix is first computed by multiple human demonstrations and updated by the robot execution results to improve the grasping and unfolding performance of the robot. Note that the proposed scheme is trained on real data without relying on simulation. Experimental results demonstrate the effectiveness of the proposed strategy. The project video is available at https://github.com/lancexz/sis

arxiv情報

著者 Xuzhao Huang,Akira Seino,Fuyuki Tokuda,Akinari Kobayashi,Dayuan Chen,Yasuhisa Hirata,Norman C. Tien,Kazuhiro Kosuge
発行日 2025-06-09 07:05:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | SIS: Seam-Informed Strategy for T-shirt Unfolding はコメントを受け付けていません

RAPID Hand: A Robust, Affordable, Perception-Integrated, Dexterous Manipulation Platform for Generalist Robot Autonomy

要約

このペーパーでは、一般世界のロボットの自律性に対する現実世界のマルチフィンガーロボット操作データを収集するための低コストであるが高度なプラットフォームの希少性について説明します。
それを達成するために、私たちは、コンパクトな20ドーフのハード、堅牢な丸い知覚、および高ドフのテレオ操作インターフェイスが共同で設計されている、共同最適化されたハードウェアとソフトウェアプラットフォームであるラピッドハンドを提案します。
具体的には、ラピッドハンドは、手首に取り付けられた視力、指先触覚センシング、および固有受容をサブ7 MSレイテンシおよび空間アライメントと安定に統合するハードウェアレベルの知覚フレームワークと、コンパクトで実用的なハンドオントロジーとハードウェアレベルの知覚フレームワークを採用しています。
既存のテレオ操作方法が複雑なマルチフィンガーシステムでの精度と安定性と格闘しているため、高度な手で高品質のデモンストレーションを収集することは困難です。
これに対処します。これには、普遍的な作動スキーム、カスタム認識電子機器、および2つのリターゲティング制約を介して、ハンドデザイン、知覚統合、およびテレオ操作インターフェイスを共同最適化します。
プラットフォームのハードウェア、認識、およびテレオ操作インターフェイスを評価します。
収集されたデータに関する拡散ポリシーのトレーニングは、以前の作業よりも優れたパフォーマンスを示しており、信頼できる高品質のデータ収集に対するシステムの機能を検証します。
このプラットフォームは、低コストおよび既製のコンポーネントから構築されており、再現性と採用の容易さを確保するために公開されます。

要約(オリジナル)

This paper addresses the scarcity of low-cost but high-dexterity platforms for collecting real-world multi-fingered robot manipulation data towards generalist robot autonomy. To achieve it, we propose the RAPID Hand, a co-optimized hardware and software platform where the compact 20-DoF hand, robust whole-hand perception, and high-DoF teleoperation interface are jointly designed. Specifically, RAPID Hand adopts a compact and practical hand ontology and a hardware-level perception framework that stably integrates wrist-mounted vision, fingertip tactile sensing, and proprioception with sub-7 ms latency and spatial alignment. Collecting high-quality demonstrations on high-DoF hands is challenging, as existing teleoperation methods struggle with precision and stability on complex multi-fingered systems. We address this by co-optimizing hand design, perception integration, and teleoperation interface through a universal actuation scheme, custom perception electronics, and two retargeting constraints. We evaluate the platform’s hardware, perception, and teleoperation interface. Training a diffusion policy on collected data shows superior performance over prior works, validating the system’s capability for reliable, high-quality data collection. The platform is constructed from low-cost and off-the-shelf components and will be made public to ensure reproducibility and ease of adoption.

arxiv情報

著者 Zhaoliang Wan,Zetong Bi,Zida Zhou,Hao Ren,Yiming Zeng,Yihan Li,Lu Qi,Xu Yang,Ming-Hsuan Yang,Hui Cheng
発行日 2025-06-09 07:10:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | RAPID Hand: A Robust, Affordable, Perception-Integrated, Dexterous Manipulation Platform for Generalist Robot Autonomy はコメントを受け付けていません

Taking Flight with Dialogue: Enabling Natural Language Control for PX4-based Drone Agent

要約

エージェントおよび物理的人工知能(AI)の最近の進歩は、ヒューマノイドや車輪付きロボットなどの地上ベースのプラットフォームに大きく焦点を合わせており、航空ロボットは比較的目立たないままにしています。
一方、最先端の無人航空機(UAV)マルチモーダルビジョン言語システムは、通常、リソース化された組織にのみアクセスできるクローズドソースモデルに依存しています。
自律ドローンの自然言語制御を民主化するために、PX4ベースの飛行制御、ロボットオペレーティングシステム2(ROS 2)ミドルウェア、およびオラマを使用してローカルホストモデルを統合するオープンソースエージェントフレームワークを紹介します。
シミュレーションとカスタムクアッドコプタープラットフォームの両方でパフォーマンスを評価し、コマンド生成のための4つの大手言語モデル(LLM)ファミリとシーンの理解のための3つのビジョン言語モデル(VLM)ファミリをベンチマークします。

要約(オリジナル)

Recent advances in agentic and physical artificial intelligence (AI) have largely focused on ground-based platforms such as humanoid and wheeled robots, leaving aerial robots relatively underexplored. Meanwhile, state-of-the-art unmanned aerial vehicle (UAV) multimodal vision-language systems typically rely on closed-source models accessible only to well-resourced organizations. To democratize natural language control of autonomous drones, we present an open-source agentic framework that integrates PX4-based flight control, Robot Operating System 2 (ROS 2) middleware, and locally hosted models using Ollama. We evaluate performance both in simulation and on a custom quadcopter platform, benchmarking four large language model (LLM) families for command generation and three vision-language model (VLM) families for scene understanding.

arxiv情報

著者 Shoon Kit Lim,Melissa Jia Ying Chong,Jing Huey Khor,Ting Yang Ling
発行日 2025-06-09 07:37:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, I.2.10 | Taking Flight with Dialogue: Enabling Natural Language Control for PX4-based Drone Agent はコメントを受け付けていません

MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations

要約

LLMSの出現と他のデータモダリティとの統合により、マルチモーダル3D知覚は、物理的な世界への接続性により、より多くの注目を集め、急速な進歩を遂げます。
ただし、既存のデータセットによって制限されていた以前の作業は、主に3Dシーンでオブジェクトのプロパティまたはオブジェクト間の空間関係を理解することに焦点を当てています。
この問題に取り組むために、このペーパーでは、これまでに最初に最大のマルチモーダル3Dシーンデータセットと、階層的な接地言語アノテーションであるMMSCANを使用してベンチマークを構築します。
これは、地域からオブジェクトレベル、単一のターゲットからターゲット間の関係まで、トップダウンロジックに基づいて構築され、空間および属性の理解の全体的な側面をカバーします。
全体的なパイプラインには、注釈を効率的に初期化するための慎重に設計されたプロンプトを介して強力なVLMSが組み込まれ、さらにはループでの人間の修正が含まれ、注釈が自然で正しく、包括的であることを確認します。
既存の3Dスキャンデータに基づいて構築された結果のマルチモーダル3Dデータセットには、109Kオブジェクトと7.7k領域の1.4mメタアノテーションキャプション、および3D視覚的接地と質問回答ベンチマークの3.04mを超える多様なサンプルが含まれます。
ベンチマークの代表的なベースラインを評価し、さまざまな面でその機能を分析し、将来対処する重要な問題を紹介します。
さらに、この高品質のデータセットを使用して、最先端の3D視覚接地とLLMSをトレーニングし、既存のベンチマークとワイルド内評価の両方で顕著なパフォーマンス改善を取得します。
コード、データセット、およびベンチマークは、https://github.com/openrobotlab/embodiedscanで入手できます。

要約(オリジナル)

With the emergence of LLMs and their integration with other data modalities, multi-modal 3D perception attracts more attention due to its connectivity to the physical world and makes rapid progress. However, limited by existing datasets, previous works mainly focus on understanding object properties or inter-object spatial relationships in a 3D scene. To tackle this problem, this paper builds the first largest ever multi-modal 3D scene dataset and benchmark with hierarchical grounded language annotations, MMScan. It is constructed based on a top-down logic, from region to object level, from a single target to inter-target relationships, covering holistic aspects of spatial and attribute understanding. The overall pipeline incorporates powerful VLMs via carefully designed prompts to initialize the annotations efficiently and further involve humans’ correction in the loop to ensure the annotations are natural, correct, and comprehensive. Built upon existing 3D scanning data, the resulting multi-modal 3D dataset encompasses 1.4M meta-annotated captions on 109k objects and 7.7k regions as well as over 3.04M diverse samples for 3D visual grounding and question-answering benchmarks. We evaluate representative baselines on our benchmarks, analyze their capabilities in different aspects, and showcase the key problems to be addressed in the future. Furthermore, we use this high-quality dataset to train state-of-the-art 3D visual grounding and LLMs and obtain remarkable performance improvement both on existing benchmarks and in-the-wild evaluation. Codes, datasets, and benchmarks will be available at https://github.com/OpenRobotLab/EmbodiedScan.

arxiv情報

著者 Ruiyuan Lyu,Jingli Lin,Tai Wang,Shuai Yang,Xiaohan Mao,Yilun Chen,Runsen Xu,Haifeng Huang,Chenming Zhu,Dahua Lin,Jiangmiao Pang
発行日 2025-06-09 07:53:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO | MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations はコメントを受け付けていません

BitVLA: 1-bit Vision-Language-Action Models for Robotics Manipulation

要約

Vision-Language-active(VLA)モデルは、幅広いロボット工学操作タスクで印象的な機能を示しています。
ただし、モデルサイズの成長は、リソース制約のロボットシステムへの展開に大きな課題をもたらします。
1ビットの前orainingは、パフォーマンスの損失を最小限に抑えて大規模な言語モデルの推論効率を高めるのに効果的であることが証明されていますが、VLAモデルへの適用は依存していないままです。
この作業では、ロボット工学操作の最初の1ビットVLAモデルであるBITVLAを提示します。すべてのパラメーターは、{-1、0、1}、つまり{-1、0、1}です。
Visionエンコーダーのメモリフットプリントをさらに削減するために、フルエンコーダーを1.58ビット重量に圧縮する蒸留対象トレーニング戦略を提案します。
このプロセス中、全精度エンコーダーは、潜在的な表現をよりよく調整するための教師モデルとして機能します。
大規模なロボット工学の事前トレーニングが不足しているにもかかわらず、BitVLAは、リベロベンチマークで4ビットのトレーニング量子化を備えた最先端のモデルOpenVLA-Offに匹敵するパフォーマンスを達成し、メモリの29.8%しか消費しません。
これらの結果は、メモリが制約されているエッジデバイスでの展開に対するBitVLAの約束を強調しています。
https://github.com/ustcwhy/bitvlaでコードとモデルの重みをリリースします。

要約(オリジナル)

Vision-Language-Action (VLA) models have shown impressive capabilities across a wide range of robotics manipulation tasks. However, their growing model size poses significant challenges for deployment on resource-constrained robotic systems. While 1-bit pretraining has proven effective for enhancing the inference efficiency of large language models with minimal performance loss, its application to VLA models remains underexplored. In this work, we present BitVLA, the first 1-bit VLA model for robotics manipulation, in which every parameter is ternary, i.e., {-1, 0, 1}. To further reduce the memory footprint of the vision encoder, we propose the distillation-aware training strategy that compresses the full-precision encoder to 1.58-bit weights. During this process, a full-precision encoder serves as a teacher model to better align latent representations. Despite the lack of large-scale robotics pretraining, BitVLA achieves performance comparable to the state-of-the-art model OpenVLA-OFT with 4-bit post-training quantization on the LIBERO benchmark, while consuming only 29.8% of the memory. These results highlight BitVLA’s promise for deployment on memory-constrained edge devices. We release the code and model weights in https://github.com/ustcwhy/BitVLA.

arxiv情報

著者 Hongyu Wang,Chuyan Xiong,Ruiping Wang,Xilin Chen
発行日 2025-06-09 08:15:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | BitVLA: 1-bit Vision-Language-Action Models for Robotics Manipulation はコメントを受け付けていません

Fractional Collisions: A Framework for Risk Estimation of Counterfactual Conflicts using Autonomous Driving Behavior Simulations

要約

自動化された運転システム(AD)または自然主義的な運転データベースのセンサーデータに基づいて構築された反事実的なシミュレーションシナリオからの衝突リスクを推定するための方法論を提示します。
2つのエージェント競合は、競合タイプを検出および分類し、エージェントの役割(イニシエーターまたはレスポンダー)を特定し、応答者の反応点を特定し、人間の行動期待を確率論的な反事実的軌跡としてモデル化することによって評価されます。
状態は、衝突時の速度微分を計算するために使用されます。衝突モデルと組み合わせると、確率的損傷または物的損傷の観点から損失の重症度を推定します。
確率モデルは、シミュレーション、機能、およびエージェントに関連する他の不確実性を含むように拡張される場合があります。
VTTIのSHRP2データベースとNEXARダッシュボードカメラデータから供給された300以上の衝突およびほぼ衝突シーンからの再構築された軌道を使用して、合成シミュレーション環境での方法論の有効性を検証します。
私たちの方法論は、グラウンドトゥルースの衝突の1%内で分数衝突を予測しました。
次に、これらの合成再構成の自然主義的なレスポンダーをADSシミュレーターに置き換え、結果を人間反応の結果と比較することにより、任意のADSソフトウェアリリースのエージェント開始衝突リスクを評価します。
私たちの広告は、自然主義的な衝突を4倍に減らし、分数衝突リスクを約62%減らしました。
フレームワークのユーティリティは、ADSテスト車両で収集された250kマイルの独自のオープンループセンサーデータでも実証され、任意のADSソフトウェアリリースで再シミュレートされています。
ADSは、0.4の怪我を引き起こし、1.7のプロパティダメージを与えた分数衝突を引き起こした競合を開始し、ADSはエージェント開始紛争の96%で衝突リスクを改善しました。

要約(オリジナル)

We present a methodology for estimating collision risk from counterfactual simulated scenarios built on sensor data from automated driving systems (ADS) or naturalistic driving databases. Two-agent conflicts are assessed by detecting and classifying conflict type, identifying the agents’ roles (initiator or responder), identifying the point of reaction of the responder, and modeling their human behavioral expectations as probabilistic counterfactual trajectories. The states are used to compute velocity differentials at collision, which when combined with crash models, estimates severity of loss in terms of probabilistic injury or property damage, henceforth called fractional collisions. The probabilistic models may also be extended to include other uncertainties associated with the simulation, features, and agents. We verify the effectiveness of the methodology in a synthetic simulation environment using reconstructed trajectories from 300+ collision and near-collision scenes sourced from VTTI’s SHRP2 database and Nexar dashboard camera data. Our methodology predicted fractional collisions within 1% of ground truth collisions. We then evaluate agent-initiated collision risk of an arbitrary ADS software release by replacing the naturalistic responder in these synthetic reconstructions with an ADS simulator and comparing the outcome to human-response outcomes. Our ADS reduced naturalistic collisions by 4x and fractional collision risk by ~62%. The framework’s utility is also demonstrated on 250k miles of proprietary, open-loop sensor data collected on ADS test vehicles, re-simulated with an arbitrary ADS software release. The ADS initiated conflicts that caused 0.4 injury-causing and 1.7 property-damaging fractional collisions, and the ADS improved collision risk in 96% of the agent-initiated conflicts.

arxiv情報

著者 Sreeja Roy-Singh,Sarvesh Kolekar,Daniel P. Bonny,Kyle Foss
発行日 2025-06-09 08:27:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Fractional Collisions: A Framework for Risk Estimation of Counterfactual Conflicts using Autonomous Driving Behavior Simulations はコメントを受け付けていません

Curriculum Learning With Counterfactual Group Relative Policy Advantage For Multi-Agent Reinforcement Learning

要約

マルチエージェント補強学習(MARL)は、協力的な敵対的なタスクで強力なパフォーマンスを達成しています。
ただし、ほとんどの既存の方法は、通常、固定の対戦相手戦略に対してエージェントを訓練し、そのようなメタ静的な難易度に依存しているため、変化する環境への適応性を制限し、しばしば最適でないポリシーにつながります。
カリキュラム学習(CL)の成功に触発され、監視されたタスクでは、自己適応難易度調整メカニズムを採用するMARLの動的なCLフレームワークを提案します。
このメカニズムは、リアルタイムエージェントのトレーニングパフォーマンスに基づいて相手の強度を継続的に調節し、エージェントがより簡単なシナリオから徐々に学習できるようにします。
ただし、CLの動的な性質は、非定常環境とまばらなグローバルな報酬による不安定性を導入します。
この課題に対処するために、反事実的なグループの相対的な政策アドバンテージ(CGRPA)を開発します。これは、進化するタスクの要求に基づく各エージェントの影響を反映する本質的なクレジット信号を提供することにより、カリキュラムと密接に結びついています。
CGRPAは、グループ行動内の個々の貢献を分離する反事実上のアドバンテージ関数を構築し、カリキュラム全体でより信頼性の高いポリシー更新を促進します。
CGRPAは、反事実的アクションアドバンテージ関数を構築することにより、各エージェントの貢献を評価し、非定常条件下でクレジットの割り当てを強化し、学習を安定させる本質的な報酬を提供します。
広範な実験は、私たちの方法がトレーニングの安定性と最終パフォーマンスの両方を改善し、最先端の方法に対する競争結果を達成することを示しています。
このコードは、https://github.com/nice-hku/cl2marl-smacで入手できます。

要約(オリジナル)

Multi-agent reinforcement learning (MARL) has achieved strong performance in cooperative adversarial tasks. However, most existing methods typically train agents against fixed opponent strategies and rely on such meta-static difficulty conditions, which limits their adaptability to changing environments and often leads to suboptimal policies. Inspired by the success of curriculum learning (CL) in supervised tasks, we propose a dynamic CL framework for MARL that employs an self-adaptive difficulty adjustment mechanism. This mechanism continuously modulates opponent strength based on real-time agent training performance, allowing agents to progressively learn from easier to more challenging scenarios. However, the dynamic nature of CL introduces instability due to nonstationary environments and sparse global rewards. To address this challenge, we develop a Counterfactual Group Relative Policy Advantage (CGRPA), which is tightly coupled with the curriculum by providing intrinsic credit signals that reflect each agent’s impact under evolving task demands. CGRPA constructs a counterfactual advantage function that isolates individual contributions within group behavior, facilitating more reliable policy updates throughout the curriculum. CGRPA evaluates each agent’s contribution through constructing counterfactual action advantage function, providing intrinsic rewards that enhance credit assignment and stabilize learning under non-stationary conditions. Extensive experiments demonstrate that our method improves both training stability and final performance, achieving competitive results against state-of-the-art methods. The code is available at https://github.com/NICE-HKU/CL2MARL-SMAC.

arxiv情報

著者 Weiqiang Jin,Hongyang Du,Guizhong Liu,Dong In Kim
発行日 2025-06-09 08:38:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Curriculum Learning With Counterfactual Group Relative Policy Advantage For Multi-Agent Reinforcement Learning はコメントを受け付けていません

A Machine Learning Approach to Sensor Substitution from Tactile Sensing to Visual Perception for Non-Prehensile Manipulation

要約

モバイルマニピュレーターは、複雑な環境でますます展開されており、周囲との相互作用を認識して相互作用させるために多様なセンサーが必要です。
ただし、すべてのロボットに可能なあらゆるセンサーを装備することは、コストと物理的な制約のために非現実的であることがよくあります。
異なるセンサー機能を備えたロボットが同様のタスクをコラボレーションまたは実行する必要がある場合、重大な課題が生じます。
たとえば、高解像度の触覚皮膚を装備したモバイルマニピュレーターが、プッシュなどの非摂食操作タスクに熟練しているシナリオを考えてみましょう。
このロボットをそのような触覚センシングを欠くロボットに交換または拡張する必要がある場合、学習した操作ポリシーは適用できなくなります。
このペーパーでは、非摂食操作におけるセンサー置換の問題に対処します。
限られたセンサーセット(LIDARやRGB-Dなど)を備えたロボットを可能にする新しい機械学習ベースのフレームワークを提案し、以前はより豊富なセンサースイート(触覚スキンなど)に依存していたタスクを効果的に実行できます。
私たちのアプローチは、利用可能なセンサーデータと、置換センサーによって提供される情報との間のマッピングを学び、欠落している感覚入力を効果的に合成します。
具体的には、モバイルマニピュレーターを使用して非摂取性プッシュのタスクに触覚皮膚データを置き換えるモデルをトレーニングすることにより、フレームワークの有効性を実証します。
LidarまたはRGB-Dのみを装備したマニピュレーターは、トレーニング後、直接的な触覚フィードバックを利用してモバイルベースのパフォーマンスを同等にし、時にはさらに良くプッシュすることができることを示します。

要約(オリジナル)

Mobile manipulators are increasingly deployed in complex environments, requiring diverse sensors to perceive and interact with their surroundings. However, equipping every robot with every possible sensor is often impractical due to cost and physical constraints. A critical challenge arises when robots with differing sensor capabilities need to collaborate or perform similar tasks. For example, consider a scenario where a mobile manipulator equipped with high-resolution tactile skin is skilled at non-prehensile manipulation tasks like pushing. If this robot needs to be replaced or augmented by a robot lacking such tactile sensing, the learned manipulation policies become inapplicable. This paper addresses the problem of sensor substitution in non-prehensile manipulation. We propose a novel machine learning-based framework that enables a robot with a limited sensor set (e.g., LiDAR or RGB-D) to effectively perform tasks previously reliant on a richer sensor suite (e.g., tactile skin). Our approach learns a mapping between the available sensor data and the information provided by the substituted sensor, effectively synthesizing the missing sensory input. Specifically, we demonstrate the efficacy of our framework by training a model to substitute tactile skin data for the task of non-prehensile pushing using a mobile manipulator. We show that a manipulator equipped only with LiDAR or RGB-D can, after training, achieve comparable and sometimes even better pushing performance to a mobile base utilizing direct tactile feedback.

arxiv情報

著者 Idil Ozdamar,Doganay Sirintuna,Arash Ajoudani
発行日 2025-06-09 09:53:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | A Machine Learning Approach to Sensor Substitution from Tactile Sensing to Visual Perception for Non-Prehensile Manipulation はコメントを受け付けていません

Active inference as a unified model of collision avoidance behavior in human drivers

要約

衝突回避は、迅速な脅威の検出と適切な回避操作の迅速な実行を伴う – は、運転の重要な側面です。
ただし、人間の衝突回避行動の既存のモデルは断片化されており、特定のシナリオに焦点を当てたり、応答時間などの回避行動の特定の側面のみを説明しています。
このペーパーでは、積極的な推論に基づいた人間の衝突回避行動の新しい計算認知モデルを提案することにより、これらのギャップに対処します。
アクティブな推論は、人間の行動をモデル化するための統一されたアプローチ、つまり自由エネルギーの最小化を提供します。
以前の積極的な推論作業に基づいて、私たちのモデルには、2つの異なる衝突回避シナリオで人間の反応をシミュレートするための証拠蓄積などの確立された認知メカニズムが組み込まれています:対向車両による最前線のリード車両ブレーキングと横方向の侵入。
私たちのモデルは、人間の衝突回避行動に関する以前の経験的発見の幅広い範囲を説明していることを実証します。
具体的には、このモデルは、以前に報告されたメタ分析からの集計結果の両方を密接に再現し、応答タイミング、操作の選択、実行など、最近の運転シミュレーター研究で観察された詳細なシナリオ固有の効果の両方の総分析から密接に再現します。
私たちの結果は、複雑な現実の駆動タスクにおける人間の行動を理解し、モデル化するための統一されたフレームワークとしての積極的な推論の可能性を強調しています。

要約(オリジナル)

Collision avoidance — involving a rapid threat detection and quick execution of the appropriate evasive maneuver — is a critical aspect of driving. However, existing models of human collision avoidance behavior are fragmented, focusing on specific scenarios or only describing certain aspects of the avoidance behavior, such as response times. This paper addresses these gaps by proposing a novel computational cognitive model of human collision avoidance behavior based on active inference. Active inference provides a unified approach to modeling human behavior: the minimization of free energy. Building on prior active inference work, our model incorporates established cognitive mechanisms such as evidence accumulation to simulate human responses in two distinct collision avoidance scenarios: front-to-rear lead vehicle braking and lateral incursion by an oncoming vehicle. We demonstrate that our model explains a wide range of previous empirical findings on human collision avoidance behavior. Specifically, the model closely reproduces both aggregate results from meta-analyses previously reported in the literature and detailed, scenario-specific effects observed in a recent driving simulator study, including response timing, maneuver selection, and execution. Our results highlight the potential of active inference as a unified framework for understanding and modeling human behavior in complex real-life driving tasks.

arxiv情報

著者 Julian F. Schumann,Johan Engström,Leif Johnson,Matthew O’Kelly,Joao Messias,Jens Kober,Arkady Zgonnikov
発行日 2025-06-09 10:07:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Active inference as a unified model of collision avoidance behavior in human drivers はコメントを受け付けていません