ReinboT: Amplifying Robot Visual-Language Manipulation with Reinforcement Learning

要約

Vision-Language-active(VLA)モデルは、模倣学習を通じて一般的なロボットの意思決定タスクに大きな可能性を示しています。
ただし、トレーニングデータのさまざまな品質は、これらのモデルのパフォーマンスを制約することがよくあります。
一方、オフライン強化学習(RL)は、混合品質のデータからの堅牢なポリシーモデルの学習に優れています。
この論文では、累積報酬を最大化するRL原則を統合する新しいエンドツーエンドVLAモデルである強化ロボットGPT(Reinbot)を紹介します。
Reinbotは、操作タスクのニュアンスをキャプチャする密なリターンを予測することにより、データの品質分布をより深く理解します。
高密度のリターン予測機能により、ロボットは、将来の利益を最大化する方向に向けた、より堅牢な意思決定アクションを生成することができます。
広範な実験では、ReinbotがCalvinの混合品質のデータセットで最先端のパフォーマンスを達成し、現実世界のタスクで優れた少数の学習と分散式の一般化機能を示すことが示されています。

要約(オリジナル)

Vision-Language-Action (VLA) models have shown great potential in general robotic decision-making tasks via imitation learning. However, the variable quality of training data often constrains the performance of these models. On the other hand, offline Reinforcement Learning (RL) excels at learning robust policy models from mixed-quality data. In this paper, we introduce Reinforced robot GPT (ReinboT), a novel end-to-end VLA model that integrates the RL principle of maximizing cumulative reward. ReinboT achieves a deeper understanding of the data quality distribution by predicting dense returns that capture the nuances of manipulation tasks. The dense return prediction capability enables the robot to generate more robust decision-making actions, oriented towards maximizing future benefits. Extensive experiments show that ReinboT achieves state-of-the-art performance on the CALVIN mixed-quality dataset and exhibits superior few-shot learning and out-of-distribution generalization capabilities in real-world tasks.

arxiv情報

著者 Hongyin Zhang,Zifeng Zhuang,Han Zhao,Pengxiang Ding,Hongchao Lu,Donglin Wang
発行日 2025-05-12 09:48:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | ReinboT: Amplifying Robot Visual-Language Manipulation with Reinforcement Learning はコメントを受け付けていません

Rethinking Latent Redundancy in Behavior Cloning: An Information Bottleneck Approach for Robot Manipulation

要約

動作クローニング(BC)は、ロボット操作において広く採用されている視覚模倣学習方法です。
現在のBCアプローチは、大規模なデータセットを活用し、追加の視覚的およびテキストモダリティを組み込んで、より多様な情報をキャプチャすることにより、一般化を強化することがよくあります。
ただし、これらの方法は、学習した表現に冗長な情報が含まれているかどうかを見落としており、学習プロセスを導くための強固な理論的基盤がありません。
これらの制限に対処するために、情報理論的視点を採用し、相互情報を導入して、潜在的な表現の冗長性を定量化し、軽減します。
これに基づいて、情報ボトルネック(IB)原則をBCに組み込みます。これにより、タスク関連の機能を維持しながら、無関係な情報を圧縮するための構造化されたフレームワークを提供することにより、冗長性を削減するという考えが拡張されます。
この作業は、IBの一般化可能性をBCに拡張しながら、さまざまな方法、バックボーン、および実験設定にわたる潜在的な表現における冗長性に関する最初の包括的な研究を提示します。
皮質ベンチとリベロのベンチマークの広範な実験と分析は、IBによる大幅なパフォーマンスの改善を示しており、入力データの冗長性を減らし、より実用的なアプリケーションの実用的な価値を強調することの重要性を強調しています。
プロジェクトページ:https://baishuanghao.github.io/bc-ib.github.io。

要約(オリジナル)

Behavior Cloning (BC) is a widely adopted visual imitation learning method in robot manipulation. Current BC approaches often enhance generalization by leveraging large datasets and incorporating additional visual and textual modalities to capture more diverse information. However, these methods overlook whether the learned representations contain redundant information and lack a solid theoretical foundation to guide the learning process. To address these limitations, we adopt an information-theoretic perspective and introduce mutual information to quantify and mitigate redundancy in latent representations. Building on this, we incorporate the Information Bottleneck (IB) principle into BC, which extends the idea of reducing redundancy by providing a structured framework for compressing irrelevant information while preserving task-relevant features. This work presents the first comprehensive study on redundancy in latent representations across various methods, backbones, and experimental settings, while extending the generalizability of the IB to BC. Extensive experiments and analyses on the CortexBench and LIBERO benchmarks demonstrate significant performance improvements with IB, underscoring the importance of reducing input data redundancy and highlighting its practical value for more practical applications. Project Page: https://baishuanghao.github.io/BC-IB.github.io.

arxiv情報

著者 Shuanghao Bai,Wanqi Zhou,Pengxiang Ding,Wei Zhao,Donglin Wang,Badong Chen
発行日 2025-05-12 10:16:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | Rethinking Latent Redundancy in Behavior Cloning: An Information Bottleneck Approach for Robot Manipulation はコメントを受け付けていません

Aerial Path Online Planning for Urban Scene Updation

要約

都市環境の変更領域を検出および更新するために特別に設計された最初のシーンアップデートの空中パス計画アルゴリズムを提示します。
大規模な3D都市シーンの再構成の既存の方法は、高い精度と完全性を達成することに焦点を当てていますが、それらは多くの場合、シーン全体を再調査および再構築し、変更されていないエリアでかなりの時間とリソースを無駄にするため、定期的な更新を必要とするシナリオにとっては非効率的です。
この制限に対処するために、当社の方法は、以前の再構成を活用し、確率統計を変更して、UAVが変更される可能性のある領域を検出および焦点を合わせることを導きます。
私たちのアプローチでは、変化の可能性を評価するための新しい変化の可能性ヒューリスティックを導入し、2つの飛行経路の計画を促進します。静的事前層によって通知される以前のパスと、新しく検出された変化に適応する動的なリアルタイムパスです。
このフレームワークは、表面サンプリングと候補ビュー生成戦略を統合し、最小限の冗長性で変化領域の効率的なカバレッジを確保します。
実世界の都市データセットでの広範な実験は、この方法が飛行時間と計算オーバーヘッドを大幅に短縮し、フルシーンの再探索と再構築に匹敵する高品質の更新を維持することを示しています。
これらの貢献は、複雑な都市環境での効率的でスケーラブルで適応性のあるUAVベースのシーンの更新への道を開きます。

要約(オリジナル)

We present the first scene-update aerial path planning algorithm specifically designed for detecting and updating change areas in urban environments. While existing methods for large-scale 3D urban scene reconstruction focus on achieving high accuracy and completeness, they are inefficient for scenarios requiring periodic updates, as they often re-explore and reconstruct entire scenes, wasting significant time and resources on unchanged areas. To address this limitation, our method leverages prior reconstructions and change probability statistics to guide UAVs in detecting and focusing on areas likely to have changed. Our approach introduces a novel changeability heuristic to evaluate the likelihood of changes, driving the planning of two flight paths: a prior path informed by static priors and a dynamic real-time path that adapts to newly detected changes. The framework integrates surface sampling and candidate view generation strategies, ensuring efficient coverage of change areas with minimal redundancy. Extensive experiments on real-world urban datasets demonstrate that our method significantly reduces flight time and computational overhead, while maintaining high-quality updates comparable to full-scene re-exploration and reconstruction. These contributions pave the way for efficient, scalable, and adaptive UAV-based scene updates in complex urban environments.

arxiv情報

著者 Mingfeng Tang,Ningna Wang,Ziyuan Xie,Jianwei Hu,Ke Xie,Xiaohu Guo,Hui Huang
発行日 2025-05-12 10:32:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.GR, cs.RO | Aerial Path Online Planning for Urban Scene Updation はコメントを受け付けていません

Cooperative Assembly with Autonomous Mobile Manipulators in an Underwater Scenario

要約

[…]具体的には、対処されている問題は、ペグインホールタスクとして知られるアセンブリの問題です。
この場合、2つの自律マニピュレーターが協調的に(運動レベルで)PEGを運び、環境に固定された穴に挿入する必要があります。
ペグインホールがよく知られている問題であっても、特に水中シナリオでは、2つの異なる自律マニピュレーターの使用に関連する特定の研究はありません。
問題に対するすべての可能な調査の中で、この作業は主にロボットの運動学的制御に焦点を当てています。
使用される方法は、タスク優先逆運動学(TPIK)アプローチの一部であり、エージェント間で可能な限り少ない情報を交換することを許可する協力スキーム(コミュニケーションの大きな障害であることは本当に重要です)。
フォーストルクセンサーは、挿入相を支援するために運動レベルで悪用されます。
結果は、TPIKと選択された協力スキームを、指定された問題にどのように使用できるかを示しています。
行われたシミュレートされた実験では、穴のポーズのエラーがほとんどないと考えています。
これらのエラーの存在下で2つのマニピュレーターによって実行される挿入フェーズを(フォーストルクセンサーによって提供されたデータのおかげで)改善する方法が示されています。
[…]

要約(オリジナル)

[…] Specifically, the problem addressed is an assembly one known as the peg-in-hole task. In this case, two autonomous manipulators must carry cooperatively (at kinematic level) a peg and must insert it into an hole fixed in the environment. Even if the peg-in-hole is a well-known problem, there are no specific studies related to the use of two different autonomous manipulators, especially in underwater scenarios. Among all the possible investigations towards the problem, this work focuses mainly on the kinematic control of the robots. The methods used are part of the Task Priority Inverse Kinematics (TPIK) approach, with a cooperation scheme that permits to exchange as less information as possible between the agents (that is really important being water a big impediment for communication). A force-torque sensor is exploited at kinematic level to help the insertion phase. The results show how the TPIK and the chosen cooperation scheme can be used for the stated problem. The simulated experiments done consider little errors in the hole’s pose, that still permit to insert the peg but with a lot of frictions and possible stucks. It is shown how can be possible to improve (thanks to the data provided by the force-torque sensor) the insertion phase performed by the two manipulators in presence of these errors. […]

arxiv情報

著者 Davide Torielli
発行日 2025-05-12 11:03:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Cooperative Assembly with Autonomous Mobile Manipulators in an Underwater Scenario はコメントを受け付けていません

TPT-Bench: A Large-Scale, Long-Term and Robot-Egocentric Dataset for Benchmarking Target Person Tracking

要約

ロボット – エコセントリックビューからターゲットパーソンを追跡することは、人間とロボットの相互作用(HRI)および具体化されたAIにおける継続的なパーソナライズされた支援またはコラボレーションを提供する自律的なロボットを開発するために重要です。
ただし、ほとんどの既存のターゲットパーソントラッキング(TPT)ベンチマークは、気を散らすもの、清潔な背景、短期閉塞が少ない制御された実験室環境に限定されています。
このホワイトペーパーでは、Robot-Personの次のタスクを通じて実証された混雑した構造化されていない環境でTPT向けに設計された大規模なデータセットを紹介します。
データセットは、ターゲットの人を追跡しながらセンサー装備のカートを押し、人間のような動作をキャプチャし、頻繁な閉塞や多数の歩行者からの再識別の必要性を含む長期追跡の課題を強調しながら、人間によって収集されます。
これには、odometry、3D Lidar、IMU、Panoptic、およびRGB-D画像などのマルチモーダルデータストリームと、屋内と屋外の両方の35のシーケンスにわたってターゲット担当者の2D境界ボックスが徹底的に注釈された2D境界ボックスが含まれています。
このデータセットと視覚的な注釈を使用して、既存のTPTメソッドを使用した広範な実験を実行し、それらの制限の徹底的な分析を提供し、将来の研究の方向性を提案します。

要約(オリジナル)

Tracking a target person from robot-egocentric views is crucial for developing autonomous robots that provide continuous personalized assistance or collaboration in Human-Robot Interaction (HRI) and Embodied AI. However, most existing target person tracking (TPT) benchmarks are limited to controlled laboratory environments with few distractions, clean backgrounds, and short-term occlusions. In this paper, we introduce a large-scale dataset designed for TPT in crowded and unstructured environments, demonstrated through a robot-person following task. The dataset is collected by a human pushing a sensor-equipped cart while following a target person, capturing human-like following behavior and emphasizing long-term tracking challenges, including frequent occlusions and the need for re-identification from numerous pedestrians. It includes multi-modal data streams, including odometry, 3D LiDAR, IMU, panoptic, and RGB-D images, along with exhaustively annotated 2D bounding boxes of the target person across 35 sequences, both indoors and outdoors. Using this dataset and visual annotations, we perform extensive experiments with existing TPT methods, offering a thorough analysis of their limitations and suggesting future research directions.

arxiv情報

著者 Hanjing Ye,Yu Zhan,Weixi Situ,Guangcheng Chen,Jingwen Yu,Kuanqi Cai,Hong Zhang
発行日 2025-05-12 11:10:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | TPT-Bench: A Large-Scale, Long-Term and Robot-Egocentric Dataset for Benchmarking Target Person Tracking はコメントを受け付けていません

GelFusion: Enhancing Robotic Manipulation under Visual Constraints via Visuotactile Fusion

要約

Visuotactile Sensingは、特に曖昧な視覚キューや閉塞などの視覚制限条件下で、模倣学習でパフォーマンスのボトルネックを軽減するのに役立つ豊富な連絡先情報を提供します。
ただし、視覚的および視覚的なモダリティを効果的に融合させ、継続的な課題を提示します。
Gelfusionは、特に高解像度のGelsishセンサーから視覚操作フィードバックを統合することにより、ポリシーを強化するように設計されたフレームワークを紹介します。
視力が支配的なクロスアテンション融合メカニズムを使用した総合には、視覚操作情報がポリシー学習に組み込まれています。
豊富な連絡先情報をより適切に提供するために、フレームワークのコアコンポーネントは、テクスチャ幾何および動的インタラクション機能の両方を同時に活用して、デュアルチャネル視型機能表現です。
表面の拭き取り、PEG挿入、および壊れやすいオブジェクトのピックアンドプレイスの3つの接触豊富なタスクで、総合的なタスクを評価しました。
ベースラインを上回ると、GELFUSIONは、政策学習の成功率を改善する際の構造の価値を示しています。

要約(オリジナル)

Visuotactile sensing offers rich contact information that can help mitigate performance bottlenecks in imitation learning, particularly under vision-limited conditions, such as ambiguous visual cues or occlusions. Effectively fusing visual and visuotactile modalities, however, presents ongoing challenges. We introduce GelFusion, a framework designed to enhance policies by integrating visuotactile feedback, specifically from high-resolution GelSight sensors. GelFusion using a vision-dominated cross-attention fusion mechanism incorporates visuotactile information into policy learning. To better provide rich contact information, the framework’s core component is our dual-channel visuotactile feature representation, simultaneously leveraging both texture-geometric and dynamic interaction features. We evaluated GelFusion on three contact-rich tasks: surface wiping, peg insertion, and fragile object pick-and-place. Outperforming baselines, GelFusion shows the value of its structure in improving the success rate of policy learning.

arxiv情報

著者 Shulong Jiang,Shiqi Zhao,Yuxuan Fan,Peng Yin
発行日 2025-05-12 11:37:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | GelFusion: Enhancing Robotic Manipulation under Visual Constraints via Visuotactile Fusion はコメントを受け付けていません

AdaWorld: Learning Adaptable World Models with Latent Actions

要約

世界モデルは、アクション制御された将来の予測を学ぶことを目指しており、インテリジェントエージェントの開発に不可欠であることが証明されています。
ただし、ほとんどの既存の世界モデルは、実質的なアクションラベルデータとコストのかかるトレーニングに大きく依存しているため、限られた相互作用を通じて異種のアクションを備えた新しい環境に適応することが困難です。
この制限は、より広いドメイン全体の適用性を妨げる可能性があります。
この制限を克服するために、効率的な適応を可能にする革新的な世界モデル学習アプローチであるAdaworldを提案します。
重要なアイデアは、世界モデルの事前削除中にアクション情報を組み込むことです。
これは、ビデオから潜在的なアクションを自己監視する方法で抽出し、フレーム間で最も重要な遷移をキャプチャすることによって達成されます。
次に、これらの潜在的なアクションを条件とする自己回帰の世界モデルを開発します。
この学習パラダイムは、高度に適応性のある世界モデルを可能にし、限られた相互作用や微調整でも効率的な転送と新しい行動の学習を促進します。
複数の環境にわたる当社の包括的な実験は、Adaworldがシミュレーション品質と視覚計画の両方で優れたパフォーマンスを達成することを示しています。

要約(オリジナル)

World models aim to learn action-controlled future prediction and have proven essential for the development of intelligent agents. However, most existing world models rely heavily on substantial action-labeled data and costly training, making it challenging to adapt to novel environments with heterogeneous actions through limited interactions. This limitation can hinder their applicability across broader domains. To overcome this limitation, we propose AdaWorld, an innovative world model learning approach that enables efficient adaptation. The key idea is to incorporate action information during the pretraining of world models. This is achieved by extracting latent actions from videos in a self-supervised manner, capturing the most critical transitions between frames. We then develop an autoregressive world model that conditions on these latent actions. This learning paradigm enables highly adaptable world models, facilitating efficient transfer and learning of new actions even with limited interactions and finetuning. Our comprehensive experiments across multiple environments demonstrate that AdaWorld achieves superior performance in both simulation quality and visual planning.

arxiv情報

著者 Shenyuan Gao,Siyuan Zhou,Yilun Du,Jun Zhang,Chuang Gan
発行日 2025-05-12 12:09:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | AdaWorld: Learning Adaptable World Models with Latent Actions はコメントを受け付けていません

Average-Reward Maximum Entropy Reinforcement Learning for Global Policy in Double Pendulum Tasks

要約

このレポートは、AcrobotとPendubotのスイングアップおよび安定化タスクの強化学習ベースのアプローチを提示します。これは、ICRA 2025での第3 AIオリンピックの更新されたガイドラインに特化したものです。
大規模なシミュレーションは、コントローラーがこれらの改訂されたタスクを堅牢に管理し、更新されたフレームワーク内で適応性と有効性を実証することを検証します。

要約(オリジナル)

This report presents our reinforcement learning-based approach for the swing-up and stabilisation tasks of the acrobot and pendubot, tailored specifcially to the updated guidelines of the 3rd AI Olympics at ICRA 2025. Building upon our previously developed Average-Reward Entropy Advantage Policy Optimization (AR-EAPO) algorithm, we refined our solution to effectively address the new competition scenarios and evaluation metrics. Extensive simulations validate that our controller robustly manages these revised tasks, demonstrating adaptability and effectiveness within the updated framework.

arxiv情報

著者 Jean Seong Bjorn Choe,Bumkyu Choi,Jong-kook Kim
発行日 2025-05-12 12:53:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Average-Reward Maximum Entropy Reinforcement Learning for Global Policy in Double Pendulum Tasks はコメントを受け付けていません

On rapid parallel tuning of controllers of a swarm of MAVs — distribution strategies of the updated gains

要約

このホワイトペーパーでは、基本的な感覚データを使用して、マイクロ航空車両(MAV)の群れを調整するための信頼性が高く、スケーラブルな時間決定論的なモデルフリーの手順を提示します。
並列チューニングを活用するための2つのアプローチが表示されます。
第一に、測定のノイズの負の効果を減らすために、同一の利益で群れから報告されたパフォーマンスインデックスに基づいて、結果の平均化との調整。
第二に、チューニング時間を短縮するために、群れ全体のさまざまなゲインセットの並列テストによるチューニング。
提示された方法は、シミュレーションと実世界の実験の両方で評価されました。
達成された結果は、チューニング時間を短縮しながらチューニングの結果を改善するための提案されたアプローチの能力を示し、同時に信頼できるチューニングメカニズムを確保します。

要約(オリジナル)

In this paper, we present a reliable, scalable, time deterministic, model-free procedure to tune swarms of Micro Aerial Vehicles (MAVs) using basic sensory data. Two approaches to taking advantage of parallel tuning are presented. First, the tuning with averaging of the results on the basis of performance indices reported from the swarm with identical gains to decrease the negative effect of the noise in the measurements. Second, the tuning with parallel testing of varying set of gains across the swarm to reduce the tuning time. The presented methods were evaluated both in simulation and real-world experiments. The achieved results show the ability of the proposed approach to improve the results of the tuning while decreasing the tuning time, ensuring at the same time a reliable tuning mechanism.

arxiv情報

著者 Dariusz Horla,Wojciech Giernacki,Vít Krátký,Petr Štibinger,Tomáš Báča,Martin Saska
発行日 2025-05-12 13:06:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | On rapid parallel tuning of controllers of a swarm of MAVs — distribution strategies of the updated gains はコメントを受け付けていません

Heterogeneous Multi-robot Task Allocation for Long-Endurance Missions in Dynamic Scenarios

要約

動的シナリオで長期延滞ミッションを実行する不均一なチームで、マルチロボットタスク割り当て(MRTA)のフレームワークを提示します。
特に空中車両のロボットの限られたバッテリーを考えると、ロボット充電と特定のタスクの断片化や中継の可能性が可能になります。
また、協調的な方法でロボットの連合によって実行されなければならないタスクにも対処します。
これらの機能を考えると、理論的に分析し、混合整数線形プログラムとして最適に定式化する不均一なMRTA問題の新しいクラスを導入します。
次に、Heuristic Algorithmを提供して、おおよそのソリューションを計算し、計画をオンラインで修理または再構築することにより、予期しないイベントに対応できるミッション計画および実行アーキテクチャに統合します。
実験結果は、航空ロボットを使用した現実的なユースケースにおける新たに定式化された問題の関連性を示しています。
他のバリエーションと比較して、小規模シナリオでの正確な最適なソリューションと比較して、ヒューリスティックソルバーのパフォーマンスを評価します。
さらに、オンラインで計画を修復する繰り返しフレームワークの能力を評価します。

要約(オリジナル)

We present a framework for Multi-Robot Task Allocation (MRTA) in heterogeneous teams performing long-endurance missions in dynamic scenarios. Given the limited battery of robots, especially for aerial vehicles, we allow for robot recharges and the possibility of fragmenting and/or relaying certain tasks. We also address tasks that must be performed by a coalition of robots in a coordinated manner. Given these features, we introduce a new class of heterogeneous MRTA problems which we analyze theoretically and optimally formulate as a Mixed-Integer Linear Program. We then contribute a heuristic algorithm to compute approximate solutions and integrate it into a mission planning and execution architecture capable of reacting to unexpected events by repairing or recomputing plans online. Our experimental results show the relevance of our newly formulated problem in a realistic use case for inspection with aerial robots. We assess the performance of our heuristic solver in comparison with other variants and with exact optimal solutions in small-scale scenarios. In addition, we evaluate the ability of our replanning framework to repair plans online.

arxiv情報

著者 Alvaro Calvo,Jesus Capitan
発行日 2025-05-12 13:14:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Heterogeneous Multi-robot Task Allocation for Long-Endurance Missions in Dynamic Scenarios はコメントを受け付けていません