From Foresight to Forethought: VLM-In-the-Loop Policy Steering via Latent Alignment

要約

生成的ロボットポリシーは、デモンストレーションから複雑でマルチモーダルの行動を学習することに大きな可能性を示していますが、展開時間には依然として多様な障害を示しています。
ポリシーステアリングは、外部検証剤を使用して不完全な生成ポリシーによって提案された低レベルのアクションから選択することにより、失敗の可能性を減らすためのエレガントなソリューションを提供します。
ここでは、Vision Language Model(VLM)を検証剤として使用し、オープンワールドの推論機能を活用することを望んでいます。
ただし、既製のVLMは、VLMがトレーニングされたテキストと画像とは根本的に異なる表現されているため、低レベルのロボットアクションの結果を理解するのに苦労しています。
これに対応して、ランタイムポリシーステアリングのオープンボキャブラリー検証剤としてのVLMの可能性を解き放つための新しいフレームワークであるForewarnを提案します。
私たちの重要なアイデアは、VLMの行動結果(先見性)を評価(先見の明)を予測するという負担を切り離すことです。
先見の明の場合、潜在的な世界モデルを活用して、多様な低レベルのアクションプランが与えられた将来の潜在状態を想像します。
先見の明のあるために、VLMをこれらの予測される潜在状態と並べて、そのネイティブ表現(自然言語)における行動の結果について推論し、提案された計画を効果的にフィルタリングします。
多様なロボット操作タスクを介したフレームワークを検証し、代表的なギャップを橋渡しし、堅牢で一般化可能なポリシーステアリングを提供する能力を実証します。
ビデオはプロジェクトWebサイト:https://yilin-wu98.github.io/forewarn/にあります。

要約(オリジナル)

While generative robot policies have demonstrated significant potential in learning complex, multimodal behaviors from demonstrations, they still exhibit diverse failures at deployment-time. Policy steering offers an elegant solution to reducing the chance of failure by using an external verifier to select from low-level actions proposed by an imperfect generative policy. Here, one might hope to use a Vision Language Model (VLM) as a verifier, leveraging its open-world reasoning capabilities. However, off-the-shelf VLMs struggle to understand the consequences of low-level robot actions as they are represented fundamentally differently than the text and images the VLM was trained on. In response, we propose FOREWARN, a novel framework to unlock the potential of VLMs as open-vocabulary verifiers for runtime policy steering. Our key idea is to decouple the VLM’s burden of predicting action outcomes (foresight) from evaluation (forethought). For foresight, we leverage a latent world model to imagine future latent states given diverse low-level action plans. For forethought, we align the VLM with these predicted latent states to reason about the consequences of actions in its native representation–natural language–and effectively filter proposed plans. We validate our framework across diverse robotic manipulation tasks, demonstrating its ability to bridge representational gaps and provide robust, generalizable policy steering. Videos can be found on the project website: https://yilin-wu98.github.io/forewarn/.

arxiv情報

著者 Yilin Wu,Ran Tian,Gokul Swamy,Andrea Bajcsy
発行日 2025-02-11 03:00:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | From Foresight to Forethought: VLM-In-the-Loop Policy Steering via Latent Alignment はコメントを受け付けていません

HAMSTER: Hierarchical Action Models For Open-World Robot Manipulation

要約

大規模な基礎モデルは、ビジョンと言語の複雑な問題に対して強いオープンワールドの一般化を示していますが、ロボット工学では同様のレベルの一般化はまだ達成されていません。
根本的な課題の1つは、ロボットデータの欠如です。これは、通常、高価なオンロボット操作によって得られます。
有望な救済策は、アクションフリーのビデオ、手描きのスケッチ、シミュレーションデータなど、より安価でドメイン外のデータを活用することです。
この作業では、階層的なビジョン言語アクション(VLA)モデルは、アクションを予測するために視覚言語モデル(VLM)を直接微調整する標準的なモノリシックVLAモデルよりも、オフドメインデータの利用においてより効果的であると仮定します。
特に、階層的なVLAモデルのクラスを研究します。高レベルのVLMは、RGB画像とタスクの説明を与えられた目的のロボットエンドエフェクター軌道を示す粗い2Dパスを生成するように微調整されています。
その後、中間の2Dパス予測は、正確な操作が可能な低レベルの3D認識制御ポリシーへのガイダンスとして提供されます。
そうすることで、複雑なタスクレベルの推論に対する低レベルのポリシーの負担を軽減しながら、高レベルのVLMを細かいアクション予測から軽減します。
階層設計により、高レベルのVLMは、具体化、ダイナミクス、視覚的外観、タスクセマンティクスなどの違いを含む、ドメイン外の微調整データとレアルロボットテストシナリオの間の重要なドメインギャップを横切って転送できることを示しています。
実際の実験では、OpenVLA上の7つの異なる一般化の軸にわたって成功率が平均20%改善され、50%の相対的なゲインを表しています。
視覚的な結果は、https://hamster-robot.github.io/に提供されています

要約(オリジナル)

Large foundation models have shown strong open-world generalization to complex problems in vision and language, but similar levels of generalization have yet to be achieved in robotics. One fundamental challenge is the lack of robotic data, which are typically obtained through expensive on-robot operation. A promising remedy is to leverage cheaper, off-domain data such as action-free videos, hand-drawn sketches or simulation data. In this work, we posit that hierarchical vision-language-action (VLA) models can be more effective in utilizing off-domain data than standard monolithic VLA models that directly finetune vision-language models (VLMs) to predict actions. In particular, we study a class of hierarchical VLA models, where the high-level VLM is finetuned to produce a coarse 2D path indicating the desired robot end-effector trajectory given an RGB image and a task description. The intermediate 2D path prediction is then served as guidance to the low-level, 3D-aware control policy capable of precise manipulation. Doing so alleviates the high-level VLM from fine-grained action prediction, while reducing the low-level policy’s burden on complex task-level reasoning. We show that, with the hierarchical design, the high-level VLM can transfer across significant domain gaps between the off-domain finetuning data and real-robot testing scenarios, including differences on embodiments, dynamics, visual appearances and task semantics, etc. In the real-robot experiments, we observe an average of 20% improvement in success rate across seven different axes of generalization over OpenVLA, representing a 50% relative gain. Visual results are provided at: https://hamster-robot.github.io/

arxiv情報

著者 Yi Li,Yuquan Deng,Jesse Zhang,Joel Jang,Marius Memme,Raymond Yu,Caelan Reed Garrett,Fabio Ramos,Dieter Fox,Anqi Li,Abhishek Gupta,Ankit Goyal
発行日 2025-02-11 03:49:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO | HAMSTER: Hierarchical Action Models For Open-World Robot Manipulation はコメントを受け付けていません

Beyond Confidence: Adaptive Abstention in Dual-Threshold Conformal Prediction for Autonomous System Perception

要約

安全性の高い認識システムには、信頼できる不確実性の定量化と、さまざまな運用条件下で安全性を維持するための原則的な棄権メカニズムの両方が必要です。
統計的に保証された不確実性の推定値を提供しながら、リスクの高いシナリオで選択的な予測を可能にする新しいデュアル閾値立体化フレームワークを提示します。
私たちのアプローチは、正当な予測を特定しながら、分布のないカバレッジ保証(\ ge 1 – \ alpha)を提供しながら、ROC分析を通じて最適化された棄権のしきい値を保証する有効な予測セットを確保するコンフォーマルしきい値を一意に組み合わせています。
CIFAR-100、ImagENET1K、およびModelNet40データセットの包括的な評価を通じて、さまざまな環境摂動の下でカメラとライダーモダリティ全体で優れた堅牢性を示します。
このフレームワークは、環境の重大度としての高いカバレッジ(> 90.0 \%)を維持し、適応棄権(13.5 \%\%\ PM0.5)を環境の重症度として維持し、環境の重症度として適応的棄権(> 90.0 \%)を維持しながら、厳しい条件下で、例外的な検出パフォーマンス(AUC:0.993 \ to0.995)を達成します。
増加します。
LIDARベースの認識の場合、私たちのアプローチは特に強力なパフォーマンスを示し、堅牢なカバレッジ(> 84.5 \%)を維持しながら、信頼できない予測を適切に控えています。
特に、このフレームワークは、重い摂動の下で顕著な安定性を示しており、検出性能(AUC:0.995 \ PM0.001)がすべてのモダリティにわたって既存の方法を大幅に上回っています。
統一されたアプローチは、理論的保証と実用的な展開ニーズの間のギャップを橋渡しし、挑戦的な現実世界の条件で動作する安全性クリティカルな自律システムに堅牢なソリューションを提供します。

要約(オリジナル)

Safety-critical perception systems require both reliable uncertainty quantification and principled abstention mechanisms to maintain safety under diverse operational conditions. We present a novel dual-threshold conformalization framework that provides statistically-guaranteed uncertainty estimates while enabling selective prediction in high-risk scenarios. Our approach uniquely combines a conformal threshold ensuring valid prediction sets with an abstention threshold optimized through ROC analysis, providing distribution-free coverage guarantees (\ge 1 – \alpha) while identifying unreliable predictions. Through comprehensive evaluation on CIFAR-100, ImageNet1K, and ModelNet40 datasets, we demonstrate superior robustness across camera and LiDAR modalities under varying environmental perturbations. The framework achieves exceptional detection performance (AUC: 0.993\to0.995) under severe conditions while maintaining high coverage (>90.0\%) and enabling adaptive abstention (13.5\%\to63.4\%\pm0.5) as environmental severity increases. For LiDAR-based perception, our approach demonstrates particularly strong performance, maintaining robust coverage (>84.5\%) while appropriately abstaining from unreliable predictions. Notably, the framework shows remarkable stability under heavy perturbations, with detection performance (AUC: 0.995\pm0.001) significantly outperforming existing methods across all modalities. Our unified approach bridges the gap between theoretical guarantees and practical deployment needs, offering a robust solution for safety-critical autonomous systems operating in challenging real-world conditions.

arxiv情報

著者 Divake Kumar,Nastaran Darabi,Sina Tayebati,Amit Ranjan Trivedi
発行日 2025-02-11 04:45:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | Beyond Confidence: Adaptive Abstention in Dual-Threshold Conformal Prediction for Autonomous System Perception はコメントを受け付けていません

Action-Free Reasoning for Policy Generalization

要約

エンドツーエンドの模倣学習は、ロボットポリシーをトレーニングするための有望なアプローチを提供します。
ただし、新しい設定への一般化は依然として大きな課題です。
大規模なロボットデモンストレーションデータセットは、一般化を誘導する可能性を示していますが、それらは拡張するためにリソース集約型です。
対照的に、人間のビデオデータは豊富で多様であり、魅力的な選択肢を提示します。
しかし、これらのヒューマンビデオデータセットにはアクションラベルがなく、模倣学習での使用を複雑にしています。
既存の方法は、接地されたアクション表現(例:ハンドポーズ)を抽出しようとしますが、結果として生じるポリシーは、人間とロボットのアクションの間の具体化のギャップを埋めるのに苦労しています。
別のアプローチを提案します。一般化可能なロボットポリシーをトレーニングするためにロボットアクションを導くための人間のビデオからの言語ベースの推論を活用します。
推論ベースのポリシーアーキテクチャの最近の進歩に基づいて、アクションフリーデータ(RAD)を通じて推論を紹介します。
Radは、ロボットデモデータ(推論とアクションラベルを使用)とアクションフリーのヒューマンビデオデータ(推論ラベルのみを使用)の両方から学習します。
ロボットデータは、モデルに推論を低レベルのアクションにマッピングするように教え、一方、アクションフリーのデータは推論機能を強化します。
さらに、ブリッジV2ベ​​ンチマークと互換性のある推論注釈を備えた3,377の人間のハンドデモの新しいデータセットをリリースし、推論主導型のロボット学習に関する将来の研究を促進することを目的としています。
私たちの実験は、RADが具体化のギャップを越えて効果的な転送を可能にし、ロボットがアクションのないデータでのみ見られるタスクを実行できることを示しています。
さらに、アクションフリーの推論データを拡大すると、新しいタスクに対するポリシーのパフォーマンスと一般化が大幅に向上します。
これらの結果は、一般化可能なロボット制御を進めるためのアクションフリーデータセットからの推論主導型の学習の約束を強調しています。
プロジェクトページ:https://rad-generalization.github.io

要約(オリジナル)

End-to-end imitation learning offers a promising approach for training robot policies. However, generalizing to new settings remains a significant challenge. Although large-scale robot demonstration datasets have shown potential for inducing generalization, they are resource-intensive to scale. In contrast, human video data is abundant and diverse, presenting an attractive alternative. Yet, these human-video datasets lack action labels, complicating their use in imitation learning. Existing methods attempt to extract grounded action representations (e.g., hand poses), but resulting policies struggle to bridge the embodiment gap between human and robot actions. We propose an alternative approach: leveraging language-based reasoning from human videos-essential for guiding robot actions-to train generalizable robot policies. Building on recent advances in reasoning-based policy architectures, we introduce Reasoning through Action-free Data (RAD). RAD learns from both robot demonstration data (with reasoning and action labels) and action-free human video data (with only reasoning labels). The robot data teaches the model to map reasoning to low-level actions, while the action-free data enhances reasoning capabilities. Additionally, we will release a new dataset of 3,377 human-hand demonstrations with reasoning annotations compatible with the Bridge V2 benchmark and aimed at facilitating future research on reasoning-driven robot learning. Our experiments show that RAD enables effective transfer across the embodiment gap, allowing robots to perform tasks seen only in action-free data. Furthermore, scaling up action-free reasoning data significantly improves policy performance and generalization to novel tasks. These results highlight the promise of reasoning-driven learning from action-free datasets for advancing generalizable robot control. Project page: https://rad-generalization.github.io

arxiv情報

著者 Jaden Clark,Suvir Mirchandani,Dorsa Sadigh,Suneel Belkhale
発行日 2025-02-11 04:51:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Action-Free Reasoning for Policy Generalization はコメントを受け付けていません

Leader-follower formation enabled by pressure sensing in free-swimming undulatory robotic fish

要約

魚は側面を使用して流れや圧力勾配を感知し、近くのオブジェクトや生物を検出できるようにします。
この能力の複製に向けて、波打つロボット魚($ \ mu $ bot/mubot)の流れ圧センシングを使用して、成功したリーダーフォロワー層水泳を実証しました。
フォロワー$ \ mu $ボットには、頭に両側圧力センサーが装備されており、独自の動きとリーダーの動きの両方に励起された信号を検出します。
第一に、波打つリーダーと静止したフォロワーの間に静的な形成の実験を使用して、フォロワーによって測定された強い圧力変動をもたらす形成を決定しました。
このフォーメーションは、専門家のポリシーを取得するために、自由水泳の望ましいフォーメーションとして選択されました。
次に、ロボットモーターコマンドとオイラーアングル(オンボードIMUで測定)とともに、ステアリングコマンドに加えて、圧力信号をマッピングする制御ポリシーとして長い短期メモリニューラルネットワークが使用されました。
このポリシーは、行動のクローニングとデータセット集約(短剣)を使用して専門家のポリシーを模倣するように訓練されました。
結果は、155 mm/s(= 0.8の速度で泳いでいる間、フォロワーが最大200 mm(= 1体長)の距離内でリーダーを効果的に追跡したことを示しています。
体の長さ/s)。
この作業は、魚に触発されたロボットが流体環境を効果的にナビゲートし、流れ圧力フィードバックを使用して泳ぐ層を達成する可能性を強調しています。

要約(オリジナル)

Fish use their lateral lines to sense flows and pressure gradients, enabling them to detect nearby objects and organisms. Towards replicating this capability, we demonstrated successful leader-follower formation swimming using flow pressure sensing in our undulatory robotic fish ($\mu$Bot/MUBot). The follower $\mu$Bot is equipped at its head with bilateral pressure sensors to detect signals excited by both its own and the leader’s movements. First, using experiments with static formations between an undulating leader and a stationary follower, we determined the formation that resulted in strong pressure variations measured by the follower. This formation was then selected as the desired formation in free swimming for obtaining an expert policy. Next, a long short-term memory neural network was used as the control policy that maps the pressure signals along with the robot motor commands and the Euler angles (measured by the onboard IMU) to the steering command. The policy was trained to imitate the expert policy using behavior cloning and Dataset Aggregation (DAgger). The results show that with merely two bilateral pressure sensors and less than one hour of training data, the follower effectively tracked the leader within distances of up to 200 mm (= 1 body length) while swimming at speeds of 155 mm/s (= 0.8 body lengths/s). This work highlights the potential of fish-inspired robots to effectively navigate fluid environments and achieve formation swimming through the use of flow pressure feedback.

arxiv情報

著者 Kundan Panta,Hankun Deng,Micah DeLattre,Bo Cheng
発行日 2025-02-11 05:56:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Leader-follower formation enabled by pressure sensing in free-swimming undulatory robotic fish はコメントを受け付けていません

Robot Navigation in Unknown and Cluttered Workspace with Dynamical System Modulation in Starshaped Roadmap

要約

楕円またはポリゴンを使用して自由空間を表現する従来の分解方法と比較して、星型の表現はセンサーデータの自然な分布をよりよくキャプチャでき、それによりトラバー可能な空間の大部分を活用できます。
このペーパーでは、動的に構築された星空のロードマップを使用して、未知で乱雑な環境でロボットをナビゲートするための新しいモーションプランニングおよび制御フレームワークを紹介します。
私たちのアプローチは、ピースワイズの多項式を使用して、リアルタイムセンサーデータから周囲の自由空間の星型の表現を生成します。
さらに、接続情報を維持する増分ロードマップが構築され、検索アルゴリズムがこのロードマップで短期目標を効率的に選択します。
重要なことに、このフレームワークは、グラフの更新メカニズムを備えた行き止まりの状況に対処します。
星空のロードマップ内の安全で効率的な動きを確保するために、動的システム変調(DSM)に基づいたリアクティブコントローラーを提案します。
このコントローラーは、星空の領域とその交差点内の滑らかな動きを促進し、保守的で近視の動作を避け、システムが未知の乱雑で乱雑な環境で複雑な障害物構成を処理できるようにします。
シミュレーションと実世界の実験の両方における包括的な評価は、提案された方法が他の方法と比較してより高い成功率と旅行時間の短縮を達成することを示しています。
複雑な障害物構成を効果的に管理し、保守的および近視の行動を避けます。

要約(オリジナル)

Compared to conventional decomposition methods that use ellipses or polygons to represent free space, starshaped representation can better capture the natural distribution of sensor data, thereby exploiting a larger portion of traversable space. This paper introduces a novel motion planning and control framework for navigating robots in unknown and cluttered environments using a dynamically constructed starshaped roadmap. Our approach generates a starshaped representation of the surrounding free space from real-time sensor data using piece-wise polynomials. Additionally, an incremental roadmap maintaining the connectivity information is constructed, and a searching algorithm efficiently selects short-term goals on this roadmap. Importantly, this framework addresses dead-end situations with a graph updating mechanism. To ensure safe and efficient movement within the starshaped roadmap, we propose a reactive controller based on Dynamic System Modulation (DSM). This controller facilitates smooth motion within starshaped regions and their intersections, avoiding conservative and short-sighted behaviors and allowing the system to handle intricate obstacle configurations in unknown and cluttered environments. Comprehensive evaluations in both simulations and real-world experiments show that the proposed method achieves higher success rates and reduced travel times compared to other methods. It effectively manages intricate obstacle configurations, avoiding conservative and myopic behaviors.

arxiv情報

著者 Kai Chen,Haichao Liu,Yulin Li,Jianghua Duan,Lei Zhu,Jun Ma
発行日 2025-02-11 06:18:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Robot Navigation in Unknown and Cluttered Workspace with Dynamical System Modulation in Starshaped Roadmap はコメントを受け付けていません

TRAVEL: Training-Free Retrieval and Alignment for Vision-and-Language Navigation

要約

この作業では、最先端の大型言語モデル(LLM)とビジョン言語モデル(VLMSを使用する4つのサブモジュールに問題を分解することにより、Vision-Language Navigation(VLN)タスクのモジュラーアプローチを提案します。
)ゼロショット設定で。
自然言語でのナビゲーション指示を考えると、最初にLLMにランドマークと訪問の順序を抽出するように促します。
環境の既知のモデルを仮定すると、最後のランドマークのトップKの場所を取得し、環境のトポロジマップで最も短いパスアルゴリズムを使用して、開始場所から最後のランドマークへの$ K $パス仮説を生成します。
各パス仮説は、一連のパノラマで表されます。
次に、動的プログラミングを使用して、パノラマのシーケンスとVLMから得られたスコアに一致するランドマーク名のシーケンス間のアライメントスコアを計算します。
最後に、パスの忠実度を評価するために最高のアライメントスコアを生成する仮説の間にNDTWメトリックを計算します。
複雑なR2R-Habitat \ Cite {R2R}命令データセットでVLMAPS \ Cite {VlMaps}などのジョイントセマンティックマップを使用する他のアプローチと比較して、優れたパフォーマンスを実証し、ナビゲーションパフォーマンスに対する視覚的接地の効果を詳細に定量化します。

要約(オリジナル)

In this work, we propose a modular approach for the Vision-Language Navigation (VLN) task by decomposing the problem into four sub-modules that use state-of-the-art Large Language Models (LLMs) and Vision-Language Models (VLMs) in a zero-shot setting. Given navigation instruction in natural language, we first prompt LLM to extract the landmarks and the order in which they are visited. Assuming the known model of the environment, we retrieve the top-k locations of the last landmark and generate $k$ path hypotheses from the starting location to the last landmark using the shortest path algorithm on the topological map of the environment. Each path hypothesis is represented by a sequence of panoramas. We then use dynamic programming to compute the alignment score between the sequence of panoramas and the sequence of landmark names, which match scores obtained from VLM. Finally, we compute the nDTW metric between the hypothesis that yields the highest alignment score to evaluate the path fidelity. We demonstrate superior performance compared to other approaches that use joint semantic maps like VLMaps \cite{vlmaps} on the complex R2R-Habitat \cite{r2r} instruction dataset and quantify in detail the effect of visual grounding on navigation performance.

arxiv情報

著者 Navid Rajabi,Jana Kosecka
発行日 2025-02-11 07:09:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.RO | TRAVEL: Training-Free Retrieval and Alignment for Vision-and-Language Navigation はコメントを受け付けていません

The Combined Problem of Online Task Assignment and Lifelong Path Finding in Logistics Warehouses: A Case Study

要約

オンラインタスクの割り当てと生涯のパス発見の問題を組み合わせた問題を調査します。これは、物流業界にとって重要です。
ただし、ほとんどの文献は、(1)特定のタスク割り当て者を仮定して生涯のパスを見つけることに焦点を当てているか、(2)タスクが事前に知られているこの問題のオフラインバージョンを研究しています。
システムスループットを最大化するには、これら2つのコンポーネントを統合するオンラインバージョンに直接取り組む必要があると主張します。
この目的のために、問題とそのソリューションの概念の正式なフレームワークを紹介します。
次に、局所的な混雑を伴う環境でもうまく機能する実用的なロボットモデルの下で、ルールベースの生涯プランナーを設計します。
その結果、基礎となるパスプランナーに関してタスクアサイカーの検索を自動化します。
中国最大のショッピングプラットフォームの1つである\ textit {meituan}の倉庫シナリオで実施されたシミュレーション実験は、(a)〜\ textit {時間効率の観点から}、私たちのシステムは必要な実行時間の83.77%のみを必要としていることを示しています。
Meituanで現在展開されているシステムの場合、8.09 \%で他のSotaアルゴリズムを上回っています。
(b)〜\ textit {経済効率の観点から}、私たちのものは、現在使用中のエージェントの60%だけで同じスループットを達成できます。

要約(オリジナル)

We study the combined problem of online task assignment and lifelong path finding, which is crucial for the logistics industries. However, most literature either (1) focuses on lifelong path finding assuming a given task assigner, or (2) studies the offline version of this problem where tasks are known in advance. We argue that, to maximize the system throughput, the online version that integrates these two components should be tackled directly. To this end, we introduce a formal framework of the combined problem and its solution concept. Then, we design a rule-based lifelong planner under a practical robot model that works well even in environments with severe local congestion. Upon that, we automate the search for the task assigner with respect to the underlying path planner. Simulation experiments conducted in warehouse scenarios at \textit{Meituan}, one of the largest shopping platforms in China, demonstrate that (a)~\textit{in terms of time efficiency}, our system requires only 83.77\% of the execution time needed for the currently deployed system at Meituan, outperforming other SOTA algorithms by 8.09\%; (b)~\textit{in terms of economic efficiency}, ours can achieve the same throughput with only 60\% of the agents currently in use.

arxiv情報

著者 Fengming Zhu,Fangzhen Lin,Weijia Xu,Yifei Guo
発行日 2025-02-11 07:51:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.MA, cs.RO | The Combined Problem of Online Task Assignment and Lifelong Path Finding in Logistics Warehouses: A Case Study はコメントを受け付けていません

SymbioSim: Human-in-the-loop Simulation Platform for Bidirectional Continuing Learning in Human-Robot Interaction

要約

インテリジェントロボットの発展は、それらを人間の世界にシームレスに統合し、日常生活と仕事に支援と交際を提供し、人間のロボット共生を達成するという究極の目標を提供しようとしています。
このビジョンを実現するには、ロボットは人間との一貫した相互作用とコラボレーションを通じて継続的に学習し、進化する必要がありますが、人間は共有された経験を通じてロボットの理解と信頼を徐々に開発する必要があります。
ただし、物理ロボットのトレーニングとテストのアルゴリズムには、かなりのコストと安全リスクが含まれます。
さらに、現在のロボットシミュレーターは、真の人間の参加をサポートすることができず、本物の相互作用体験を提供し、貴重な人間のフィードバックを収集する能力を制限しています。
このペーパーでは、人間とロボットの相互作用の安全で効率的な開発、評価、最適化を可能にするために設計された、ループ内のロボットシミュレーションプラットフォームである新しいSymbiosimを紹介します。
慎重に設計されたシステムアーキテクチャとモジュールを活用することにより、Symbiosimは自然で現実的な相互作用体験を提供し、人間とロボットの両方の双方向の継続的な学習と適応を促進します。
広範な実験とユーザー研究は、プラットフォームの有望なパフォーマンスを実証し、人間のロボット共生に関する研究を大幅に進める可能性を強調しています。

要約(オリジナル)

The development of intelligent robots seeks to seamlessly integrate them into the human world, providing assistance and companionship in daily life and work, with the ultimate goal of achieving human-robot symbiosis. To realize this vision, robots must continuously learn and evolve through consistent interaction and collaboration with humans, while humans need to gradually develop an understanding of and trust in robots through shared experiences. However, training and testing algorithms directly on physical robots involve substantial costs and safety risks. Moreover, current robotic simulators fail to support real human participation, limiting their ability to provide authentic interaction experiences and gather valuable human feedback. In this paper, we introduce SymbioSim, a novel human-in-the-loop robotic simulation platform designed to enable the safe and efficient development, evaluation, and optimization of human-robot interactions. By leveraging a carefully designed system architecture and modules, SymbioSim delivers a natural and realistic interaction experience, facilitating bidirectional continuous learning and adaptation for both humans and robots. Extensive experiments and user studies demonstrate the platform’s promising performance and highlight its potential to significantly advance research on human-robot symbiosis.

arxiv情報

著者 Haoran Chen,Yiteng Xu,Yiming Ren,Yaoqin Ye,Xinran Li,Ning Ding,Peishan Cong,Ziyi Wang,Bushi Liu,Yuhan Chen,Zhiyang Dou,Xiaokun Leng,Manyi Li,Yuexin Ma,Changhe Tu
発行日 2025-02-11 08:29:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | SymbioSim: Human-in-the-loop Simulation Platform for Bidirectional Continuing Learning in Human-Robot Interaction はコメントを受け付けていません

Socially Pertinent Robots in Gerontological Healthcare

要約

ソーシャルロボット工学の開発と展開における最近の多くの成果にもかかわらず、エンドユーザーによるそのようなシステムの体系的な評価が必要である多くの未脱カッティング環境とアプリケーションがまだ必要です。
いくつかのロボットプラットフォームが老年医学ヘルスケアで使用されていますが、マルチモーダルの会話機能を備えたソーシャルインタラクティブロボットが有用であり、実際の施設で受け入れられるかどうかの問題はまだ答えられていません。
この論文は、社会的および会話的相互作用能力を備えたフルサイズのヒューマノイドロボットを備えたパリのデイケア老人科施設で、患者と仲間との2つの波の実験を介して、この質問に部分的に答える試みです。
H2020 Springプロジェクト中に開発されたソフトウェアアーキテクチャは、実験プロトコルとともに、60を超えるエンドユーザーで許容性(AES)と使いやすさ(SUS)を評価することができました。
全体として、特にロボットの認識とアクションスキルが環境の乱れに堅牢であり、さまざまな相互作用を処理するために柔軟に対処できる場合、ユーザーはこのテクノロジーを受け入れます。

要約(オリジナル)

Despite the many recent achievements in developing and deploying social robotics, there are still many underexplored environments and applications for which systematic evaluation of such systems by end-users is necessary. While several robotic platforms have been used in gerontological healthcare, the question of whether or not a social interactive robot with multi-modal conversational capabilities will be useful and accepted in real-life facilities is yet to be answered. This paper is an attempt to partially answer this question, via two waves of experiments with patients and companions in a day-care gerontological facility in Paris with a full-sized humanoid robot endowed with social and conversational interaction capabilities. The software architecture, developed during the H2020 SPRING project, together with the experimental protocol, allowed us to evaluate the acceptability (AES) and usability (SUS) with more than 60 end-users. Overall, the users are receptive to this technology, especially when the robot perception and action skills are robust to environmental clutter and flexible to handle a plethora of different interactions.

arxiv情報

著者 Xavier Alameda-Pineda,Angus Addlesee,Daniel Hernández García,Chris Reinke,Soraya Arias,Federica Arrigoni,Alex Auternaud,Lauriane Blavette,Cigdem Beyan,Luis Gomez Camara,Ohad Cohen,Alessandro Conti,Sébastien Dacunha,Christian Dondrup,Yoav Ellinson,Francesco Ferro,Sharon Gannot,Florian Gras,Nancie Gunson,Radu Horaud,Moreno D’Incà,Imad Kimouche,Séverin Lemaignan,Oliver Lemon,Cyril Liotard,Luca Marchionni,Mordehay Moradi,Tomas Pajdla,Maribel Pino,Michal Polic,Matthieu Py,Ariel Rado,Bin Ren,Elisa Ricci,Anne-Sophie Rigaud,Paolo Rota,Marta Romeo,Nicu Sebe,Weronika Sieińska,Pinchas Tandeitnik,Francesco Tonini,Nicolas Turro,Timothée Wintz,Yanchao Yu
発行日 2025-02-11 08:32:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Socially Pertinent Robots in Gerontological Healthcare はコメントを受け付けていません