Parameter Optimization of Optical Six-Axis Force/Torque Sensor for Legged Robots

要約

このペーパーでは、コンパクトで軽量の脚のあるロボットに合わせた新しい6軸力/トルクセンサーを紹介します。
従来のひずみゲージベースのセンサーとは異なり、提案されている非接触設計はフォトカプラーを採用し、物理的影響に対する耐性を高め、損傷リスクを軽減します。
このアプローチは、製造を簡素化し、コストを削減し、小さなサイズ、軽量、幅広い力の測定範囲を組み合わせることにより、脚のロボットの需要を満たします。
センサーパラメーターを最適化するための方法も提示され、感度の最大化とエラーの最小化に焦点を当てています。
目的関数の正確なモデリングと分析により、最適な設計パラメーターの導出が可能になりました。
センサーのパフォーマンスは、広範なテストと四足ロボットへの統合を通じて検証され、理論モデリングとの整合性を示しました。
センサーの正確な測定機能により、特にロボットの足と地面との相互作用の分析において、多様なロボット環境に適しています。
このイノベーションは、ロボット工学とセンサー技術の進歩に貢献しながら、既存のセンサーの制限に対処し、ロボットシステムの将来のアプリケーションへの道を開いています。

要約(オリジナル)

This paper introduces a novel six-axis force/torque sensor tailored for compact and lightweight legged robots. Unlike traditional strain gauge-based sensors, the proposed non-contact design employs photocouplers, enhancing resistance to physical impacts and reducing damage risk. This approach simplifies manufacturing, lowers costs, and meets the demands of legged robots by combining small size, light weight, and a wide force measurement range. A methodology for optimizing sensor parameters is also presented, focusing on maximizing sensitivity and minimizing error. Precise modeling and analysis of objective functions enabled the derivation of optimal design parameters. The sensor’s performance was validated through extensive testing and integration into quadruped robots, demonstrating alignment with theoretical modeling. The sensor’s precise measurement capabilities make it suitable for diverse robotic environments, particularly in analyzing interactions between robot feet and the ground. This innovation addresses existing sensor limitations while contributing to advancements in robotics and sensor technology, paving the way for future applications in robotic systems.

arxiv情報

著者 Hyun-Bin Kim,Byeong-Il Ham,Keun-Ha Choi,Kyung-Soo Kim
発行日 2025-02-11 02:39:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Parameter Optimization of Optical Six-Axis Force/Torque Sensor for Legged Robots はコメントを受け付けていません

VolleyBots: A Testbed for Multi-Drone Volleyball Game Combining Motion Control and Strategic Play

要約

マルチエージェント補強学習(MARL)は、制御されているが挑戦的なシナリオでのアルゴリズムの体系的な評価を可能にする専門的なテストベッドの開発によって大幅に促進されています。
ただし、既存のテストベッドは、多くの場合、純粋に仮想シミュレーションまたはロボットアーム、四足動物、ヒューマノイドなどの限られたロボットの形態に焦点を当てており、ドローンのような現実世界の物理的制約を備えた高モビリティプラットフォームを残します。
このギャップを埋めるために、複数のドローンが協力し、物理的なダイナミクスの下でバレーボールのスポーツで競争する新しいMarlテストベッドであるバレーボットを紹介します。
バレーボットは、バレーボールルールの下でターンベースの相互作用モデル、モーションコントロールと戦略的プレイを組み合わせた階層的な意思決定プロセス、シームレスなSIMからリアルへの転送のための高忠実度シミュレーションを特徴としています。
シングルドローンドリルからマルチドローン協同組合および競争の激しいタスクに至るまでの包括的なタスクを提供し、Marl代表とゲーム理論アルゴリズムのベースライン評価を伴います。
シミュレーションの結果では、既存のアルゴリズムは単純なタスクを効果的に処理しますが、低レベルの制御と高レベルの戦略の両方を必要とする複雑なタスクで困難に遭遇することが示されています。
さらに、シミュレーションを学んだポリシーのゼロショット展開を実際のドローンに示し、アジャイルロボットプラットフォームを含むMARL研究を推進するバレーボットの可能性を強調しています。
プロジェクトページはhttps://sites.google.com/view/thu-volleybots/homeにあります。

要約(オリジナル)

Multi-agent reinforcement learning (MARL) has made significant progress, largely fueled by the development of specialized testbeds that enable systematic evaluation of algorithms in controlled yet challenging scenarios. However, existing testbeds often focus on purely virtual simulations or limited robot morphologies such as robotic arms, quadrupeds, and humanoids, leaving high-mobility platforms with real-world physical constraints like drones underexplored. To bridge this gap, we present VolleyBots, a new MARL testbed where multiple drones cooperate and compete in the sport of volleyball under physical dynamics. VolleyBots features a turn-based interaction model under volleyball rules, a hierarchical decision-making process that combines motion control and strategic play, and a high-fidelity simulation for seamless sim-to-real transfer. We provide a comprehensive suite of tasks ranging from single-drone drills to multi-drone cooperative and competitive tasks, accompanied by baseline evaluations of representative MARL and game-theoretic algorithms. Results in simulation show that while existing algorithms handle simple tasks effectively, they encounter difficulty in complex tasks that require both low-level control and high-level strategy. We further demonstrate zero-shot deployment of a simulation-learned policy to real-world drones, highlighting VolleyBots’ potential to propel MARL research involving agile robotic platforms. The project page is at https://sites.google.com/view/thu-volleybots/home.

arxiv情報

著者 Zelai Xu,Chao Yu,Ruize Zhang,Huining Yuan,Xiangmin Yi,Shilong Ji,Chuqi Wang,Wenhao Tang,Yu Wang
発行日 2025-02-11 03:00:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | VolleyBots: A Testbed for Multi-Drone Volleyball Game Combining Motion Control and Strategic Play はコメントを受け付けていません

From Foresight to Forethought: VLM-In-the-Loop Policy Steering via Latent Alignment

要約

生成的ロボットポリシーは、デモンストレーションから複雑でマルチモーダルの行動を学習することに大きな可能性を示していますが、展開時間には依然として多様な障害を示しています。
ポリシーステアリングは、外部検証剤を使用して不完全な生成ポリシーによって提案された低レベルのアクションから選択することにより、失敗の可能性を減らすためのエレガントなソリューションを提供します。
ここでは、Vision Language Model(VLM)を検証剤として使用し、オープンワールドの推論機能を活用することを望んでいます。
ただし、既製のVLMは、VLMがトレーニングされたテキストと画像とは根本的に異なる表現されているため、低レベルのロボットアクションの結果を理解するのに苦労しています。
これに対応して、ランタイムポリシーステアリングのオープンボキャブラリー検証剤としてのVLMの可能性を解き放つための新しいフレームワークであるForewarnを提案します。
私たちの重要なアイデアは、VLMの行動結果(先見性)を評価(先見の明)を予測するという負担を切り離すことです。
先見の明の場合、潜在的な世界モデルを活用して、多様な低レベルのアクションプランが与えられた将来の潜在状態を想像します。
先見の明のあるために、VLMをこれらの予測される潜在状態と並べて、そのネイティブ表現(自然言語)における行動の結果について推論し、提案された計画を効果的にフィルタリングします。
多様なロボット操作タスクを介したフレームワークを検証し、代表的なギャップを橋渡しし、堅牢で一般化可能なポリシーステアリングを提供する能力を実証します。
ビデオはプロジェクトWebサイト:https://yilin-wu98.github.io/forewarn/にあります。

要約(オリジナル)

While generative robot policies have demonstrated significant potential in learning complex, multimodal behaviors from demonstrations, they still exhibit diverse failures at deployment-time. Policy steering offers an elegant solution to reducing the chance of failure by using an external verifier to select from low-level actions proposed by an imperfect generative policy. Here, one might hope to use a Vision Language Model (VLM) as a verifier, leveraging its open-world reasoning capabilities. However, off-the-shelf VLMs struggle to understand the consequences of low-level robot actions as they are represented fundamentally differently than the text and images the VLM was trained on. In response, we propose FOREWARN, a novel framework to unlock the potential of VLMs as open-vocabulary verifiers for runtime policy steering. Our key idea is to decouple the VLM’s burden of predicting action outcomes (foresight) from evaluation (forethought). For foresight, we leverage a latent world model to imagine future latent states given diverse low-level action plans. For forethought, we align the VLM with these predicted latent states to reason about the consequences of actions in its native representation–natural language–and effectively filter proposed plans. We validate our framework across diverse robotic manipulation tasks, demonstrating its ability to bridge representational gaps and provide robust, generalizable policy steering. Videos can be found on the project website: https://yilin-wu98.github.io/forewarn/.

arxiv情報

著者 Yilin Wu,Ran Tian,Gokul Swamy,Andrea Bajcsy
発行日 2025-02-11 03:00:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | From Foresight to Forethought: VLM-In-the-Loop Policy Steering via Latent Alignment はコメントを受け付けていません

HAMSTER: Hierarchical Action Models For Open-World Robot Manipulation

要約

大規模な基礎モデルは、ビジョンと言語の複雑な問題に対して強いオープンワールドの一般化を示していますが、ロボット工学では同様のレベルの一般化はまだ達成されていません。
根本的な課題の1つは、ロボットデータの欠如です。これは、通常、高価なオンロボット操作によって得られます。
有望な救済策は、アクションフリーのビデオ、手描きのスケッチ、シミュレーションデータなど、より安価でドメイン外のデータを活用することです。
この作業では、階層的なビジョン言語アクション(VLA)モデルは、アクションを予測するために視覚言語モデル(VLM)を直接微調整する標準的なモノリシックVLAモデルよりも、オフドメインデータの利用においてより効果的であると仮定します。
特に、階層的なVLAモデルのクラスを研究します。高レベルのVLMは、RGB画像とタスクの説明を与えられた目的のロボットエンドエフェクター軌道を示す粗い2Dパスを生成するように微調整されています。
その後、中間の2Dパス予測は、正確な操作が可能な低レベルの3D認識制御ポリシーへのガイダンスとして提供されます。
そうすることで、複雑なタスクレベルの推論に対する低レベルのポリシーの負担を軽減しながら、高レベルのVLMを細かいアクション予測から軽減します。
階層設計により、高レベルのVLMは、具体化、ダイナミクス、視覚的外観、タスクセマンティクスなどの違いを含む、ドメイン外の微調整データとレアルロボットテストシナリオの間の重要なドメインギャップを横切って転送できることを示しています。
実際の実験では、OpenVLA上の7つの異なる一般化の軸にわたって成功率が平均20%改善され、50%の相対的なゲインを表しています。
視覚的な結果は、https://hamster-robot.github.io/に提供されています

要約(オリジナル)

Large foundation models have shown strong open-world generalization to complex problems in vision and language, but similar levels of generalization have yet to be achieved in robotics. One fundamental challenge is the lack of robotic data, which are typically obtained through expensive on-robot operation. A promising remedy is to leverage cheaper, off-domain data such as action-free videos, hand-drawn sketches or simulation data. In this work, we posit that hierarchical vision-language-action (VLA) models can be more effective in utilizing off-domain data than standard monolithic VLA models that directly finetune vision-language models (VLMs) to predict actions. In particular, we study a class of hierarchical VLA models, where the high-level VLM is finetuned to produce a coarse 2D path indicating the desired robot end-effector trajectory given an RGB image and a task description. The intermediate 2D path prediction is then served as guidance to the low-level, 3D-aware control policy capable of precise manipulation. Doing so alleviates the high-level VLM from fine-grained action prediction, while reducing the low-level policy’s burden on complex task-level reasoning. We show that, with the hierarchical design, the high-level VLM can transfer across significant domain gaps between the off-domain finetuning data and real-robot testing scenarios, including differences on embodiments, dynamics, visual appearances and task semantics, etc. In the real-robot experiments, we observe an average of 20% improvement in success rate across seven different axes of generalization over OpenVLA, representing a 50% relative gain. Visual results are provided at: https://hamster-robot.github.io/

arxiv情報

著者 Yi Li,Yuquan Deng,Jesse Zhang,Joel Jang,Marius Memme,Raymond Yu,Caelan Reed Garrett,Fabio Ramos,Dieter Fox,Anqi Li,Abhishek Gupta,Ankit Goyal
発行日 2025-02-11 03:49:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO | HAMSTER: Hierarchical Action Models For Open-World Robot Manipulation はコメントを受け付けていません

Beyond Confidence: Adaptive Abstention in Dual-Threshold Conformal Prediction for Autonomous System Perception

要約

安全性の高い認識システムには、信頼できる不確実性の定量化と、さまざまな運用条件下で安全性を維持するための原則的な棄権メカニズムの両方が必要です。
統計的に保証された不確実性の推定値を提供しながら、リスクの高いシナリオで選択的な予測を可能にする新しいデュアル閾値立体化フレームワークを提示します。
私たちのアプローチは、正当な予測を特定しながら、分布のないカバレッジ保証(\ ge 1 – \ alpha)を提供しながら、ROC分析を通じて最適化された棄権のしきい値を保証する有効な予測セットを確保するコンフォーマルしきい値を一意に組み合わせています。
CIFAR-100、ImagENET1K、およびModelNet40データセットの包括的な評価を通じて、さまざまな環境摂動の下でカメラとライダーモダリティ全体で優れた堅牢性を示します。
このフレームワークは、環境の重大度としての高いカバレッジ(> 90.0 \%)を維持し、適応棄権(13.5 \%\%\ PM0.5)を環境の重症度として維持し、環境の重症度として適応的棄権(> 90.0 \%)を維持しながら、厳しい条件下で、例外的な検出パフォーマンス(AUC:0.993 \ to0.995)を達成します。
増加します。
LIDARベースの認識の場合、私たちのアプローチは特に強力なパフォーマンスを示し、堅牢なカバレッジ(> 84.5 \%)を維持しながら、信頼できない予測を適切に控えています。
特に、このフレームワークは、重い摂動の下で顕著な安定性を示しており、検出性能(AUC:0.995 \ PM0.001)がすべてのモダリティにわたって既存の方法を大幅に上回っています。
統一されたアプローチは、理論的保証と実用的な展開ニーズの間のギャップを橋渡しし、挑戦的な現実世界の条件で動作する安全性クリティカルな自律システムに堅牢なソリューションを提供します。

要約(オリジナル)

Safety-critical perception systems require both reliable uncertainty quantification and principled abstention mechanisms to maintain safety under diverse operational conditions. We present a novel dual-threshold conformalization framework that provides statistically-guaranteed uncertainty estimates while enabling selective prediction in high-risk scenarios. Our approach uniquely combines a conformal threshold ensuring valid prediction sets with an abstention threshold optimized through ROC analysis, providing distribution-free coverage guarantees (\ge 1 – \alpha) while identifying unreliable predictions. Through comprehensive evaluation on CIFAR-100, ImageNet1K, and ModelNet40 datasets, we demonstrate superior robustness across camera and LiDAR modalities under varying environmental perturbations. The framework achieves exceptional detection performance (AUC: 0.993\to0.995) under severe conditions while maintaining high coverage (>90.0\%) and enabling adaptive abstention (13.5\%\to63.4\%\pm0.5) as environmental severity increases. For LiDAR-based perception, our approach demonstrates particularly strong performance, maintaining robust coverage (>84.5\%) while appropriately abstaining from unreliable predictions. Notably, the framework shows remarkable stability under heavy perturbations, with detection performance (AUC: 0.995\pm0.001) significantly outperforming existing methods across all modalities. Our unified approach bridges the gap between theoretical guarantees and practical deployment needs, offering a robust solution for safety-critical autonomous systems operating in challenging real-world conditions.

arxiv情報

著者 Divake Kumar,Nastaran Darabi,Sina Tayebati,Amit Ranjan Trivedi
発行日 2025-02-11 04:45:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | Beyond Confidence: Adaptive Abstention in Dual-Threshold Conformal Prediction for Autonomous System Perception はコメントを受け付けていません

Action-Free Reasoning for Policy Generalization

要約

エンドツーエンドの模倣学習は、ロボットポリシーをトレーニングするための有望なアプローチを提供します。
ただし、新しい設定への一般化は依然として大きな課題です。
大規模なロボットデモンストレーションデータセットは、一般化を誘導する可能性を示していますが、それらは拡張するためにリソース集約型です。
対照的に、人間のビデオデータは豊富で多様であり、魅力的な選択肢を提示します。
しかし、これらのヒューマンビデオデータセットにはアクションラベルがなく、模倣学習での使用を複雑にしています。
既存の方法は、接地されたアクション表現(例:ハンドポーズ)を抽出しようとしますが、結果として生じるポリシーは、人間とロボットのアクションの間の具体化のギャップを埋めるのに苦労しています。
別のアプローチを提案します。一般化可能なロボットポリシーをトレーニングするためにロボットアクションを導くための人間のビデオからの言語ベースの推論を活用します。
推論ベースのポリシーアーキテクチャの最近の進歩に基づいて、アクションフリーデータ(RAD)を通じて推論を紹介します。
Radは、ロボットデモデータ(推論とアクションラベルを使用)とアクションフリーのヒューマンビデオデータ(推論ラベルのみを使用)の両方から学習します。
ロボットデータは、モデルに推論を低レベルのアクションにマッピングするように教え、一方、アクションフリーのデータは推論機能を強化します。
さらに、ブリッジV2ベ​​ンチマークと互換性のある推論注釈を備えた3,377の人間のハンドデモの新しいデータセットをリリースし、推論主導型のロボット学習に関する将来の研究を促進することを目的としています。
私たちの実験は、RADが具体化のギャップを越えて効果的な転送を可能にし、ロボットがアクションのないデータでのみ見られるタスクを実行できることを示しています。
さらに、アクションフリーの推論データを拡大すると、新しいタスクに対するポリシーのパフォーマンスと一般化が大幅に向上します。
これらの結果は、一般化可能なロボット制御を進めるためのアクションフリーデータセットからの推論主導型の学習の約束を強調しています。
プロジェクトページ:https://rad-generalization.github.io

要約(オリジナル)

End-to-end imitation learning offers a promising approach for training robot policies. However, generalizing to new settings remains a significant challenge. Although large-scale robot demonstration datasets have shown potential for inducing generalization, they are resource-intensive to scale. In contrast, human video data is abundant and diverse, presenting an attractive alternative. Yet, these human-video datasets lack action labels, complicating their use in imitation learning. Existing methods attempt to extract grounded action representations (e.g., hand poses), but resulting policies struggle to bridge the embodiment gap between human and robot actions. We propose an alternative approach: leveraging language-based reasoning from human videos-essential for guiding robot actions-to train generalizable robot policies. Building on recent advances in reasoning-based policy architectures, we introduce Reasoning through Action-free Data (RAD). RAD learns from both robot demonstration data (with reasoning and action labels) and action-free human video data (with only reasoning labels). The robot data teaches the model to map reasoning to low-level actions, while the action-free data enhances reasoning capabilities. Additionally, we will release a new dataset of 3,377 human-hand demonstrations with reasoning annotations compatible with the Bridge V2 benchmark and aimed at facilitating future research on reasoning-driven robot learning. Our experiments show that RAD enables effective transfer across the embodiment gap, allowing robots to perform tasks seen only in action-free data. Furthermore, scaling up action-free reasoning data significantly improves policy performance and generalization to novel tasks. These results highlight the promise of reasoning-driven learning from action-free datasets for advancing generalizable robot control. Project page: https://rad-generalization.github.io

arxiv情報

著者 Jaden Clark,Suvir Mirchandani,Dorsa Sadigh,Suneel Belkhale
発行日 2025-02-11 04:51:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Action-Free Reasoning for Policy Generalization はコメントを受け付けていません

Leader-follower formation enabled by pressure sensing in free-swimming undulatory robotic fish

要約

魚は側面を使用して流れや圧力勾配を感知し、近くのオブジェクトや生物を検出できるようにします。
この能力の複製に向けて、波打つロボット魚($ \ mu $ bot/mubot)の流れ圧センシングを使用して、成功したリーダーフォロワー層水泳を実証しました。
フォロワー$ \ mu $ボットには、頭に両側圧力センサーが装備されており、独自の動きとリーダーの動きの両方に励起された信号を検出します。
第一に、波打つリーダーと静止したフォロワーの間に静的な形成の実験を使用して、フォロワーによって測定された強い圧力変動をもたらす形成を決定しました。
このフォーメーションは、専門家のポリシーを取得するために、自由水泳の望ましいフォーメーションとして選択されました。
次に、ロボットモーターコマンドとオイラーアングル(オンボードIMUで測定)とともに、ステアリングコマンドに加えて、圧力信号をマッピングする制御ポリシーとして長い短期メモリニューラルネットワークが使用されました。
このポリシーは、行動のクローニングとデータセット集約(短剣)を使用して専門家のポリシーを模倣するように訓練されました。
結果は、155 mm/s(= 0.8の速度で泳いでいる間、フォロワーが最大200 mm(= 1体長)の距離内でリーダーを効果的に追跡したことを示しています。
体の長さ/s)。
この作業は、魚に触発されたロボットが流体環境を効果的にナビゲートし、流れ圧力フィードバックを使用して泳ぐ層を達成する可能性を強調しています。

要約(オリジナル)

Fish use their lateral lines to sense flows and pressure gradients, enabling them to detect nearby objects and organisms. Towards replicating this capability, we demonstrated successful leader-follower formation swimming using flow pressure sensing in our undulatory robotic fish ($\mu$Bot/MUBot). The follower $\mu$Bot is equipped at its head with bilateral pressure sensors to detect signals excited by both its own and the leader’s movements. First, using experiments with static formations between an undulating leader and a stationary follower, we determined the formation that resulted in strong pressure variations measured by the follower. This formation was then selected as the desired formation in free swimming for obtaining an expert policy. Next, a long short-term memory neural network was used as the control policy that maps the pressure signals along with the robot motor commands and the Euler angles (measured by the onboard IMU) to the steering command. The policy was trained to imitate the expert policy using behavior cloning and Dataset Aggregation (DAgger). The results show that with merely two bilateral pressure sensors and less than one hour of training data, the follower effectively tracked the leader within distances of up to 200 mm (= 1 body length) while swimming at speeds of 155 mm/s (= 0.8 body lengths/s). This work highlights the potential of fish-inspired robots to effectively navigate fluid environments and achieve formation swimming through the use of flow pressure feedback.

arxiv情報

著者 Kundan Panta,Hankun Deng,Micah DeLattre,Bo Cheng
発行日 2025-02-11 05:56:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Leader-follower formation enabled by pressure sensing in free-swimming undulatory robotic fish はコメントを受け付けていません

Robot Navigation in Unknown and Cluttered Workspace with Dynamical System Modulation in Starshaped Roadmap

要約

楕円またはポリゴンを使用して自由空間を表現する従来の分解方法と比較して、星型の表現はセンサーデータの自然な分布をよりよくキャプチャでき、それによりトラバー可能な空間の大部分を活用できます。
このペーパーでは、動的に構築された星空のロードマップを使用して、未知で乱雑な環境でロボットをナビゲートするための新しいモーションプランニングおよび制御フレームワークを紹介します。
私たちのアプローチは、ピースワイズの多項式を使用して、リアルタイムセンサーデータから周囲の自由空間の星型の表現を生成します。
さらに、接続情報を維持する増分ロードマップが構築され、検索アルゴリズムがこのロードマップで短期目標を効率的に選択します。
重要なことに、このフレームワークは、グラフの更新メカニズムを備えた行き止まりの状況に対処します。
星空のロードマップ内の安全で効率的な動きを確保するために、動的システム変調(DSM)に基づいたリアクティブコントローラーを提案します。
このコントローラーは、星空の領域とその交差点内の滑らかな動きを促進し、保守的で近視の動作を避け、システムが未知の乱雑で乱雑な環境で複雑な障害物構成を処理できるようにします。
シミュレーションと実世界の実験の両方における包括的な評価は、提案された方法が他の方法と比較してより高い成功率と旅行時間の短縮を達成することを示しています。
複雑な障害物構成を効果的に管理し、保守的および近視の行動を避けます。

要約(オリジナル)

Compared to conventional decomposition methods that use ellipses or polygons to represent free space, starshaped representation can better capture the natural distribution of sensor data, thereby exploiting a larger portion of traversable space. This paper introduces a novel motion planning and control framework for navigating robots in unknown and cluttered environments using a dynamically constructed starshaped roadmap. Our approach generates a starshaped representation of the surrounding free space from real-time sensor data using piece-wise polynomials. Additionally, an incremental roadmap maintaining the connectivity information is constructed, and a searching algorithm efficiently selects short-term goals on this roadmap. Importantly, this framework addresses dead-end situations with a graph updating mechanism. To ensure safe and efficient movement within the starshaped roadmap, we propose a reactive controller based on Dynamic System Modulation (DSM). This controller facilitates smooth motion within starshaped regions and their intersections, avoiding conservative and short-sighted behaviors and allowing the system to handle intricate obstacle configurations in unknown and cluttered environments. Comprehensive evaluations in both simulations and real-world experiments show that the proposed method achieves higher success rates and reduced travel times compared to other methods. It effectively manages intricate obstacle configurations, avoiding conservative and myopic behaviors.

arxiv情報

著者 Kai Chen,Haichao Liu,Yulin Li,Jianghua Duan,Lei Zhu,Jun Ma
発行日 2025-02-11 06:18:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Robot Navigation in Unknown and Cluttered Workspace with Dynamical System Modulation in Starshaped Roadmap はコメントを受け付けていません

TRAVEL: Training-Free Retrieval and Alignment for Vision-and-Language Navigation

要約

この作業では、最先端の大型言語モデル(LLM)とビジョン言語モデル(VLMSを使用する4つのサブモジュールに問題を分解することにより、Vision-Language Navigation(VLN)タスクのモジュラーアプローチを提案します。
)ゼロショット設定で。
自然言語でのナビゲーション指示を考えると、最初にLLMにランドマークと訪問の順序を抽出するように促します。
環境の既知のモデルを仮定すると、最後のランドマークのトップKの場所を取得し、環境のトポロジマップで最も短いパスアルゴリズムを使用して、開始場所から最後のランドマークへの$ K $パス仮説を生成します。
各パス仮説は、一連のパノラマで表されます。
次に、動的プログラミングを使用して、パノラマのシーケンスとVLMから得られたスコアに一致するランドマーク名のシーケンス間のアライメントスコアを計算します。
最後に、パスの忠実度を評価するために最高のアライメントスコアを生成する仮説の間にNDTWメトリックを計算します。
複雑なR2R-Habitat \ Cite {R2R}命令データセットでVLMAPS \ Cite {VlMaps}などのジョイントセマンティックマップを使用する他のアプローチと比較して、優れたパフォーマンスを実証し、ナビゲーションパフォーマンスに対する視覚的接地の効果を詳細に定量化します。

要約(オリジナル)

In this work, we propose a modular approach for the Vision-Language Navigation (VLN) task by decomposing the problem into four sub-modules that use state-of-the-art Large Language Models (LLMs) and Vision-Language Models (VLMs) in a zero-shot setting. Given navigation instruction in natural language, we first prompt LLM to extract the landmarks and the order in which they are visited. Assuming the known model of the environment, we retrieve the top-k locations of the last landmark and generate $k$ path hypotheses from the starting location to the last landmark using the shortest path algorithm on the topological map of the environment. Each path hypothesis is represented by a sequence of panoramas. We then use dynamic programming to compute the alignment score between the sequence of panoramas and the sequence of landmark names, which match scores obtained from VLM. Finally, we compute the nDTW metric between the hypothesis that yields the highest alignment score to evaluate the path fidelity. We demonstrate superior performance compared to other approaches that use joint semantic maps like VLMaps \cite{vlmaps} on the complex R2R-Habitat \cite{r2r} instruction dataset and quantify in detail the effect of visual grounding on navigation performance.

arxiv情報

著者 Navid Rajabi,Jana Kosecka
発行日 2025-02-11 07:09:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.RO | TRAVEL: Training-Free Retrieval and Alignment for Vision-and-Language Navigation はコメントを受け付けていません

The Combined Problem of Online Task Assignment and Lifelong Path Finding in Logistics Warehouses: A Case Study

要約

オンラインタスクの割り当てと生涯のパス発見の問題を組み合わせた問題を調査します。これは、物流業界にとって重要です。
ただし、ほとんどの文献は、(1)特定のタスク割り当て者を仮定して生涯のパスを見つけることに焦点を当てているか、(2)タスクが事前に知られているこの問題のオフラインバージョンを研究しています。
システムスループットを最大化するには、これら2つのコンポーネントを統合するオンラインバージョンに直接取り組む必要があると主張します。
この目的のために、問題とそのソリューションの概念の正式なフレームワークを紹介します。
次に、局所的な混雑を伴う環境でもうまく機能する実用的なロボットモデルの下で、ルールベースの生涯プランナーを設計します。
その結果、基礎となるパスプランナーに関してタスクアサイカーの検索を自動化します。
中国最大のショッピングプラットフォームの1つである\ textit {meituan}の倉庫シナリオで実施されたシミュレーション実験は、(a)〜\ textit {時間効率の観点から}、私たちのシステムは必要な実行時間の83.77%のみを必要としていることを示しています。
Meituanで現在展開されているシステムの場合、8.09 \%で他のSotaアルゴリズムを上回っています。
(b)〜\ textit {経済効率の観点から}、私たちのものは、現在使用中のエージェントの60%だけで同じスループットを達成できます。

要約(オリジナル)

We study the combined problem of online task assignment and lifelong path finding, which is crucial for the logistics industries. However, most literature either (1) focuses on lifelong path finding assuming a given task assigner, or (2) studies the offline version of this problem where tasks are known in advance. We argue that, to maximize the system throughput, the online version that integrates these two components should be tackled directly. To this end, we introduce a formal framework of the combined problem and its solution concept. Then, we design a rule-based lifelong planner under a practical robot model that works well even in environments with severe local congestion. Upon that, we automate the search for the task assigner with respect to the underlying path planner. Simulation experiments conducted in warehouse scenarios at \textit{Meituan}, one of the largest shopping platforms in China, demonstrate that (a)~\textit{in terms of time efficiency}, our system requires only 83.77\% of the execution time needed for the currently deployed system at Meituan, outperforming other SOTA algorithms by 8.09\%; (b)~\textit{in terms of economic efficiency}, ours can achieve the same throughput with only 60\% of the agents currently in use.

arxiv情報

著者 Fengming Zhu,Fangzhen Lin,Weijia Xu,Yifei Guo
発行日 2025-02-11 07:51:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.MA, cs.RO | The Combined Problem of Online Task Assignment and Lifelong Path Finding in Logistics Warehouses: A Case Study はコメントを受け付けていません