HMR-ODTA: Online Diverse Task Allocation for a Team of Heterogeneous Mobile Robots

要約

病院のような環境での時間に敏感な配達を調整すると、特に異種ロボットのチームを使用して厳密な時間窓内で複数のオンラインピックアップと配信リクエストを管理する場合、複雑な課題が発生します。
従来のアプローチでは、動的な再スケジュールまたは多様なサービス要件に対処できず、通常、ロボットをシングルタスクタイプに制限しています。
このペーパーでは、自動運用モバイルロボットがさまざまなサービスリクエストを処理できるタイムウィンドウ(MPDPTW)のマルチピックアップと配信の問題に取り組んでいます。
目的は、タスクの完了率を最大化しながら、遅延配送の罰則を最小限に抑えることです。
これを達成するために、不均一なロボットチームを活用する新しいフレームワークと、動的タスクの再スケジュールをサポートする効率的な動的スケジューリングアルゴリズムを提案します。
ユーザーは、特定の時間制約を伴うリクエストを送信し、分散型アルゴリズムであるHeteraus Mobile Robots Online Diverse Diverse Allocation(HMR-ODTA)は、タスクの割り当てを最適化して、遅延やタスクの拒否に対処しながらタイムリーなサービスを確保します。
広範なシミュレーションは、アルゴリズムの有効性を検証します。
小さいタスクセット(40〜160タスク)の場合、ペナルティはほぼ63%減少しましたが、より大きなセット(160〜280タスク)の場合、ペナルティは約50%減少しました。
これらの結果は、マルチロボットシステムのタスクスケジューリングと調整を改善する際のアルゴリズムの有効性を強調し、構造化された時間批判環境での配信パフォーマンスを向上させるための堅牢なソリューションを提供します。

要約(オリジナル)

Coordinating time-sensitive deliveries in environments like hospitals poses a complex challenge, particularly when managing multiple online pickup and delivery requests within strict time windows using a team of heterogeneous robots. Traditional approaches fail to address dynamic rescheduling or diverse service requirements, typically restricting robots to single-task types. This paper tackles the Multi-Pickup and Delivery Problem with Time Windows (MPDPTW), where autonomous mobile robots are capable of handling varied service requests. The objective is to minimize late delivery penalties while maximizing task completion rates. To achieve this, we propose a novel framework leveraging a heterogeneous robot team and an efficient dynamic scheduling algorithm that supports dynamic task rescheduling. Users submit requests with specific time constraints, and our decentralized algorithm, Heterogeneous Mobile Robots Online Diverse Task Allocation (HMR-ODTA), optimizes task assignments to ensure timely service while addressing delays or task rejections. Extensive simulations validate the algorithm’s effectiveness. For smaller task sets (40-160 tasks), penalties were reduced by nearly 63%, while for larger sets (160-280 tasks), penalties decreased by approximately 50%. These results highlight the algorithm’s effectiveness in improving task scheduling and coordination in multi-robot systems, offering a robust solution for enhancing delivery performance in structured, time-critical environments.

arxiv情報

著者 Ashish Verma,Avinash Gautam,Tanishq Duhan,V. S. Shekhawat,Sudeept Mohan
発行日 2025-05-13 10:22:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | HMR-ODTA: Online Diverse Task Allocation for a Team of Heterogeneous Mobile Robots はコメントを受け付けていません

DexVLA: Vision-Language Model with Plug-In Diffusion Expert for General Robot Control

要約

ロボットがさまざまな環境で多様なタスクを実行できるようにすることは、ロボット学習の中心的な課題です。
Vision-Language-action(VLA)モデルは、一般化可能なロボットスキルの有望を示していますが、彼らの潜在能力を最大限に発揮するには、アクション表現と効率的なトレーニングの制限に対処する必要があります。
現在のVLAモデルは、多くの場合、Vision-Language Model(VLM)コンポーネントのスケーリングに焦点を当てていますが、アクション空間表現は重要なボトルネックのままです。
このペーパーでは、多様なロボットの実施形態全体で複雑で長期のタスクのVLAの効率と一般化能力を強化するために設計された新しいフレームワークであるDexVLAを紹介します。
DexVLAは、交差体拡散学習用に設計された10億パラメーターに拡大された、新しい拡散ベースのアクションエキスパートを特徴としています。
新しい実施形態カリキュラム学習戦略により、効率的なトレーニングが促進されます。(1)交差体存在データでVLAから分離できる拡散専門家、(2)VLAモデルを特定の実施形態に合わせ、(3)新しいタスクへの迅速な適応のためのトレーニング後のトレーニング。
私たちは、単一腕、二近、および器用な手を含む複数の実施形態にわたって包括的な実験を実施し、タスク固有の適応なしで挑戦的なタスクに対するDexvlaの適応性を実証します。
すべての設定で、私たちの方法は、Octo、OpenVLA、拡散ポリシーなどの最先端のモデルと比較して優れたパフォーマンスを示しています。

要約(オリジナル)

Enabling robots to perform diverse tasks across varied environments is a central challenge in robot learning. While vision-language-action (VLA) models have shown promise for generalizable robot skills, realizing their full potential requires addressing limitations in action representation and efficient training. Current VLA models often focus on scaling the vision-language model (VLM) component, while the action space representation remains a critical bottleneck. This paper introduces DexVLA, a novel framework designed to enhance the efficiency and generalization capabilities of VLAs for complex, long-horizon tasks across diverse robot embodiments. DexVLA features a novel diffusion-based action expert, scaled to one billion parameters, designed for cross-embodiment learning. A novel embodiment curriculum learning strategy facilitates efficient training: (1) pre-training the diffusion expert that is separable from the VLA on cross-embodiment data, (2) aligning the VLA model to specific embodiments, and (3) post-training for rapid adaptation to new tasks. We conduct comprehensive experiments across multiple embodiments, including single-arm, bimanual, and dexterous hand, demonstrating DexVLA’s adaptability to challenging tasks without task-specific adaptation, its ability to learn dexterous skills on novel embodiments with limited data, and its capacity to complete complex, long-horizon tasks using only direct language prompting, such as laundry folding. In all settings, our method demonstrates superior performance compared to state-of-the-art models like Octo, OpenVLA, and Diffusion Policy.

arxiv情報

著者 Junjie Wen,Yichen Zhu,Jinming Li,Zhibin Tang,Chaomin Shen,Feifei Feng
発行日 2025-05-13 10:55:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | DexVLA: Vision-Language Model with Plug-In Diffusion Expert for General Robot Control はコメントを受け付けていません

TinyVLA: Towards Fast, Data-Efficient Vision-Language-Action Models for Robotic Manipulation

要約

Vision-Language-action(VLA)モデルは、エンドツーエンドの学習プロセスを通じて視覚運動制御と指導の理解において顕著な可能性を示しています。
ただし、現在のVLAモデルは重大な課題に直面しています。推論中は遅く、大量のロボットデータでの広範な事前トレーニングが必要であり、実際の展開が困難になっています。
このホワイトペーパーでは、TinyVLAと呼ばれるコンパクトビジョン言語アクションモデルの新しいファミリーを紹介します。これは、既存のVLAモデルよりも2つの重要な利点を提供します。(1)より速い推論速度、(2)データ効率の向上し、トレーニング前の段階の必要性を排除します。
当社のフレームワークには、TinyVLAを構築するための2つの重要なコンポーネントが組み込まれています。(1)堅牢で高速マルチモーダルモデルでポリシーバックボーンを初期化し、(2)微調整中の拡散ポリシーデコーダーを統合して、正確なロボットアクションを可能にする。
シミュレーションと実際のロボットの両方でTinyVLAの広範な評価を実施し、私たちのアプローチが、速度とデータ効率の点で最先端のVLAモデルであるOpenVLAを大幅に上回り、同等または優れたパフォーマンスを提供することを実証しました。
さらに、TinyVLAは、言語の指示、新しいオブジェクト、目に見えない位置、オブジェクトの外観の変化、背景変動、および環境シフトなど、さまざまな次元にわたって強力な一般化機能を示します。
\ MethodNameは、ポリシー学習のために事前に訓練されたマルチモーダルモデルを利用することに関する興味深い視点を提供すると考えています。
私たちのプロジェクトはhttps://tiny-vla.github.ioにあります。

要約(オリジナル)

Vision-Language-Action (VLA) models have shown remarkable potential in visuomotor control and instruction comprehension through end-to-end learning processes. However, current VLA models face significant challenges: they are slow during inference and require extensive pre-training on large amounts of robotic data, making real-world deployment difficult. In this paper, we introduce a new family of compact vision-language-action models, called TinyVLA, which offers two key advantages over existing VLA models: (1) faster inference speeds, and (2) improved data efficiency, eliminating the need for pre-training stage. Our framework incorporates two essential components to build TinyVLA: (1) initializing the policy backbone with robust, high-speed multimodal models, and (2) integrating a diffusion policy decoder during fine-tuning to enable precise robot actions. We conducted extensive evaluations of TinyVLA in both simulation and on real robots, demonstrating that our approach significantly outperforms the state-of-the-art VLA model, OpenVLA, in terms of speed and data efficiency, while delivering comparable or superior performance. Additionally, TinyVLA exhibits strong generalization capabilities across various dimensions, including language instructions, novel objects, unseen positions, changes in object appearance, background variations, and environmental shifts, often matching or exceeding the performance of OpenVLA. We believe that \methodname offers an interesting perspective on utilizing pre-trained multimodal models for policy learning. Our project is at https://tiny-vla.github.io.

arxiv情報

著者 Junjie Wen,Yichen Zhu,Jinming Li,Minjie Zhu,Kun Wu,Zhiyuan Xu,Ning Liu,Ran Cheng,Chaomin Shen,Yaxin Peng,Feifei Feng,Jian Tang
発行日 2025-05-13 11:02:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | TinyVLA: Towards Fast, Data-Efficient Vision-Language-Action Models for Robotic Manipulation はコメントを受け付けていません

Symbolically-Guided Visual Plan Inference from Uncurated Video Data

要約

視覚的計画は、目標条件付けされた低レベルのポリシーに一連の中間視覚サブゴールを提供することにより、長期操作タスクで有望なパフォーマンスを達成します。
サブゴールを取得するために、既存の方法は通常、ビデオ生成モデルに頼りますが、モデルの幻覚と計算コストに悩まされます。
象徴的なガイダンスを搭載した、効率的で説明可能なホワイトボックスの視覚計画フレームワークであるVis2Planを紹介します。
RAWの非標識プレイデータから、Vis2PlanはVision Foundationモデルをハーネスして、コンパクトなタスクシンボルを自動的に抽出します。
テスト時に、目的のタスク目標を考慮して、プランナーはシンボリックレベルで計画を実施し、基礎となるシンボリック表現に基づいた物理的に一貫した中間サブゴール画像のシーケンスを集めます。
Vis2Planは、Visual Plans 35 $ \ Times $をより速く生成しながら、実際のロボット設定で53%高い総計成功率を提供することにより、強力な拡散ビデオ生成ベースのビジュアルプランナーよりも優れています。
結果は、vis2planが完全に検査可能な推論ステップを提供しながら、物理的に一貫した画像目標を生成できることを示しています。

要約(オリジナル)

Visual planning, by offering a sequence of intermediate visual subgoals to a goal-conditioned low-level policy, achieves promising performance on long-horizon manipulation tasks. To obtain the subgoals, existing methods typically resort to video generation models but suffer from model hallucination and computational cost. We present Vis2Plan, an efficient, explainable and white-box visual planning framework powered by symbolic guidance. From raw, unlabeled play data, Vis2Plan harnesses vision foundation models to automatically extract a compact set of task symbols, which allows building a high-level symbolic transition graph for multi-goal, multi-stage planning. At test time, given a desired task goal, our planner conducts planning at the symbolic level and assembles a sequence of physically consistent intermediate sub-goal images grounded by the underlying symbolic representation. Our Vis2Plan outperforms strong diffusion video generation-based visual planners by delivering 53\% higher aggregate success rate in real robot settings while generating visual plans 35$\times$ faster. The results indicate that Vis2Plan is able to generate physically consistent image goals while offering fully inspectable reasoning steps.

arxiv情報

著者 Wenyan Yang,Ahmet Tikna,Yi Zhao,Yuying Zhang,Luigi Palopoli,Marco Roveri,Joni Pajarinen
発行日 2025-05-13 11:13:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Symbolically-Guided Visual Plan Inference from Uncurated Video Data はコメントを受け付けていません

Parameter Estimation using Reinforcement Learning Causal Curiosity: Limits and Challenges

要約

因果的理解は、科学と工学の多くの分野で重要です。ここでは、システムのさまざまな要因が実験や状況にどのように因果関係に影響し、既存のモデルを効果的または最適化するための道を開くかを理解しようとします。
ユースケースの例は、不明な環境の自律的な調査とモデリング、または大規模な複雑なシステムの最適化における重要な変数の評価です。
この論文では、システムのダイナミクスを因果的に決定する要因の価値を直接測定せずに、可能な限り正確かつ効率的に推定することを目的とする因果好奇心と呼ばれる強化学習アプローチを分析します。
このアイデアは前方の経路を提示しますが、測定精度は方法論の有効性の基礎です。
現在の因果関係の好奇心のロボットマニピュレーターに焦点を当て、この技術の将来のポテンシャルと現在の制限の測定精度分析、およびその感度と交絡因子の解放能力の分析 – 因果分析に重要なことを初めて紹介します。
私たちの仕事の結果として、私たちは、現実世界の複雑なシナリオに適用される因果関係の方法の改善された効率的な設計の提案を促進します。

要約(オリジナル)

Causal understanding is important in many disciplines of science and engineering, where we seek to understand how different factors in the system causally affect an experiment or situation and pave a pathway towards creating effective or optimising existing models. Examples of use cases are autonomous exploration and modelling of unknown environments or assessing key variables in optimising large complex systems. In this paper, we analyse a Reinforcement Learning approach called Causal Curiosity, which aims to estimate as accurately and efficiently as possible, without directly measuring them, the value of factors that causally determine the dynamics of a system. Whilst the idea presents a pathway forward, measurement accuracy is the foundation of methodology effectiveness. Focusing on the current causal curiosity’s robotic manipulator, we present for the first time a measurement accuracy analysis of the future potentials and current limitations of this technique and an analysis of its sensitivity and confounding factor disentanglement capability – crucial for causal analysis. As a result of our work, we promote proposals for an improved and efficient design of Causal Curiosity methods to be applied to real-world complex scenarios.

arxiv情報

著者 Miguel Arana-Catania,Weisi Guo
発行日 2025-05-13 11:30:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | Parameter Estimation using Reinforcement Learning Causal Curiosity: Limits and Challenges はコメントを受け付けていません

Zero-Shot Sim-to-Real Reinforcement Learning for Fruit Harvesting

要約

このペーパーでは、フランカパンダロボットを使用した密なクラスターからの自動イチゴピッキングのための包括的なSIM-to-Realパイプラインを紹介します。
当社のアプローチは、ドメインランダム化手法を統合するカスタムMujocoシミュレーション環境を活用しています。
この環境では、休眠比最小化アルゴリズムを使用して、深い補強学習エージェントが訓練されています。
提案されたパイプラインブリッジは、高レベルの認識と意思決定を伴う低レベルの制御を行い、シミュレーションと実際の実験室環境の両方で有望なパフォーマンスを示し、現実世界の自律的な果物の収穫への転送を成功させるための基礎を築きます。

要約(オリジナル)

This paper presents a comprehensive sim-to-real pipeline for autonomous strawberry picking from dense clusters using a Franka Panda robot. Our approach leverages a custom Mujoco simulation environment that integrates domain randomization techniques. In this environment, a deep reinforcement learning agent is trained using the dormant ratio minimization algorithm. The proposed pipeline bridges low-level control with high-level perception and decision making, demonstrating promising performance in both simulation and in a real laboratory environment, laying the groundwork for successful transfer to real-world autonomous fruit harvesting.

arxiv情報

著者 Emlyn Williams,Athanasios Polydoros
発行日 2025-05-13 11:40:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Zero-Shot Sim-to-Real Reinforcement Learning for Fruit Harvesting はコメントを受け付けていません

Towards Anytime Optical Flow Estimation with Event Cameras

要約

イベントカメラは、ミリ秒レベルでのlog輝度の変化に応答し、光学フローの推定に最適です。
ただし、イベントカメラからの既存のデータセットは、光学フローの低フレームレートグラウンドトゥルースのみを提供し、イベント駆動型の光学フローの研究の可能性を制限します。
この課題に対処するために、低遅延のイベント表現、統一されたボクセルグリッドを導入し、EVA-Flowを提案します。Eva-Flowは、イベントベースのフロー推定ネットワークであり、監督のための低フレームレート光流量のグラウンドトゥルースのみを備えた高フレーム率のイベント光フローを生成します。
さらに、中間光学流量の監視されていない評価のために、整流フローワープ損失(RFWL)を提案します。
MVSEC、DESC、およびEVA-Flowsetに関する包括的なさまざまな実験は、EVA-Flowが競争力のあるパフォーマンス、超低遅延(5MS)、時間密度の高い運動推定(200Hz)、および強力な一般化を達成することを示しています。
私たちのコードは、https://github.com/yaozhuwa/eva-flowで入手できます。

要約(オリジナル)

Event cameras respond to changes in log-brightness at the millisecond level, making them ideal for optical flow estimation. However, existing datasets from event cameras provide only low frame rate ground truth for optical flow, limiting the research potential of event-driven optical flow. To address this challenge, we introduce a low-latency event representation, Unified Voxel Grid, and propose EVA-Flow, an EVent-based Anytime Flow estimation network to produce high-frame-rate event optical flow with only low-frame-rate optical flow ground truth for supervision. Furthermore, we propose the Rectified Flow Warp Loss (RFWL) for the unsupervised assessment of intermediate optical flow. A comprehensive variety of experiments on MVSEC, DESC, and our EVA-FlowSet demonstrates that EVA-Flow achieves competitive performance, super-low-latency (5ms), time-dense motion estimation (200Hz), and strong generalization. Our code will be available at https://github.com/Yaozhuwa/EVA-Flow.

arxiv情報

著者 Yaozu Ye,Hao Shi,Kailun Yang,Ze Wang,Xiaoting Yin,Lei Sun,Yaonan Wang,Kaiwei Wang
発行日 2025-05-13 12:00:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO, eess.IV | Towards Anytime Optical Flow Estimation with Event Cameras はコメントを受け付けていません

Achieving Scalable Robot Autonomy via neurosymbolic planning using lightweight local LLM

要約

PDDLベースのシンボリックタスク計画は、ロボットの自律性にとって極めて重要でありながら、スケーラビリティ、需要の再計画、および計画の可用性の遅延により、動的なヒューマンロボットコラボレーションと闘っています。
いくつかの神経協力的なフレームワークは、これらの課題に対処するためにGPT-3などのLLMを以前に活用していましたが、クローズドソースへの依存、限られたコンテキストを持つリモートモデルは、サードパーティの依存関係、一貫性のない応答時間、制限された計画の長さと複雑さ、マルチドメインのスケーラビリティの問題を導入しました。
Gideonは、コンテキストの長さが拡張されたモダンでより小さい、ローカルLLMへの移行を可能にする新しいフレームワークです。
Gideonは、新しい問題ジェネレーターを統合して、あらゆるドメインに対して現実的なドメインプロムプランタプルの大規模なデータセットを体系的に生成し、ローカルLLMの神経対膜計画を適応させ、マルチドメインサポートのデバイス実行と拡張コンテキストを可能にします。
QWEN-2.5 1.5Bで実行され、8K-32Kサンプルで訓練された単一ドメインシナリオでの予備実験は、66.1%(32Kモデル)の有効な計画パーセンテージを示し、図を追加データを通じてさらに拡大できることを示しています。
16Kサンプルのマルチドメインテストは、さらに70.6%の計画妥当性率をもたらし、ドメイン全体の拡張性を証明し、データの多様性が学習効率にプラスの効果をもたらす可能性があることを示しています。
長老の計画とモデルサイズの削減により、Gideonトレーニングはより大きなLLMSに基づいたベースラインモデルよりもはるかに効率が低下しますが、訓練されたモデルはベースラインよりも約120倍小さいことを考慮して依然として有意です。
トレーニングの非効率性は、Gideonの合理化されたデータ生成パイプラインによって軽減できます。

要約(オリジナル)

PDDL-based symbolic task planning remains pivotal for robot autonomy yet struggles with dynamic human-robot collaboration due to scalability, re-planning demands, and delayed plan availability. Although a few neurosymbolic frameworks have previously leveraged LLMs such as GPT-3 to address these challenges, reliance on closed-source, remote models with limited context introduced critical constraints: third-party dependency, inconsistent response times, restricted plan length and complexity, and multi-domain scalability issues. We present Gideon, a novel framework that enables the transition to modern, smaller, local LLMs with extended context length. Gideon integrates a novel problem generator to systematically generate large-scale datasets of realistic domain-problem-plan tuples for any domain, and adapts neurosymbolic planning for local LLMs, enabling on-device execution and extended context for multi-domain support. Preliminary experiments in single-domain scenarios performed on Qwen-2.5 1.5B and trained on 8k-32k samples, demonstrate a valid plan percentage of 66.1% (32k model) and show that the figure can be further scaled through additional data. Multi-domain tests on 16k samples yield an even higher 70.6% planning validity rate, proving extensibility across domains and signaling that data variety can have a positive effect on learning efficiency. Although long-horizon planning and reduced model size make Gideon training much less efficient than baseline models based on larger LLMs, the results are still significant considering that the trained model is about 120x smaller than baseline and that significant advantages can be achieved in inference efficiency, scalability, and multi-domain adaptability, all critical factors in human-robot collaboration. Training inefficiency can be mitigated by Gideon’s streamlined data generation pipeline.

arxiv情報

著者 Nicholas Attolino,Alessio Capitanelli,Fulvio Mastrogiovanni
発行日 2025-05-13 12:22:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO, I.2.6 | Achieving Scalable Robot Autonomy via neurosymbolic planning using lightweight local LLM はコメントを受け付けていません

Optimization-free Smooth Control Barrier Function for Polygonal Collision Avoidance

要約

多角形の衝突回避(PCA)は、動的方程式を所有する2つのポリゴン(つまり、平面のポリトープ)間の衝突回避の問題の略です。
この問題は、滑らかでない境界を扱うことに固有の難しさに苦しんでおり、署名された距離フィールド(SDF)やそのバリアントなどの最近の最適化定義のメトリックは、PCAの問題に取り組むコントロールバリア関数(CBF)として提案されています。
対照的に、このペーパーでは、計算上効率的で非保守的であることが証明された最適化のないスムーズなCBFメソッドを提案します。
3つの主要な手順で達成されます。SDFの下限は、最初にネストされたブールロジック構成として表されます。次に、最新のログサムEXPメソッドを適用することにより、その滑らかな近似が確立され、その後、このクラスの問題に対処するために指定されたCBFベースの安全フィルターが提案されます。
その幅広いアプリケーションを説明するために、最適化フリーのスムーズなCBFメソッドを拡張して、2つの不足していない非ホロノミック車の分散衝突回避を解決し、それぞれ動いている障害物を避けるために、それぞれ数値シミュレーションも実行されないように、それぞれ活動していないコンテナクレーンを駆動します。

要約(オリジナル)

Polygonal collision avoidance (PCA) is short for the problem of collision avoidance between two polygons (i.e., polytopes in planar) that own their dynamic equations. This problem suffers the inherent difficulty in dealing with non-smooth boundaries and recently optimization-defined metrics, such as signed distance field (SDF) and its variants, have been proposed as control barrier functions (CBFs) to tackle PCA problems. In contrast, we propose an optimization-free smooth CBF method in this paper, which is computationally efficient and proved to be nonconservative. It is achieved by three main steps: a lower bound of SDF is expressed as a nested Boolean logic composition first, then its smooth approximation is established by applying the latest log-sum-exp method, after which a specified CBF-based safety filter is proposed to address this class of problems. To illustrate its wide applications, the optimization-free smooth CBF method is extended to solve distributed collision avoidance of two underactuated nonholonomic vehicles and drive an underactuated container crane to avoid a moving obstacle respectively, for which numerical simulations are also performed.

arxiv情報

著者 Shizhen Wu,Yongchun Fang,Ning Sun,Biao Lu,Xiao Liang,Yiming Zhao
発行日 2025-05-13 12:33:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY, math.OC | Optimization-free Smooth Control Barrier Function for Polygonal Collision Avoidance はコメントを受け付けていません

FOCI: Trajectory Optimization on Gaussian Splats

要約

3D Gaussian Splutting(3DGS)は、3D再構築およびビュー合成方法における神経放射輝度(NERF)のより速い代替品として最近人気を博しました。
3DGSでエンコードされた空間情報を活用して、この作業は、ガウス自身の軌跡を直接最適化できるアルゴリズムであるフォーカス(フィールドオーバーラップ衝突積分)を提案します。
病巣は、ガウス間のオーバーラップ積分の概念を使用して、3DGの新規で解釈可能な衝突定式化を活用します。
環境の移動性を過小評価する保守的な境界ボックスでロボットを表す他のアプローチとは反対に、環境とロボットをガウスのスプラットとして表すことを提案します。
これは望ましい計算プロパティだけでなく、オリエンテーションを意識する計画を可能にし、ロボットが非常に狭くて狭いスペースを通過できるようにします。
合成と実際のガウスの両方のスプラットの両方でアルゴリズムを広範囲にテストし、数十万人のガウシア人が環境を構成していても、数秒で計算できる、何秒でも計算できる衝突のないレッグロボットの衝突のない軌跡を紹介します。
プロジェクトページとコードはhttps://rffr.leggedrobotics.com/works/foci/で入手できます。

要約(オリジナル)

3D Gaussian Splatting (3DGS) has recently gained popularity as a faster alternative to Neural Radiance Fields (NeRFs) in 3D reconstruction and view synthesis methods. Leveraging the spatial information encoded in 3DGS, this work proposes FOCI (Field Overlap Collision Integral), an algorithm that is able to optimize trajectories directly on the Gaussians themselves. FOCI leverages a novel and interpretable collision formulation for 3DGS using the notion of the overlap integral between Gaussians. Contrary to other approaches, which represent the robot with conservative bounding boxes that underestimate the traversability of the environment, we propose to represent the environment and the robot as Gaussian Splats. This not only has desirable computational properties, but also allows for orientation-aware planning, allowing the robot to pass through very tight and narrow spaces. We extensively test our algorithm in both synthetic and real Gaussian Splats, showcasing that collision-free trajectories for the ANYmal legged robot that can be computed in a few seconds, even with hundreds of thousands of Gaussians making up the environment. The project page and code are available at https://rffr.leggedrobotics.com/works/foci/

arxiv情報

著者 Mario Gomez Andreu,Maximum Wilder-Smith,Victor Klemm,Vaishakh Patil,Jesus Tordesillas,Marco Hutter
発行日 2025-05-13 12:40:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | FOCI: Trajectory Optimization on Gaussian Splats はコメントを受け付けていません