FullDiT2: Efficient In-Context Conditioning for Video Diffusion Transformers

要約

ビデオ拡散変圧器の細かく効率的な制御可能性は、適用可能性に対する増大する欲求を高めました。
最近、コンテキスト内の条件付けは、統一された条件付きビデオ生成の強力なパラダイムとして登場しました。これにより、さまざまなコンテキストコンディショニングシグナルと長い統一トークンシーケンスへのさまざまなコンテキストコンディショニングシグナルを連結し、フルルディットなどを介して完全に処理することにより、多様なコントロールが可能になります。
それらの有効性にもかかわらず、これらの方法は、タスクの複雑さが増加するにつれて二次計算のオーバーヘッドに直面し、実際の展開を妨げます。
この論文では、元のコンテキストコンディショニングビデオ生成フレームワークで無視された効率ボトルネックを研究します。
体系的な分析から始めて、計算の非効率性の2つの重要なソースを特定します。コンテキスト条件のトークン内の固有の冗長性と、拡散プロセス全体でのコンテキストを含む相互作用における計算冗長性です。
これらの洞察に基づいて、2つの重要な観点から革新するビデオ生成と編集タスクの両方で、一般的な制御性の効率的なコンテキスト内調整フレームワークであるFulldit2を提案します。
第一に、トークンの冗長性に対処するために、Fulldit2は動的なトークン選択メカニズムを活用して、重要なコンテキストトークンを適応的に識別し、統一されたフルアテナンスのシーケンス長を削減します。
さらに、条件トークンとビデオ潜伏物間の冗長性の相互作用を最小限に抑えるために、選択的コンテキストキャッシュメカニズムが考案されています。
6つの多様な条件付きビデオ編集および生成タスクに関する広範な実験は、Fulldit2が拡散ステップあたりの平均時間コストで大幅な計算削減と2〜3倍のスピードアップを達成することを示しています。
プロジェクトページは\ href {https://fulldit2.github.io/} {https://fulldit2.github.io/}です。

要約(オリジナル)

Fine-grained and efficient controllability on video diffusion transformers has raised increasing desires for the applicability. Recently, In-context Conditioning emerged as a powerful paradigm for unified conditional video generation, which enables diverse controls by concatenating varying context conditioning signals with noisy video latents into a long unified token sequence and jointly processing them via full-attention, e.g., FullDiT. Despite their effectiveness, these methods face quadratic computation overhead as task complexity increases, hindering practical deployment. In this paper, we study the efficiency bottleneck neglected in original in-context conditioning video generation framework. We begin with systematic analysis to identify two key sources of the computation inefficiencies: the inherent redundancy within context condition tokens and the computational redundancy in context-latent interactions throughout the diffusion process. Based on these insights, we propose FullDiT2, an efficient in-context conditioning framework for general controllability in both video generation and editing tasks, which innovates from two key perspectives. Firstly, to address the token redundancy, FullDiT2 leverages a dynamic token selection mechanism to adaptively identify important context tokens, reducing the sequence length for unified full-attention. Additionally, a selective context caching mechanism is devised to minimize redundant interactions between condition tokens and video latents. Extensive experiments on six diverse conditional video editing and generation tasks demonstrate that FullDiT2 achieves significant computation reduction and 2-3 times speedup in averaged time cost per diffusion step, with minimal degradation or even higher performance in video generation quality. The project page is at \href{https://fulldit2.github.io/}{https://fulldit2.github.io/}.

arxiv情報

著者 Xuanhua He,Quande Liu,Zixuan Ye,Weicai Ye,Qiulin Wang,Xintao Wang,Qifeng Chen,Pengfei Wan,Di Zhang,Kun Gai
発行日 2025-06-05 03:35:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | FullDiT2: Efficient In-Context Conditioning for Video Diffusion Transformers はコメントを受け付けていません

Time, Travel, and Energy in the Uniform Dispersion Problem

要約

未知のグリッドのような環境でロボットの群れを均一に分散させるというアルゴリズムの問​​題を調査します。
この設定では、私たちの目標は、パフォーマンスメトリックとロボット機能の関係を研究することです。
メイクスパン、移動距離、エネルギー消費、センシング、コミュニケーション、およびメモリに基づいて、分散アルゴリズムを比較する正式なモデルを導入します。
このフレームワークを使用して、能力要件とパフォーマンスに従って均一な分散アルゴリズムを分類します。
すべての環境でMASMPANと旅行を最小限に抑えることができますが、群れのセンシング範囲が境界を搭載している場合、エネルギーはできません。
対照的に、環境が「Find-Corner Depth First Search」(FCDFS)アルゴリズムを使用して、環境が単純に単純に接続されていれば、同期設定で「アリのような」ロボットによってエネルギーを最小化できることを示しています。
理論的および実験的結果は、FCDFが既知のアルゴリズムを大幅に上回ることを示しています。
私たちの調査結果は、未知の環境向けの群れロボットシステムの設計における重要な制限を明らかにし、エネルギー効率の高い分散におけるトポロジの役割を強調しています。

要約(オリジナル)

We investigate the algorithmic problem of uniformly dispersing a swarm of robots in an unknown, gridlike environment. In this setting, our goal is to study the relationships between performance metrics and robot capabilities. We introduce a formal model comparing dispersion algorithms based on makespan, traveled distance, energy consumption, sensing, communication, and memory. Using this framework, we classify uniform dispersion algorithms according to their capability requirements and performance. We prove that while makespan and travel can be minimized in all environments, energy cannot, if the swarm’s sensing range is bounded. In contrast, we show that energy can be minimized by “ant-like” robots in synchronous settings and asymptotically minimized in asynchronous settings, provided the environment is topologically simply connected, by using our “Find-Corner Depth-First Search” (FCDFS) algorithm. Our theoretical and experimental results show that FCDFS significantly outperforms known algorithms. Our findings reveal key limitations in designing swarm robotics systems for unknown environments, emphasizing the role of topology in energy-efficient dispersion.

arxiv情報

著者 Michael Amir,Alfred M. Bruckstein
発行日 2025-06-03 17:42:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T40, cs.DM, cs.MA, cs.RO, I.2.9 | Time, Travel, and Energy in the Uniform Dispersion Problem はコメントを受け付けていません

Grounded Vision-Language Interpreter for Integrated Task and Motion Planning

要約

ビジョン言語モデル(VLM)の最近の進歩により、言語誘導ロボットプランナーの開発が加速していますが、ブラックボックスの性質には、実際の展開に重要な安全保証と解釈可能性が欠けていることがよくあります。
逆に、古典的なシンボリックプランナーは厳格な安全検証を提供しますが、セットアップには重要な専門知識が必要です。
現在のギャップを埋めるために、このペーパーでは、検証可能、解釈可能、および自律的なロボット行動を可能にするためのハイブリッド計画フレームワークであるVilain-Tampを提案しています。
Vilain-Tampは、3つの主要なコンポーネントで構成されています。(1)Vilain(Vision-Language Interpreter) – 追加のドメイン固有のトレーニングなしでマルチモーダル入力を構造化された問題仕様に変換する以前のフレームワーク、
主要な操作段階のスキル、および(3)モーションおよびタスク計画コンポーネントからの失敗したソリューションの試みに関する具体的なフィードバックを受け取り、適応された論理と幾何学的実現可能性の制約をVilainに戻すために、仕様を改善し、さらに改善することができる是正計画モジュール。
調理領域でのいくつかの挑戦的な操作タスクに関するフレームワークを評価します。
提案されている閉ループ矯正アーキテクチャは、是正計画なしと比較して、Vilain-Tampの平均成功率が30%以上高いことを実証します。

要約(オリジナル)

While recent advances in vision-language models (VLMs) have accelerated the development of language-guided robot planners, their black-box nature often lacks safety guarantees and interpretability crucial for real-world deployment. Conversely, classical symbolic planners offer rigorous safety verification but require significant expert knowledge for setup. To bridge the current gap, this paper proposes ViLaIn-TAMP, a hybrid planning framework for enabling verifiable, interpretable, and autonomous robot behaviors. ViLaIn-TAMP comprises three main components: (1) ViLaIn (Vision-Language Interpreter) – A prior framework that converts multimodal inputs into structured problem specifications using off-the-shelf VLMs without additional domain-specific training, (2) a modular Task and Motion Planning (TAMP) system that grounds these specifications in actionable trajectory sequences through symbolic and geometric constraint reasoning and can utilize learning-based skills for key manipulation phases, and (3) a corrective planning module which receives concrete feedback on failed solution attempts from the motion and task planning components and can feed adapted logic and geometric feasibility constraints back to ViLaIn to improve and further refine the specification. We evaluate our framework on several challenging manipulation tasks in a cooking domain. We demonstrate that the proposed closed-loop corrective architecture exhibits a more than 30% higher mean success rate for ViLaIn-TAMP compared to without corrective planning.

arxiv情報

著者 Jeremy Siburian,Keisuke Shirai,Cristian C. Beltran-Hernandez,Masashi Hamaya,Michael Görner,Atsushi Hashimoto
発行日 2025-06-03 18:00:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Grounded Vision-Language Interpreter for Integrated Task and Motion Planning はコメントを受け付けていません

Dynamics and Control of Vision-Aided Multi-UAV-tethered Netted System Capturing Non-Cooperative Target

要約

低高度の空域で動作する無人航空機(UAV)の数が増加し続けるにつれて、非協力的なターゲットは低高度の運用に課題を増やします。
この問題に対処するために、このペーパーでは、非協力的なターゲットをキャプチャするための非致死的なソリューションとして、マルチUAVテザーネットシステムを提案しています。
提案されたシステムを検証するために、高精度の物理モデリング、ビジョンベースのモーション追跡、および補強学習駆動型制御戦略を統合するマルチボディダイナミクスベースのUAVシミュレーション環境であるMySIMを開発します。
MySIMでは、スプリングダンパーモデルを使用して、テザーネットの動的動作をシミュレートしますが、システム全体のダイナミクスはMultibody Dynamics(MBD)を使用してモデル化され、システム相互作用の正確な表現を実現します。
UAVとターゲットの動きは、VINS-MONOとDETRを使用して推定され、システムはMAPPOを介してキャプチャ戦略を自律的に実行します。
シミュレーション結果は、MySIMがシステムのダイナミクスと制御を正確にシミュレートし、マルチUAVテザーのネットシステムが非プロペルと操作の両方の非協力ターゲットの両方をキャプチャできるように成功することを示しています。
Dynamicsモデリングを知覚と学習ベースの制御と統合する高精度シミュレーションプラットフォームを提供することにより、MySIMは、実際の展開前にUAVベースの制御ポリシーの効率的なテストと最適化を可能にします。
このアプローチは、複雑なUAV調整タスクをシミュレートするための重要な利点を提供し、他のUAVベースのシステムの設計に適用される可能性があります。

要約(オリジナル)

As the number of Unmanned Aerial Vehicles (UAVs) operating in low-altitude airspace continues to increase, non-cooperative targets pose growing challenges to low-altitude operations. To address this issue, this paper proposes a multi-UAV-tethered netted system as a non-lethal solution for capturing non-cooperative targets. To validate the proposed system, we develop mySim, a multibody dynamics-based UAV simulation environment that integrates high-precision physics modeling, vision-based motion tracking, and reinforcement learning-driven control strategies. In mySim, the spring-damper model is employed to simulate the dynamic behavior of the tethered net, while the dynamics of the entire system is modeled using multibody dynamics (MBD) to achieve accurate representations of system interactions. The motion of the UAVs and the target are estimated using VINS-MONO and DETR, and the system autonomously executes the capture strategy through MAPPO. Simulation results demonstrate that mySim accurately simulates dynamics and control of the system, successfully enabling the multi-UAV-tethered netted system to capture both non-propelled and maneuvering non-cooperative targets. By providing a high-precision simulation platform that integrates dynamics modeling with perception and learning-based control, mySim enables efficient testing and optimization of UAV-based control policies before real-world deployment. This approach offers significant advantages for simulating complex UAVs coordination tasks and has the potential to be applied to the design of other UAV-based systems.

arxiv情報

著者 Runhan Liu,Hui Ren,Wei Fan
発行日 2025-06-03 18:36:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Dynamics and Control of Vision-Aided Multi-UAV-tethered Netted System Capturing Non-Cooperative Target はコメントを受け付けていません

Collision- and Reachability-Aware Multi-Robot Control with Grounded LLM Planners

要約

大規模な言語モデル(LLMS)は、さまざまなロボット制御タスクで強力なパフォーマンスを実証しています。
ただし、実際のアプリケーションでの展開は抑制されたままです。
GPT-O4miniなどの最先端のLLMでさえ、ロボットを到達不可能な場所に誘導したり、ロボット間の衝突を引き起こしたりするなど、物理的な制約に違反する無効なアクションプランを頻繁に作成します。
この問題は、主に、推論プロセス中のこれらの物理的制約に対する認識の欠如から生じます。
この問題に対処するために、補強学習を検証可能な報酬(RLVR)と統合する新しいフレームワークを提案し、LLMSへの物理的制約の知識を奨励して、計画の生成中に制約を認識する推論を誘導します。
このアプローチでは、コントロールタスクを正常に完了する有効なアクションプランのみが肯定的な報酬を受け取ります。
メソッドを2つの小規模LLMSに適用しました:非合理的なQWEN2.5-3B-Instructと推論QWEN3-4B。
実験結果は、制約対応の小さなLLMが制約なしで大規模なモデルを大幅に上回ることを示しています。
この作業は、物理的な制約で小さなLLMを接地することの有効性を強調し、複雑で物理的に制約された環境でスケーラブルで効率的なマルチロボット制御を可能にします。

要約(オリジナル)

Large language models (LLMs) have demonstrated strong performance in various robot control tasks. However, their deployment in real-world applications remains constrained. Even state-ofthe-art LLMs, such as GPT-o4mini, frequently produce invalid action plans that violate physical constraints, such as directing a robot to an unreachable location or causing collisions between robots. This issue primarily arises from a lack of awareness of these physical constraints during the reasoning process. To address this issue, we propose a novel framework that integrates reinforcement learning with verifiable rewards (RLVR) to incentivize knowledge of physical constraints into LLMs to induce constraints-aware reasoning during plan generation. In this approach, only valid action plans that successfully complete a control task receive positive rewards. We applied our method to two small-scale LLMs: a non-reasoning Qwen2.5-3B-Instruct and a reasoning Qwen3-4B. The experiment results demonstrate that constraint-aware small LLMs largely outperform large-scale models without constraints, grounded on both the BoxNet task and a newly developed BoxNet3D environment built using MuJoCo. This work highlights the effectiveness of grounding even small LLMs with physical constraints to enable scalable and efficient multi-robot control in complex, physically constrained environments.

arxiv情報

著者 Jiabao Ji,Yongchao Chen,Yang Zhang,Ramana Rao Kompella,Chuchu Fan,Gaowen Liu,Shiyu Chang
発行日 2025-06-03 19:33:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Collision- and Reachability-Aware Multi-Robot Control with Grounded LLM Planners はコメントを受け付けていません

Adversarial Attacks on Robotic Vision Language Action Models

要約

エンドツーエンド制御のためのビジョン言語アクションモデル(VLA)の出現は、10億パラメータースケールでマルチモーダル感覚入力を融合できるようにすることにより、ロボット工学の分野を再構築しています。
VLASの機能は、主にそのアーキテクチャに由来します。これは、多くの場合、フロンティアの大手言語モデル(LLM)に基づいています。
ただし、LLMは敵対的な誤用の影響を受けやすく、ロボット工学に固有の重要な物理的リスクを考えると、VLAがこれらの脆弱性を継承する程度に関して疑問が残っています。
これらの懸念に動機付けられて、この作業では、VLA制御ロボットに対する敵対的な攻撃の研究を開始します。
私たちの主なアルゴリズムの貢献は、VLAに対する完全な制御権限を取得するためのLLMジェイルブレイク攻撃の適応と適用です。
展開の先頭に一度適用されるテキスト攻撃は、一般的に使用されるVLAのアクション空間の完全な到達可能性を促進し、しばしばより長い視野にわたって持続することがわかります。
これは、現実の世界での攻撃は、害の概念に意味的にリンクする必要がないため、LLMの脱獄文献とは大きく異なります。
すべてのコードをhttps://github.com/eliotjones1/robogcgで利用できるようにします。

要約(オリジナル)

The emergence of vision-language-action models (VLAs) for end-to-end control is reshaping the field of robotics by enabling the fusion of multimodal sensory inputs at the billion-parameter scale. The capabilities of VLAs stem primarily from their architectures, which are often based on frontier large language models (LLMs). However, LLMs are known to be susceptible to adversarial misuse, and given the significant physical risks inherent to robotics, questions remain regarding the extent to which VLAs inherit these vulnerabilities. Motivated by these concerns, in this work we initiate the study of adversarial attacks on VLA-controlled robots. Our main algorithmic contribution is the adaptation and application of LLM jailbreaking attacks to obtain complete control authority over VLAs. We find that textual attacks, which are applied once at the beginning of a rollout, facilitate full reachability of the action space of commonly used VLAs and often persist over longer horizons. This differs significantly from LLM jailbreaking literature, as attacks in the real world do not have to be semantically linked to notions of harm. We make all code available at https://github.com/eliotjones1/robogcg .

arxiv情報

著者 Eliot Krzysztof Jones,Alexander Robey,Andy Zou,Zachary Ravichandran,George J. Pappas,Hamed Hassani,Matt Fredrikson,J. Zico Kolter
発行日 2025-06-03 19:43:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Adversarial Attacks on Robotic Vision Language Action Models はコメントを受け付けていません

Robustness-Aware Tool Selection and Manipulation Planning with Learned Energy-Informed Guidance

要約

人間は無意識のうちに、長年の具体化された経験に基づいて、ツールを選択して使用する堅牢な方法を選択します。
ただし、不確実性の下での堅牢性は、ロボットのツール使用計画では採用されていないままです。
このペーパーでは、環境障害に対する堅牢性のために明示的に最適化するツールと計画の豊富な操作軌跡を共同で選択する堅牢性を意識したフレームワークを紹介します。
私たちのアプローチの中核には、学習したエネルギーベースの堅牢性メトリックがあり、プランナーを堅牢な操作行動に導きます。
最初に堅牢性を最適化するツールと構成を識別する階層最適化パイプラインを策定し、次に実行中の堅牢性を維持する対応する操作軌道を計画します。
3つの代表的なツール使用タスクでアプローチを評価します。
シミュレーションと現実世界の結果は、私たちのアプローチが一貫して堅牢なツールを選択し、妨害抵抗力のある操作計画を生成することを示しています。

要約(オリジナル)

Humans subconsciously choose robust ways of selecting and using tools, based on years of embodied experience — for example, choosing a ladle instead of a flat spatula to serve meatballs. However, robustness under uncertainty remains underexplored in robotic tool-use planning. This paper presents a robustness-aware framework that jointly selects tools and plans contact-rich manipulation trajectories, explicitly optimizing for robustness against environmental disturbances. At the core of our approach is a learned, energy-based robustness metric, which guides the planner towards robust manipulation behaviors. We formulate a hierarchical optimization pipeline that first identifies a tool and configuration that optimizes robustness, and then plans a corresponding manipulation trajectory that maintains robustness throughout execution. We evaluate our approach across three representative tool-use tasks. Simulation and real-world results demonstrate that our approach consistently selects robust tools and generates disturbance-resilient manipulation plans.

arxiv情報

著者 Yifei Dong,Yan Zhang,Sylvain Calinon,Florian T. Pokorny
発行日 2025-06-03 20:14:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Robustness-Aware Tool Selection and Manipulation Planning with Learned Energy-Informed Guidance はコメントを受け付けていません

Equivariant Symmetries for Inertial Navigation Systems

要約

このペーパーでは、対称性のレンズを介した慣性ナビゲーションシステム(INS)フィルター設計の問題を調査します。
拡張されたカルマンフィルター(EKF)とそのバリアントは、50年間のINSフィルタリングの主食でした。
ただし、慣性航法システムの最近の進歩により、マトリックスの嘘グループ構造が活用され、古典的なソリューションと比較して優れた性能を示すことが示されている確率的フィルターと状態オブザーバーを設計しました。
この作業では、以前の文献では考慮されていない2つの新しい対称性を含む、慣性航法システムのさまざまな対称性を探り、フィルター設計のコンテキストでこれらの対称性の相対的な長所と短所について説明します。
慣性ナビゲーション用のEKFの最新のバリエーションはすべて、INS問題に対して対称グループのさまざまな選択に適用される最近提案されたequivariantフィルター(EQF)設計方法論として解釈できることを示します。
提示された対称性の直接適用として、慣性測定ユニット(IMU)とグローバルナビゲーション衛星システム(GNSS)レシーバーを装備した車両のフィルター設計問題に対処し、さまざまな最新フィルターソリューションの比較分析を提供します。
ここで提示する対称性の収集は、この問題の対称性のすべての賢明な選択肢をキャプチャし、提供された分析は、完全な状態観測可能性を確保する軌跡の異なるアルゴリズムの相対的な現実世界のパフォーマンスの可能性を示していると考えています。

要約(オリジナル)

This paper investigates the problem of inertial navigation system (INS) filter design through the lens of symmetry. The extended Kalman filter (EKF) and its variants have been the staple of INS filtering for 50 years. However, recent advances in inertial navigation systems have exploited matrix Lie group structure to design stochastic filters and state observers that have been shown to display superior performance compared to classical solutions. In this work, we explore various symmetries of inertial navigation system, including two novel symmetries that have not been considered in the prior literature, and provide a discussion of the relative strengths and weaknesses of these symmetries in the context of filter design. We show that all the modern variants of the EKF for inertial navigation can be interpreted as the recently proposed equivariant filter (EqF) design methodology applied to different choices of symmetry group for the INS problem. As a direct application of the symmetries presented, we address the filter design problem for a vehicle equipped with an inertial measurement unit (IMU) and a global navigation satellite system (GNSS) receiver, providing a comparative analysis of different modern filter solutions. We believe the collection of symmetries that we present here capture all the sensible choices of symmetry for this problem, and that the analysis provided is indicative of the relative real-world performance potential of the different algorithms for trajectories ensuring full state observability.

arxiv情報

著者 Alessandro Fornasier,Yixiao Ge,Pieter van Goor,Robert Mahony,Stephan Weiss
発行日 2025-06-03 20:38:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Equivariant Symmetries for Inertial Navigation Systems はコメントを受け付けていません

Design of Trimmed Helicoid Soft-Rigid Hybrid Robots

要約

ソフトロボットのデザインが成熟するにつれて、研究者はより適切なプラットフォームの開発を可能にするために、洗練されたデザインパラダイムに収束しました。
このようなパラダイムは、ロボットのデザインの何らかの側面で剛性のある構造材料を利用する柔らかい倍率のハイブリッドロボットと、純粋に材料とは対照的に幾何学的パラメーターに基づいて変形する建築材料です。
この作業では、2つの設計アプローチを組み合わせて、トリミングされたヘリコイド構造を剛性リンクと直列に使用します。
さらに、任意の幾何学の剛性の機械的モデルを導き出すことにより、波の春に触発されたソフト構造に関する文献を拡張します。
射出成形アプローチを利用したこのような構造の新しい製造方法を提示し、このクラスの任意のデザイン用の3Dプリント金型を生成するための設計ツールを利用できるようにします。
最後に、上記の方法を使用してロボットを生産し、閉ループデモンストレーションで操作します。

要約(オリジナル)

As soft robot design matures, researchers have converged to sophisticated design paradigms to enable the development of more suitable platforms. Two such paradigms are soft-rigid hybrid robots, which utilize rigid structural materials in some aspect of the robot’s design, and architectured materials, which deform based on geometric parameters as opposed to purely material ones. In this work, we combine the two design approaches, utilizing trimmed helicoid structures in series with rigid linkages. Additionally, we extend the literature on wave spring-inspired soft structures by deriving a mechanical model of the stiffness for arbitrary geometries. We present a novel manufacturing method for such structures utilizing an injection molding approach and we make available the design tool to generate 3D printed molds for arbitrary designs of this class. Finally, we produce a robot using the above methods and operate it in closed-loop demonstrations.

arxiv情報

著者 Zach J. Patterson,Emily R. Sologuren,Daniela Rus
発行日 2025-06-03 20:39:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Design of Trimmed Helicoid Soft-Rigid Hybrid Robots はコメントを受け付けていません

Occlusion-Aware Ground Target Tracking by a Dubins Vehicle Using Visibility Volumes

要約

このペーパーでは、POIを閉塞する可能性のある都市環境を通じて、視線(LOS)センサーを使用してデュビン車としてモデル化された、非白黒の航空車両(UAV)を使用して、地上の既知の軌道に沿って地面の既知の軌跡に沿って移動するという問題を検討します。
可視性ボリューム(VV)は、特定のPOI位置の感知制約の時変、3次元表現をエンコードします。
次に、一定の高度、翻訳、および半径方向の時間変化の円形軌道軌道を、POI位置に中心にある動的に変化するVV内に刻まれます。
時変VVは、連続した視認性ボリュームの体積変化を指定された速度以下に制限する適応型メトリックを使用して、POIの軌跡に沿って静的VVを配置することにより近似されます。
時間変化の円形スタンドオフ軌道は、デュビン車で実行可能であることが証明されており、静的VV内の線形補間円軌道の区分的セットで近似されています。
UAVを駆動するステアリングコントローラーが派生しており、時変のスタンドオフ軌道に収束します。
数値シミュレーションと飛行試験は、提案されたアプローチを示しています。

要約(オリジナル)

This paper considers the problem of tracking a point of interest (POI) moving along a known trajectory on the ground with an uncrewed aerial vehicle (UAV) modeled as a Dubins vehicle using a line-of-sight (LOS) sensor through an urban environment that may occlude the POI. A visibility volume (VV) encodes a time-varying, three-dimensional representation of the sensing constraints for a particular POI position. A constant-altitude, translating, and radially time-varying circular standoff orbit is then inscribed within the dynamically changing VV centered at the POI position. The time-varying VV is approximated by placing static VVs along the POI’s trajectory using an adaptive metric that restricts the volume change of consecutive visibility volumes to below a specified rate. The time-varying circular standoff orbit is proven to be feasible for a Dubins vehicle and is approximated with a piecewise set of linearly interpolated circular orbits inside the static VVs. A steering controller is derived that drives the UAV to converge to the time-varying standoff orbit. Numerical simulations and a flight test illustrate the proposed approach.

arxiv情報

著者 Collin Hague,Artur Wolek
発行日 2025-06-03 21:16:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Occlusion-Aware Ground Target Tracking by a Dubins Vehicle Using Visibility Volumes はコメントを受け付けていません