Advancing Egocentric Video Question Answering with Multimodal Large Language Models

要約

エゴセントリックビデオ質問応答(QA)では、モデルが長距離の時間的推論、一人称の視点、および頻繁なカメラの動きなどの専門的な課題を処理する必要があります。
このペーパーでは、QAEGO4Dから派生したエゴセントリックビデオの洗練されたデータセットであるQAEGO4DV2で、独自およびオープンソースのマルチモーダルラージモデル(MLLM)の両方を体系的に評価します。
4つの人気のMLLMS(GPT-4O、GEMINI-1.5-PRO、Video-Llava-7B、QWEN2-VL-7B-Instruct)は、OpenQAとCloseQA設定の両方のゼロショットおよび微調整されたアプローチを使用して評価されます。
QAEGO4D2のQAEGO4DV2を導入して、QAEGO4Dの注釈ノイズを緩和し、より信頼性の高い比較を可能にします。
我々の結果は、微調整されたビデオラバ-7BおよびQWEN2-VL-7B-Instructが新しい最先端のパフォーマンスを達成し、以前のベンチマークを最大2.6%ルージュ/メテオール(OpenQA用)および +13%精度(CloseQA)(CloseQA)の精度を超えることを示しています。
また、徹底的なエラー分析を提示し、空間推論におけるモデルの困難と微粒子認識 – 将来の改善のための重要な領域を示します。

要約(オリジナル)

Egocentric Video Question Answering (QA) requires models to handle long-horizon temporal reasoning, first-person perspectives, and specialized challenges like frequent camera movement. This paper systematically evaluates both proprietary and open-source Multimodal Large Language Models (MLLMs) on QaEgo4Dv2 – a refined dataset of egocentric videos derived from QaEgo4D. Four popular MLLMs (GPT-4o, Gemini-1.5-Pro, Video-LLaVa-7B and Qwen2-VL-7B-Instruct) are assessed using zero-shot and fine-tuned approaches for both OpenQA and CloseQA settings. We introduce QaEgo4Dv2 to mitigate annotation noise in QaEgo4D, enabling more reliable comparison. Our results show that fine-tuned Video-LLaVa-7B and Qwen2-VL-7B-Instruct achieve new state-of-the-art performance, surpassing previous benchmarks by up to +2.6% ROUGE/METEOR (for OpenQA) and +13% accuracy (for CloseQA). We also present a thorough error analysis, indicating the model’s difficulty in spatial reasoning and fine-grained object recognition – key areas for future improvement.

arxiv情報

著者 Alkesh Patel,Vibhav Chitalia,Yinfei Yang
発行日 2025-04-06 16:58:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | Advancing Egocentric Video Question Answering with Multimodal Large Language Models はコメントを受け付けていません

Planning Safety Trajectories with Dual-Phase, Physics-Informed, and Transportation Knowledge-Driven Large Language Models

要約

ファンデーションモデルは、シーンの理解、計画、制御など、運転関連のタスクにおける強力な推論と一般化能力を実証しています。
しかし、彼らはまだ幻覚、不確実性、長い推論の潜在性において課題に直面しています。
既存の基礎モデルには衝突を回避する一般的な知識がありますが、輸送固有の安全知識が不足していることがよくあります。
これらの制限を克服するために、安全で人間のような軌跡計画のための物理学に基づいた二重段階の知識主導のフレームワークであるLetSPIを紹介します。
幻覚を防ぎ、不確実性を最小限に抑えるために、このハイブリッドフレームワークは、物理学に基づいた社会的力のダイナミクスと大きな言語モデル(LLM)の推論を統合します。
LetSPIはLLMを活用して運転シーンと履歴情報を分析し、社会的力モデルの適切なパラメーターとターゲットの目的地(目標)を提供し、将来の軌跡を生成します。
さらに、デュアルフェーズアーキテクチャは、メモリ収集フェーズと高速推論フェーズを通じて、推論と計算効率のバランスを取ります。
メモリコレクションフェーズは、物理学に基づいたLLMを活用して、推論、反射、およびメモリモジュールを通じて計画結果を処理および改良し、メモリバンクに安全で質の高い運転体験を保存します。
代理安全対策と物理学に基づいた迅速な技術が、それぞれ輸送の安全性と物理力に関するLLMの知識を強化するために導入されています。
高速推論フェーズは、新しいシナリオの少数の例として同様の運転体験を抽出し、安全性を損なうことなく迅速な軌跡計画を可能にする入出力要件を簡素化します。
HighDデータセットを使用した広範な実験は、LetSPIが5つの安全メトリックにわたってベースラインモデルを上回ることを示しています。ProjectGithubリンクのPDFを参照してください。

要約(オリジナル)

Foundation models have demonstrated strong reasoning and generalization capabilities in driving-related tasks, including scene understanding, planning, and control. However, they still face challenges in hallucinations, uncertainty, and long inference latency. While existing foundation models have general knowledge of avoiding collisions, they often lack transportation-specific safety knowledge. To overcome these limitations, we introduce LetsPi, a physics-informed, dual-phase, knowledge-driven framework for safe, human-like trajectory planning. To prevent hallucinations and minimize uncertainty, this hybrid framework integrates Large Language Model (LLM) reasoning with physics-informed social force dynamics. LetsPi leverages the LLM to analyze driving scenes and historical information, providing appropriate parameters and target destinations (goals) for the social force model, which then generates the future trajectory. Moreover, the dual-phase architecture balances reasoning and computational efficiency through its Memory Collection phase and Fast Inference phase. The Memory Collection phase leverages the physics-informed LLM to process and refine planning results through reasoning, reflection, and memory modules, storing safe, high-quality driving experiences in a memory bank. Surrogate safety measures and physics-informed prompt techniques are introduced to enhance the LLM’s knowledge of transportation safety and physical force, respectively. The Fast Inference phase extracts similar driving experiences as few-shot examples for new scenarios, while simplifying input-output requirements to enable rapid trajectory planning without compromising safety. Extensive experiments using the HighD dataset demonstrate that LetsPi outperforms baseline models across five safety metrics.See PDF for project Github link.

arxiv情報

著者 Rui Gan,Pei Li,Keke Long,Bocheng An,Junwei You,Keshu Wu,Bin Ran
発行日 2025-04-06 17:34:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Planning Safety Trajectories with Dual-Phase, Physics-Informed, and Transportation Knowledge-Driven Large Language Models はコメントを受け付けていません

DexTOG: Learning Task-Oriented Dexterous Grasp with Language

要約

この研究では、タスク指向の握り(TOG)の分野を器用な手で前進させることを目的とした、新しい言語誘導拡散ベースの学習フレームワークDextogを紹介します。
主に2本指のグリッパーに焦点を当てた既存の方法とは異なり、この研究は器用な操作の複雑さに対処します。ここでは、システムは、特定のタスク制約の下で非ユニークな最適な把持ポーズを識別し、複数の有効なグラスに応じ、グラスプランニングの高度な縁石構成スペースで検索しなければなりません。
提案されているDextogには、拡散ベースの把握ポーズ生成モデルであるDexdiffuと、Dexdiffuをサポートするデータエンジンが含まれています。
Dextogを活用することにより、新しいデータセットDextog-80Kも提案しました。これは、シャドウロボットハンドを使用して開発され、5つのカテゴリの80オブジェクトでさまざまなタスクを実行し、ロボットハンドの器用さとマルチタスク機能を紹介しました。
この研究は、器用なTOGの大幅な飛躍を示すだけでなく、包括的なデータセットとシミュレーションの検証を提供し、ロボット操作研究の新しいベンチマークを設定します。

要約(オリジナル)

This study introduces a novel language-guided diffusion-based learning framework, DexTOG, aimed at advancing the field of task-oriented grasping (TOG) with dexterous hands. Unlike existing methods that mainly focus on 2-finger grippers, this research addresses the complexities of dexterous manipulation, where the system must identify non-unique optimal grasp poses under specific task constraints, cater to multiple valid grasps, and search in a high degree-of-freedom configuration space in grasp planning. The proposed DexTOG includes a diffusion-based grasp pose generation model, DexDiffu, and a data engine to support the DexDiffu. By leveraging DexTOG, we also proposed a new dataset, DexTOG-80K, which was developed using a shadow robot hand to perform various tasks on 80 objects from 5 categories, showcasing the dexterity and multi-tasking capabilities of the robotic hand. This research not only presents a significant leap in dexterous TOG but also provides a comprehensive dataset and simulation validation, setting a new benchmark in robotic manipulation research.

arxiv情報

著者 Jieyi Zhang,Wenqiang Xu,Zhenjun Yu,Pengfei Xie,Tutian Tang,Cewu Lu
発行日 2025-04-06 18:23:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | DexTOG: Learning Task-Oriented Dexterous Grasp with Language はコメントを受け付けていません

Hierarchical Planning for Complex Tasks with Knowledge Graph-RAG and Symbolic Verification

要約

大規模な言語モデル(LLM)はロボットプランナーとして有望であることを示していますが、特に外部の知識を必要とする特別な環境では、長老や複雑なタスクに苦労することがよくあります。
階層的な計画と検索の高等発電(RAG)はこれらの課題のいくつかに対処していますが、より信頼性の高いシステムを達成するには、それ自体が不十分なままであり、より深い統合が必要です。
この目的のために、階層的な計画生成のための知識グラフベースのRAGでLLMSベースのプランナーを強化するニューロ – シンボリックアプローチを提案します。
このメソッドは、複雑なタスクを管理可能なサブタスクに分解し、さらに実行可能なアトミックアクションシーケンスに拡大しました。
正式な正確性と適切な分解を確保するために、予想された世界状態と観測された世界状態を調整することにより、故障検出器としても機能するシンボリック検証装置を統合します。
ベースライン方法に対する私たちの評価は、さまざまな複雑さと異なるLLMのタスクを介して、階層的計画、象徴的な検証、およびぼろを統合することの一貫した重要な利点を示しています。
さらに、実験セットアップと新しいメトリックは、複雑な計画のアプローチを検証するだけでなく、LLMSの推論と構成能力を評価するためのツールとしても機能します。

要約(オリジナル)

Large Language Models (LLMs) have shown promise as robotic planners but often struggle with long-horizon and complex tasks, especially in specialized environments requiring external knowledge. While hierarchical planning and Retrieval-Augmented Generation (RAG) address some of these challenges, they remain insufficient on their own and a deeper integration is required for achieving more reliable systems. To this end, we propose a neuro-symbolic approach that enhances LLMs-based planners with Knowledge Graph-based RAG for hierarchical plan generation. This method decomposes complex tasks into manageable subtasks, further expanded into executable atomic action sequences. To ensure formal correctness and proper decomposition, we integrate a Symbolic Validator, which also functions as a failure detector by aligning expected and observed world states. Our evaluation against baseline methods demonstrates the consistent significant advantages of integrating hierarchical planning, symbolic verification, and RAG across tasks of varying complexity and different LLMs. Additionally, our experimental setup and novel metrics not only validate our approach for complex planning but also serve as a tool for assessing LLMs’ reasoning and compositional capabilities.

arxiv情報

著者 Cristina Cornelio,Flavio Petruzzellis,Pietro Lio
発行日 2025-04-06 18:36:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | Hierarchical Planning for Complex Tasks with Knowledge Graph-RAG and Symbolic Verification はコメントを受け付けていません

Modeling of AUV Dynamics with Limited Resources: Efficient Online Learning Using Uncertainty

要約

機械学習は、特に水中車両のデータからダイナミクスモデルを構築するのに効果的です。
ただし、着信データストリームを使用してこれらのモデルを継続的に改良するには、多くの場合、圧倒的な量の冗長データを保存する必要があります。
この作業では、保管容量が制約されているときにオンライン学習をリハーサルするためのデータポイントの選択における不確実性の使用を調査します。
モデルは、認識論的不確実性を予測するのに適したパフォーマンスであるため、多層パーセプロンのアンサンブルを使用して学習されます。
3つの斬新なアプローチを提示します。指定されたしきい値を下回る不確実性のあるサンプル、貪欲な方法、保存されたポイント間の不確実性を最大化するように設計された貪欲な方法、および以前の2つのアプローチを組み合わせたしきい値Greedyを除外します。
この方法は、水中車両のダゴンによって収集されたデータで評価されます。
ベースラインとの比較により、しきい値が学習プロセス全体で安定性が向上し、累積テスト損失が最も少ないモデルも得られることが明らかになりました。
また、モデルのパフォーマンスに対するモデルパラメーターとストレージサイズの影響に関する詳細な分析と、3つの異なる不確実性推定方法の比較も実施しました。

要約(オリジナル)

Machine learning proves effective in constructing dynamics models from data, especially for underwater vehicles. Continuous refinement of these models using incoming data streams, however, often requires storage of an overwhelming amount of redundant data. This work investigates the use of uncertainty in the selection of data points to rehearse in online learning when storage capacity is constrained. The models are learned using an ensemble of multilayer perceptrons as they perform well at predicting epistemic uncertainty. We present three novel approaches: the Threshold method, which excludes samples with uncertainty below a specified threshold, the Greedy method, designed to maximize uncertainty among the stored points, and Threshold-Greedy, which combines the previous two approaches. The methods are assessed on data collected by an underwater vehicle Dagon. Comparison with baselines reveals that the Threshold exhibits enhanced stability throughout the learning process and also yields a model with the least cumulative testing loss. We also conducted detailed analyses on the impact of model parameters and storage size on the performance of the models, as well as a comparison of three different uncertainty estimation methods.

arxiv情報

著者 Michal Tešnar,Bilal Wehbe,Matias Valdenegro-Toro
発行日 2025-04-06 18:48:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | Modeling of AUV Dynamics with Limited Resources: Efficient Online Learning Using Uncertainty はコメントを受け付けていません

A Multi-Agent Framework Integrating Large Language Models and Generative AI for Accelerated Metamaterial Design

要約

卓越した機械的、電磁特性、熱特性で有名なメタマテリアルは、多様なアプリケーション全体で変革の可能性を保持しますが、その設計は労働集約的な試行錯誤の方法と限られたデータの相互運用性によって制約されたままです。
ここでは、大規模な言語モデルを最先端の生成AIと相乗的に統合してメタマテリアルデザインに革命をもたらす新しいマルチエージェントフレームワークであるCrossMatagentを紹介します。
エージェントの階層的なチームを調整することにより、それぞれがパターン分析、建築統合、迅速なエンジニアリング、監督フィードバックなどのタスクに特化しています。当社のシステムは、GPT-4oのマルチモーダル推論とDall-E 3の生成精度と微調整された安定拡散XLモデルとともに活用します。
この統合アプローチは、データの増強を自動化し、設計の忠実度を高め、シミュレーションと3Dの印刷対応のメタマテリアルパターンを生成します。
さまざまな負荷条件下でのクリップベースのアライメント、SHAP解釈可能性分析、および機械的シミュレーションなどの包括的な評価は、多様で再現可能な、アプリケーション対応のデザインを生成するフレームワークの能力を示しています。
したがって、クロスマタゲントは、概念的な革新と実際の実現のギャップを埋めるスケーラブルでAI駆動型のパラダイムを確立し、加速されたメタマテリアル発達の方法を開きます。

要約(オリジナル)

Metamaterials, renowned for their exceptional mechanical, electromagnetic, and thermal properties, hold transformative potential across diverse applications, yet their design remains constrained by labor-intensive trial-and-error methods and limited data interoperability. Here, we introduce CrossMatAgent — a novel multi-agent framework that synergistically integrates large language models with state-of-the-art generative AI to revolutionize metamaterial design. By orchestrating a hierarchical team of agents — each specializing in tasks such as pattern analysis, architectural synthesis, prompt engineering, and supervisory feedback — our system leverages the multimodal reasoning of GPT-4o alongside the generative precision of DALL-E 3 and a fine-tuned Stable Diffusion XL model. This integrated approach automates data augmentation, enhances design fidelity, and produces simulation- and 3D printing-ready metamaterial patterns. Comprehensive evaluations, including CLIP-based alignment, SHAP interpretability analyses, and mechanical simulations under varied load conditions, demonstrate the framework’s ability to generate diverse, reproducible, and application-ready designs. CrossMatAgent thus establishes a scalable, AI-driven paradigm that bridges the gap between conceptual innovation and practical realization, paving the way for accelerated metamaterial development.

arxiv情報

著者 Jie Tian,Martin Taylor Sobczak,Dhanush Patil,Jixin Hou,Lin Pang,Arunachalam Ramanathan,Libin Yang,Xianyan Chen,Yuval Golan,Xiaoming Zhai,Hongyue Sun,Kenan Song,Xianqiao Wang
発行日 2025-04-06 18:58:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.mtrl-sci, cs.RO | A Multi-Agent Framework Integrating Large Language Models and Generative AI for Accelerated Metamaterial Design はコメントを受け付けていません

Safe Navigation in Unmapped Environments for Robotic Systems with Input Constraints

要約

このホワイトペーパーでは、複合制御バリア関数(CBF)を使用した入力および状態の制約の下で、マップされていない環境でのナビゲーションと制御のアプローチを提示します。
先験的にマップされていない環境でローカルな状態の制約(障害物などのローカルな安全制約など)をモデル化するローカルなCBFを構築するためにオンラインでリアルタイムの知覚フィードバック(LIDAR)がオンラインで使用されるシナリオを検討します。
このアプローチは、最近得られたNからの単一の時変CBFを合成するために、ソフト最大関数を採用しています。
次に、入力制約は、コントロールダイナミクスを使用してコントローラー状態の制約に変換されます。
次に、ソフト最小関数を使用して、先験的にマップされていない環境をモデル化する時変CBFとの入力制約を構成します。
この組成は、単一の緩和されたCBFを生成します。これは、状態と入力の制約を満たす最適な制御を得るために制約された最適化で使用されます。
このアプローチは、LIDARを装備し、マップされていない環境をナビゲートする非ホロノミックグラウンドロボットのシミュレーションを通じて検証されます。
ロボットは、先験的にマップされていない障害物を避け、速度と入力の制約の両方を満たしながら、環境を正常にナビゲートします。

要約(オリジナル)

This paper presents an approach for navigation and control in unmapped environments under input and state constraints using a composite control barrier function (CBF). We consider the scenario where real-time perception feedback (e.g., LiDAR) is used online to construct a local CBF that models local state constraints (e.g., local safety constraints such as obstacles) in the a priori unmapped environment. The approach employs a soft-maximum function to synthesize a single time-varying CBF from the N most recently obtained local CBFs. Next, the input constraints are transformed into controller-state constraints through the use of control dynamics. Then, we use a soft-minimum function to compose the input constraints with the time-varying CBF that models the a priori unmapped environment. This composition yields a single relaxed CBF, which is used in a constrained optimization to obtain an optimal control that satisfies the state and input constraints. The approach is validated through simulations of a nonholonomic ground robot that is equipped with LiDAR and navigates an unmapped environment. The robot successfully navigates the environment while avoiding the a priori unmapped obstacles and satisfying both speed and input constraints.

arxiv情報

著者 Amirsaeid Safari,Jesse B. Hoagg
発行日 2025-04-06 19:38:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Safe Navigation in Unmapped Environments for Robotic Systems with Input Constraints はコメントを受け付けていません

B4P: Simultaneous Grasp and Motion Planning for Object Placement via Parallelized Bidirectional Forests and Path Repair

要約

ロボットピックと場所のシステムは、伝統的に、個々のコンポーネントが協力できるという仮定で順次最適化パイプラインを構築するための把握、配置、およびモーション計画を分離しています。
ただし、この分離は、特に狭い通路を持つ散らかった環境で、ターゲット配置ポーズに到達するためのロボットが実行可能な動きを制限または禁止する可能性があるため、最適性を導入します。
この目的のために、選択したグラスプと対になった下流の配置構成を明示的に満たす、把握構成と実行可能なロボットモーションを同時に見つけるための森林ベースの計画フレームワークを提案します。
提案されたフレームワークは、実現可能な把握領域に根ざした開始森林と、実行可能な配置領域に根ざした目標森林を構築するための双方向サンプリングベースのアプローチを活用して、把握と配置の木の有効なペアを接続するランダムに調査された動きを通して検索を促進します。
フレームワークの固有の並列性により、スーパーリニアスピードアップが可能になり、冗長なロボットアーム(7つの自由度など)が高度に散らばった環境で効率的に作業できるようにスケーラブルにすることを実証します。
シミュレーションにおける広範な実験は、多様なシナリオでの複数のベースラインと比較して、提案されたフレームワークの堅牢性と効率性を示しています。

要約(オリジナル)

Robot pick and place systems have traditionally decoupled grasp, placement, and motion planning to build sequential optimization pipelines with the assumption that the individual components will be able to work together. However, this separation introduces sub-optimality, as grasp choices may limit or even prohibit feasible motions for a robot to reach the target placement pose, particularly in cluttered environments with narrow passages. To this end, we propose a forest-based planning framework to simultaneously find grasp configurations and feasible robot motions that explicitly satisfy downstream placement configurations paired with the selected grasps. Our proposed framework leverages a bidirectional sampling-based approach to build a start forest, rooted at the feasible grasp regions, and a goal forest, rooted at the feasible placement regions, to facilitate the search through randomly explored motions that connect valid pairs of grasp and placement trees. We demonstrate that the framework’s inherent parallelism enables superlinear speedup, making it scalable for applications for redundant robot arms (e.g., 7 Degrees of Freedom) to work efficiently in highly cluttered environments. Extensive experiments in simulation demonstrate the robustness and efficiency of the proposed framework in comparison with multiple baselines under diverse scenarios.

arxiv情報

著者 Benjamin H. Leebron,Kejia Ren,Yiting Chen,Kaiyu Hang
発行日 2025-04-06 20:02:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | B4P: Simultaneous Grasp and Motion Planning for Object Placement via Parallelized Bidirectional Forests and Path Repair はコメントを受け付けていません

Diffusion-Based Approximate MPC: Fast and Consistent Imitation of Multi-Modal Action Distributions

要約

模倣学習(IL)を使用したモデル予測制御(MPC)の近似により、オンラインで高価な最適化の問題を解決せずに迅速な制御が可能になります。
ただし、単純なL2回帰セットアップでニューラルネットワークを使用する方法は、障害物などの数値ソルバーや非凸の制約によって発見されたローカルオプティマによって引き起こされるマルチモーダル(セット値)ソリューション分布を近似していないため、実際に近似MPCの適用性を大幅に制限します。
拡散モデルを使用して、高制御速度(1000 Hz以上)で完全なソリューション分布(つまり、すべてのモード)を正確に表すことにより、この問題を解決します。
この作業は、拡散ベースのAMPCが、マルチモーダルアクション分布のL2回帰ベースの近似MPCを大幅に上回ることを示しています。
ILでの以前のほとんどの作業とは対照的に、拡散ベースのコントローラーを、エンドエフェクター空間ではなく、より高い速度およびジョイント空間での実行にも焦点を当てています。
さらに、除去プロセス中にグラデーションガイダンスを使用して、ソリューション間の切り替えを防ぐために閉ループで同じモードを一貫して選択することを提案します。
拡散モデルからのソリューションの並行サンプリング中に、元のMPC問題のコストと制約の満足度を使用して、より良いモードをオンラインで選択することを提案します。
シミュレーションと250 Hzで展開されたハードウェアの両方で7-DOFロボットマニピュレーターの高速かつ正確な制御に関する方法を評価し、MPCの問題をオンラインで解決し、成功比の数値最適化(トレーニングに使用)を上回ると比較して70倍以上のスピードアップを達成します。

要約(オリジナル)

Approximating model predictive control (MPC) using imitation learning (IL) allows for fast control without solving expensive optimization problems online. However, methods that use neural networks in a simple L2-regression setup fail to approximate multi-modal (set-valued) solution distributions caused by local optima found by the numerical solver or non-convex constraints, such as obstacles, significantly limiting the applicability of approximate MPC in practice. We solve this issue by using diffusion models to accurately represent the complete solution distribution (i.e., all modes) at high control rates (more than 1000 Hz). This work shows that diffusion based AMPC significantly outperforms L2-regression-based approximate MPC for multi-modal action distributions. In contrast to most earlier work on IL, we also focus on running the diffusion-based controller at a higher rate and in joint space instead of end-effector space. Additionally, we propose the use of gradient guidance during the denoising process to consistently pick the same mode in closed loop to prevent switching between solutions. We propose using the cost and constraint satisfaction of the original MPC problem during parallel sampling of solutions from the diffusion model to pick a better mode online. We evaluate our method on the fast and accurate control of a 7-DoF robot manipulator both in simulation and on hardware deployed at 250 Hz, achieving a speedup of more than 70 times compared to solving the MPC problem online and also outperforming the numerical optimization (used for training) in success ratio.

arxiv情報

著者 Pau Marquez Julbe,Julian Nubert,Henrik Hose,Sebastian Trimpe,Katherine J. Kuchenbecker
発行日 2025-04-06 20:22:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Diffusion-Based Approximate MPC: Fast and Consistent Imitation of Multi-Modal Action Distributions はコメントを受け付けていません

Nonlinear Robust Optimization for Planning and Control

要約

このホワイトペーパーでは、未知の境界障害を服用する制約された非線形動的システムの新しい堅牢な軌跡最適化方法を紹介します。
特に、規定された不確実性セット内の妨害のすべての可能な実現に関して、堅牢に実行可能なままである最適な制御ポリシーを求めています。
この問題に対処するために、BIレベルの最適化アルゴリズムを紹介します。
外側のレベルは、非線形ダイナミクスと堅牢な制約の線形化に依存する、信頼地域の連続した凸化アプローチを採用しています。
内部レベルには、結果として生じる線形化された堅牢な最適化問題を解決することが含まれます。この問題は、扱いやすい凸の再定式化を導き出し、それらを効率的に解くための増強されたラグランジアン法を提示します。
非線形システム上の方法論の堅牢性をさらに高めるために、潜在的な線形化エラーも不明な障害として効果的にモデル化できることを示しています。
シミュレーション結果は、未知の妨害の下で堅牢な方法で非線形システムを制御するアプローチの適用性を確認します。
堅牢な最適化の観点からのこのような連続した線形化スキームでの近似エラーを効果的に処理することの約束も強調されています。

要約(オリジナル)

This paper presents a novel robust trajectory optimization method for constrained nonlinear dynamical systems subject to unknown bounded disturbances. In particular, we seek optimal control policies that remain robustly feasible with respect to all possible realizations of the disturbances within prescribed uncertainty sets. To address this problem, we introduce a bi-level optimization algorithm. The outer level employs a trust-region successive convexification approach which relies on linearizing the nonlinear dynamics and robust constraints. The inner level involves solving the resulting linearized robust optimization problems, for which we derive tractable convex reformulations and present an Augmented Lagrangian method for efficiently solving them. To further enhance the robustness of our methodology on nonlinear systems, we also illustrate that potential linearization errors can be effectively modeled as unknown disturbances as well. Simulation results verify the applicability of our approach in controlling nonlinear systems in a robust manner under unknown disturbances. The promise of effectively handling approximation errors in such successive linearization schemes from a robust optimization perspective is also highlighted.

arxiv情報

著者 Arshiya Taj Abdul,Augustinos D. Saravanos,Evangelos A. Theodorou
発行日 2025-04-06 20:33:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY, math.OC | Nonlinear Robust Optimization for Planning and Control はコメントを受け付けていません