Procedural Dataset Generation for Zero-Shot Stereo Matching

要約

合成データセットは、ステレオマッチングネットワークをトレーニングするための重要な要素ですが、ステレオデータセットを効果的にするものの問題は、ほとんど説明されていません。
手続き上のデータセットジェネレーターのパラメーターを変化させることにより、合成データセットの設計スペースを調査し、標準ベンチマークを使用してゼロショットステレオマッチングパフォーマンスへの影響を報告します。
ゼロショットステレオデータセット用に最適化された手続き型ジェネレーターであるInfinigen-Stereoを生成するために最適な設定を収集します。
システムのデータでのみトレーニングされたモデルは、既存の合成データセットの組み合わせでトレーニングされた堅牢なベースラインを上回り、以前の作品のパブリックチェックポイントよりもゼロショットステレオマッチングパフォーマンスを強くしています。
https://github.com/princeton-vl/infinigenstereoでシステムをオープンして、手続き上のステレオデータセットに関するさらなる調査を可能にします。

要約(オリジナル)

Synthetic datasets are a crucial ingredient for training stereo matching networks, but the question of what makes a stereo dataset effective remains largely unexplored. We investigate the design space of synthetic datasets by varying the parameters of a procedural dataset generator, and report the effects on zero-shot stereo matching performance using standard benchmarks. We collect the best settings to produce Infinigen-Stereo, a procedural generator specifically optimized for zero-shot stereo datasets. Models trained only on data from our system outperform robust baselines trained on a combination of existing synthetic datasets and have stronger zero-shot stereo matching performance than public checkpoints from prior works. We open source our system at https://github.com/princeton-vl/InfinigenStereo to enable further research on procedural stereo datasets.

arxiv情報

著者 David Yan,Alexander Raistrick,Jia Deng
発行日 2025-04-23 17:59:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Procedural Dataset Generation for Zero-Shot Stereo Matching はコメントを受け付けていません

EvTTC: An Event Camera Dataset for Time-to-Collision Estimation

要約

衝突までの時間(TTC)の推定は、すべての自動緊急ブレーキ(AEB)システムの鍵である前方衝突警告(FCW)機能の中核にあります。
フレームベースのカメラを使用したソリューションの成功(Mobileyeのソリューションなど)は通常の状況で目撃されていますが、主要車両の相対速度の突然の変動や歩行者の突然の出現など、いくつかの極端なケースは、依然として処理できない重大なリスクをもたらします。
これは、フレームベースのカメラの固有のイメージング原理によるもので、隣接する露出間の時間間隔がAEBにかなりのシステム遅延を導入します。
新しいバイオ風のセンサーとしてのイベントカメラは、超高速分解能を提供し、マイクロ秒レベルで明るさの変化を非同期に報告できます。
上記の挑戦的なケースでイベントカメラの可能性を調査するために、EVTTCを提案します。これは、私たちの知る限り、高関連スピードシナリオの下でTTCタスクに焦点を当てた最初のマルチセンサーデータセットです。
EVTTCは、標準カメラとイベントカメラを使用して収集されたデータで構成され、毎日の運転と複数の衝突オブジェクトが関与するさまざまな潜在的な衝突シナリオをカバーしています。
さらに、グラウンドトゥルースTTCの計算には、LidarおよびGNSS/INS測定が提供されています。
本格的なモバイルプラットフォームでTTCアルゴリズムをテストするコストが高いことを考慮すると、実験的検証とデータ増強のための小規模なTTCテストも提供します。
テストベッドのすべてのデータと設計はオープンソースであり、ビジョンベースのTTC技術の開発を促進するベンチマークとして機能できます。

要約(オリジナル)

Time-to-Collision (TTC) estimation lies in the core of the forward collision warning (FCW) functionality, which is key to all Automatic Emergency Braking (AEB) systems. Although the success of solutions using frame-based cameras (e.g., Mobileye’s solutions) has been witnessed in normal situations, some extreme cases, such as the sudden variation in the relative speed of leading vehicles and the sudden appearance of pedestrians, still pose significant risks that cannot be handled. This is due to the inherent imaging principles of frame-based cameras, where the time interval between adjacent exposures introduces considerable system latency to AEB. Event cameras, as a novel bio-inspired sensor, offer ultra-high temporal resolution and can asynchronously report brightness changes at the microsecond level. To explore the potential of event cameras in the above-mentioned challenging cases, we propose EvTTC, which is, to the best of our knowledge, the first multi-sensor dataset focusing on TTC tasks under high-relative-speed scenarios. EvTTC consists of data collected using standard cameras and event cameras, covering various potential collision scenarios in daily driving and involving multiple collision objects. Additionally, LiDAR and GNSS/INS measurements are provided for the calculation of ground-truth TTC. Considering the high cost of testing TTC algorithms on full-scale mobile platforms, we also provide a small-scale TTC testbed for experimental validation and data augmentation. All the data and the design of the testbed are open sourced, and they can serve as a benchmark that will facilitate the development of vision-based TTC techniques.

arxiv情報

著者 Kaizhen Sun,Jinghang Li,Kuan Dai,Bangyan Liao,Wei Xiong,Yi Zhou
発行日 2025-04-23 13:49:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | EvTTC: An Event Camera Dataset for Time-to-Collision Estimation はコメントを受け付けていません

Certified Mitigation of Worst-Case LLM Copyright Infringement

要約

トレーニング前に大規模な言語モデル(LLM)を著作権で保護された材料に曝露すると、展開後の意図しない著作権侵害に関する懸念が生じます。
これにより、モデルが著作権で保護されたものと実質的に類似したコンテンツを生成するのを防ぐことを目的としたトレーニング後のアプローチの「著作権テイクダウン」方法の開発が促進されました。
現在の緩和アプローチは、平均ケースのリスクに多少効果的ですが、著作権で保護されたソースからの長い逐語的な引用の存在によって示される最悪の著作権リスクを見落としていることを示しています。
Bloomscrubを提案します。これは、認定された著作権テイクダウンを提供する非常にシンプルで非常に効果的な推論時間アプローチです。
私たちの方法は、潜在的に侵害するセグメントを変換するために、書き換え技術と引用検出を繰り返し繰り返します。
効率的なデータスケッチ(ブルームフィルター)を活用することにより、このアプローチにより、大規模な実世界のコーパスでもスケーラブルな著作権スクリーニングが可能になります。
長さのしきい値を超えた引用を削除できない場合、システムは応答を控えることができ、認定されたリスク削減を提供します。
実験結果は、BloomsCrubが侵害のリスクを減らし、効用を維持し、適応的棄権を伴うさまざまなレベルの執行の強迫性に対応することを示しています。
私たちの結果は、軽量の推論時間方法が著作権予防に驚くほど効果的であることを示唆しています。

要約(オリジナル)

The exposure of large language models (LLMs) to copyrighted material during pre-training raises concerns about unintentional copyright infringement post deployment. This has driven the development of ‘copyright takedown’ methods, post-training approaches aimed at preventing models from generating content substantially similar to copyrighted ones. While current mitigation approaches are somewhat effective for average-case risks, we demonstrate that they overlook worst-case copyright risks exhibits by the existence of long, verbatim quotes from copyrighted sources. We propose BloomScrub, a remarkably simple yet highly effective inference-time approach that provides certified copyright takedown. Our method repeatedly interleaves quote detection with rewriting techniques to transform potentially infringing segments. By leveraging efficient data sketches (Bloom filters), our approach enables scalable copyright screening even for large-scale real-world corpora. When quotes beyond a length threshold cannot be removed, the system can abstain from responding, offering certified risk reduction. Experimental results show that BloomScrub reduces infringement risk, preserves utility, and accommodates different levels of enforcement stringency with adaptive abstention. Our results suggest that lightweight, inference-time methods can be surprisingly effective for copyright prevention.

arxiv情報

著者 Jingyu Zhang,Jiacan Yu,Marc Marone,Benjamin Van Durme,Daniel Khashabi
発行日 2025-04-23 16:13:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Certified Mitigation of Worst-Case LLM Copyright Infringement はコメントを受け付けていません

Bidirectional Task-Motion Planning Based on Hierarchical Reinforcement Learning for Strategic Confrontation

要約

Swarm Roboticsでは、戦略的対立を含む対立シナリオには、個別のコマンドと継続的なアクションを統合する効率的な意思決定が必要です。
従来のタスクとモーションの計画方法は、意思決定を2つのレイヤーに分離しますが、それらの単方向構造はこれらの層間の相互依存性をキャプチャできず、動的環境での適応性が制限されます。
ここでは、階層強化学習に基づいた新しい双方向アプローチを提案し、層間の動的な相互作用を可能にします。
この方法は、タスクの割り当てとパス計画へのアクションを効果的にマップし、階層的なフレームワーク全体で学習を強化するためのクロストレーニング手法を活用します。
さらに、実行可能な計画目標を備えた抽象的なタスク表現を橋渡しする軌跡予測モデルを導入します。
私たちの実験では、対立勝利で80%以上、決定時間は0.01秒以内に達成され、既存のアプローチを上回ります。
大規模なテストと現実世界のロボット実験を通じてデモンストレーションは、私たちの方法の一般化能力と実用的な適用性をさらに強調しています。

要約(オリジナル)

In swarm robotics, confrontation scenarios, including strategic confrontations, require efficient decision-making that integrates discrete commands and continuous actions. Traditional task and motion planning methods separate decision-making into two layers, but their unidirectional structure fails to capture the interdependence between these layers, limiting adaptability in dynamic environments. Here, we propose a novel bidirectional approach based on hierarchical reinforcement learning, enabling dynamic interaction between the layers. This method effectively maps commands to task allocation and actions to path planning, while leveraging cross-training techniques to enhance learning across the hierarchical framework. Furthermore, we introduce a trajectory prediction model that bridges abstract task representations with actionable planning goals. In our experiments, it achieves over 80% in confrontation win rate and under 0.01 seconds in decision time, outperforming existing approaches. Demonstrations through large-scale tests and real-world robot experiments further emphasize the generalization capabilities and practical applicability of our method.

arxiv情報

著者 Qizhen Wu,Lei Chen,Kexin Liu,Jinhu Lü
発行日 2025-04-23 15:00:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Bidirectional Task-Motion Planning Based on Hierarchical Reinforcement Learning for Strategic Confrontation はコメントを受け付けていません

CAPO: Cost-Aware Prompt Optimization

要約

大規模な言語モデル(LLM)は、単にプロンプ​​トに導かれる幅広いタスクを解決することにより、自然言語処理に革命をもたらしました。
しかし、彼らのパフォーマンスは迅速な策定に非常に敏感です。
自動化されたプロンプト最適化は、最適なプロンプトを見つけることによりこの課題に対処しますが、現在の方法ではかなりの数のLLMコールと入力トークンが必要であり、プロンプトの最適化が高価になります。
Capo(コスト認識の迅速な最適化)を紹介します。これは、Automl技術を統合することで迅速な最適化効率を高めるアルゴリズムです。
Capoは、LLMSをオペレーターとしての進化的アプローチであり、評価と多目的最適化を節約するためのレースを組み込み、パフォーマンスと迅速な長さのバランスをとります。
堅牢性を向上させるためにタスクの説明を活用しながら、指示と少数のショット例を共同で最適化します。
多様なデータセットとLLMSにわたる広範な実験は、Capoが11/15のケースで最先端の離散プロンプト最適化方法を上回ることを示しています。
私たちのアルゴリズムは、予算が少ない既により良いパフォーマンスを達成し、レースを通じて評価を節約し、長さのペナルティを介して平均プロンプトの長さを減らし、費用効率とコスト認識の両方にします。
少数のショットの例がなくても、Capoは競合他社よりも優れており、一般的に初期プロンプトに対して堅牢なままです。
Capoは、コスト効率を向上させることにより、迅速な最適化をより強力でアクセスしやすくするための重要なステップを表しています。

要約(オリジナル)

Large language models (LLMs) have revolutionized natural language processing by solving a wide range of tasks simply guided by a prompt. Yet their performance is highly sensitive to prompt formulation. While automated prompt optimization addresses this challenge by finding optimal prompts, current methods require a substantial number of LLM calls and input tokens, making prompt optimization expensive. We introduce CAPO (Cost-Aware Prompt Optimization), an algorithm that enhances prompt optimization efficiency by integrating AutoML techniques. CAPO is an evolutionary approach with LLMs as operators, incorporating racing to save evaluations and multi-objective optimization to balance performance with prompt length. It jointly optimizes instructions and few-shot examples while leveraging task descriptions for improved robustness. Our extensive experiments across diverse datasets and LLMs demonstrate that CAPO outperforms state-of-the-art discrete prompt optimization methods in 11/15 cases with improvements up to 21%p. Our algorithm achieves better performances already with smaller budgets, saves evaluations through racing, and decreases average prompt length via a length penalty, making it both cost-efficient and cost-aware. Even without few-shot examples, CAPO outperforms its competitors and generally remains robust to initial prompts. CAPO represents an important step toward making prompt optimization more powerful and accessible by improving cost-efficiency.

arxiv情報

著者 Tom Zehle,Moritz Schlager,Timo Heiß,Matthias Feurer
発行日 2025-04-23 09:59:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.NE, stat.ML | CAPO: Cost-Aware Prompt Optimization はコメントを受け付けていません

MedNNS: Supernet-based Medical Task-Adaptive Neural Network Search

要約

ディープラーニング(DL)は、医療イメージングの分野で顕著な進歩を遂げました。
ただし、主に2つの重要な要因が原因で、DLモデルを医療タスクに適応させることは依然として重要な課題のままです。(1)さまざまなタスクが特殊なモデル設計を必要とするため、(2)モデルの収束速度と最終パフォーマンスに直接影響する重みの初期化が必要です。
Imagenetからの転送学習は広く採用されている戦略ですが、その有効性は、自然画像と医療画像の間の実質的な違いによって制約されます。
これらの課題に対処するために、医療イメージングアプリケーションの最初のニューラルネットワーク検索フレームワークである医療ニューラルネットワーク検索(MEDNNS)を紹介します。
MEDNNSは、それらがどの程度うまく機能するかに基づいてデータセットとモデルをエンコードするメタスペースを構築することにより、アーキテクチャの選択と重量の初期化を共同で最適化します。
スーパーネットワークベースのアプローチを使用してこのスペースを構築し、以前の最先端(SOTA)メソッドでモデル動物園のサイズを51倍拡大します。
さらに、ランクの損失とfre \ ‘echetインセプション距離(FID)損失をスペースの構築に導入して、モデル間およびデータ準間関係をキャプチャして、メタ空間でより正確な整合性を達成します。
複数のデータセットにわたる実験結果は、MEDNNがイメージネットの事前訓練を受けたDLモデルとSOTAニューラルアーキテクチャ検索(NAS)メソッドの両方を大幅に上回ることを示しており、データセット全体で1.7%の平均精度改善を達成しながら、大幅に速く収束します。
コードと処理されたメタスペースは、https://github.com/biomedia-mbzuai/mednnsで入手できます。

要約(オリジナル)

Deep learning (DL) has achieved remarkable progress in the field of medical imaging. However, adapting DL models to medical tasks remains a significant challenge, primarily due to two key factors: (1) architecture selection, as different tasks necessitate specialized model designs, and (2) weight initialization, which directly impacts the convergence speed and final performance of the models. Although transfer learning from ImageNet is a widely adopted strategy, its effectiveness is constrained by the substantial differences between natural and medical images. To address these challenges, we introduce Medical Neural Network Search (MedNNS), the first Neural Network Search framework for medical imaging applications. MedNNS jointly optimizes architecture selection and weight initialization by constructing a meta-space that encodes datasets and models based on how well they perform together. We build this space using a Supernetwork-based approach, expanding the model zoo size by 51x times over previous state-of-the-art (SOTA) methods. Moreover, we introduce rank loss and Fr\’echet Inception Distance (FID) loss into the construction of the space to capture inter-model and inter-dataset relationships, thereby achieving more accurate alignment in the meta-space. Experimental results across multiple datasets demonstrate that MedNNS significantly outperforms both ImageNet pre-trained DL models and SOTA Neural Architecture Search (NAS) methods, achieving an average accuracy improvement of 1.7% across datasets while converging substantially faster. The code and the processed meta-space is available at https://github.com/BioMedIA-MBZUAI/MedNNS.

arxiv情報

著者 Lotfi Abdelkrim Mecharbat,Ibrahim Almakky,Martin Takac,Mohammad Yaqub
発行日 2025-04-23 05:28:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | MedNNS: Supernet-based Medical Task-Adaptive Neural Network Search はコメントを受け付けていません

Ask2Loc: Learning to Locate Instructional Visual Answers by Asking Questions

要約

指導ビデオ内に特定のセグメントを見つけることは、ガイド知識を習得するための効率的な方法です。
一般的に、言語の説明と視覚的デモの両方のビデオセグメントを取得するタスクは、視覚回答のローカリゼーション(VAL)として知られています。
ただし、ユーザーは、システムを使用するときに期待に合わせた回答を得るために複数のインタラクションを必要とすることがよくあります。
これらの相互作用中、人間は自分自身に質問をすることでビデオコンテンツの理解を深め、それによって場所を正確に識別します。
したがって、視覚的な答えを得る手順で、人間とビデオの間の複数の相互作用をシミュレートするために、in-valという名前の新しいタスクを提案します。
VALタスクでは、1)入力質問のユーザー意図のあいまいさ、2)ビデオ字幕の言語の不完全性、および3)ビデオセグメントのコンテンツの断片化を含む、いくつかのセマンティックギャップの問題にインタラクティブに対処する必要があります。
これらの問題に対処するために、質問をすることでValを解決するためのフレームワークであるAsk2Locを提案します。
3つの重要なモジュールが含まれています。1)最初の質問を改良し、明確な意図を明らかにするチャットモジュール、2)流fluent言語を生成して完全な説明を作成する書き換えモジュール、3)ローカルコンテキストを広げて統合コンテンツを提供する検索モジュール。
3つの再構築されたVALデータセットで広範な実験を実施します。
従来のエンドツーエンドおよび2段階の方法と比較して、提案されたASK2LOCは、VALタスクでパフォーマンスを最大14.91(MIOU)増加させることができます。
コードとデータセットには、https://github.com/changzong/ask2locでアクセスできます。

要約(オリジナル)

Locating specific segments within an instructional video is an efficient way to acquire guiding knowledge. Generally, the task of obtaining video segments for both verbal explanations and visual demonstrations is known as visual answer localization (VAL). However, users often need multiple interactions to obtain answers that align with their expectations when using the system. During these interactions, humans deepen their understanding of the video content by asking themselves questions, thereby accurately identifying the location. Therefore, we propose a new task, named In-VAL, to simulate the multiple interactions between humans and videos in the procedure of obtaining visual answers. The In-VAL task requires interactively addressing several semantic gap issues, including 1) the ambiguity of user intent in the input questions, 2) the incompleteness of language in video subtitles, and 3) the fragmentation of content in video segments. To address these issues, we propose Ask2Loc, a framework for resolving In-VAL by asking questions. It includes three key modules: 1) a chatting module to refine initial questions and uncover clear intentions, 2) a rewriting module to generate fluent language and create complete descriptions, and 3) a searching module to broaden local context and provide integrated content. We conduct extensive experiments on three reconstructed In-VAL datasets. Compared to traditional end-to-end and two-stage methods, our proposed Ask2Loc can improve performance by up to 14.91 (mIoU) on the In-VAL task. Our code and datasets can be accessed at https://github.com/changzong/Ask2Loc.

arxiv情報

著者 Chang Zong,Bin Li,Shoujun Zhou,Jian Wan,Lei Zhang
発行日 2025-04-23 03:01:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T20, 68T45, cs.AI, cs.CV, cs.HC | Ask2Loc: Learning to Locate Instructional Visual Answers by Asking Questions はコメントを受け付けていません

AlphaGrad: Non-Linear Gradient Normalization Optimizer

要約

Adamのような適応方法のメモリオーバーヘッドとハイパーパラメーターの複雑さに対処する、メモリ効率の高い条件付きのステートレスオプティマイザーであるAlphagradを紹介します。
Alphagradは、テンソルごとのL2勾配の正規化を介してスケール不変性を強制し、それに続いて滑らかな双曲線の接線変換、$ g ‘= \ tanh(\ alpha \ cdot \ tilde {g})$、単一の急勾配パラメーター$ \ alpha $によって制御されます。
私たちの貢献には、次のものが含まれます。(1)アルファグラードアルゴリズムの定式化。
(2)定常性を保証する正式な非凸収束分析。
(3)多様なRLベンチマーク(DQN、TD3、PPO)に関する広範な経験的評価。
Adamと比較して、Alphagradは、コンテキスト依存性の高いパフォーマンスプロファイルを示しています。
オフポリシーDQNで不安定性を示している間、TD3(慎重な$ \ alpha $チューニングが必要)で競争力のある結果を伴うトレーニング安定性の向上を提供し、オンポリシーPPOで実質的に優れたパフォーマンスを達成します。
これらの結果は、経験的な$ \ alpha $選択の重要な重要性を強調し、オプティマイザーのダイナミクスと基礎となるRLアルゴリズムとの強い相互作用を明らかにします。
Alphagradは、メモリが制約されたシナリオに魅力的な代替オプティマイザーを提示し、その安定性と効率の利点が特に影響を与える可能性のあるポリシー学習体制に大きな約束を示しています。

要約(オリジナル)

We introduce AlphaGrad, a memory-efficient, conditionally stateless optimizer addressing the memory overhead and hyperparameter complexity of adaptive methods like Adam. AlphaGrad enforces scale invariance via tensor-wise L2 gradient normalization followed by a smooth hyperbolic tangent transformation, $g’ = \tanh(\alpha \cdot \tilde{g})$, controlled by a single steepness parameter $\alpha$. Our contributions include: (1) the AlphaGrad algorithm formulation; (2) a formal non-convex convergence analysis guaranteeing stationarity; (3) extensive empirical evaluation on diverse RL benchmarks (DQN, TD3, PPO). Compared to Adam, AlphaGrad demonstrates a highly context-dependent performance profile. While exhibiting instability in off-policy DQN, it provides enhanced training stability with competitive results in TD3 (requiring careful $\alpha$ tuning) and achieves substantially superior performance in on-policy PPO. These results underscore the critical importance of empirical $\alpha$ selection, revealing strong interactions between the optimizer’s dynamics and the underlying RL algorithm. AlphaGrad presents a compelling alternative optimizer for memory-constrained scenarios and shows significant promise for on-policy learning regimes where its stability and efficiency advantages can be particularly impactful.

arxiv情報

著者 Soham Sane
発行日 2025-04-23 01:25:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.NE, stat.ML | AlphaGrad: Non-Linear Gradient Normalization Optimizer はコメントを受け付けていません

Solving Multi-Agent Safe Optimal Control with Distributed Epigraph Form MARL

要約

マルチロボットシステムのタスクでは、多くの場合、ロボットが安全性を維持しながら、チームの目標を協力して完了する必要があります。
この問題は通常、制約されたマルコフ決定プロセス(CMDP)として正式化されます。これは、グローバルコストの最小化と、制約の平均違反をユーザー定義のしきい値を下回ることを目標としています。
実際のロボットアプリケーションに触発されて、安全性をゼロ制約違反として定義します。
CMDPを解決するために多くの安全なマルチエージェント補強学習(MARL)アルゴリズムが提案されていますが、これらのアルゴリズムはこの設定で不安定なトレーニングに悩まされています。
これに取り組むために、エピグラフフォームを使用して制約された最適化を使用して、トレーニングの安定性を改善し、集中型エピグラフ形式の問題を各エージェントが分散式で解決できることを証明します。
これにより、DEF-MARLという名前の新しい集中トレーニング分散実行MARLアルゴリズムが発生します。
2つの異なるシミュレーターにわたる8つの異なるタスクでのシミュレーション実験は、DEF-MARLが最高の全体的なパフォーマンスを達成し、安全上の制約を満たし、安定したトレーニングを維持することを示しています。
CrazyFlie Quadcoptersの実際のハードウェア実験は、他の方法と比較して複雑な共同タスクを完了するためにエージェントを安全に調整する能力を示しています。

要約(オリジナル)

Tasks for multi-robot systems often require the robots to collaborate and complete a team goal while maintaining safety. This problem is usually formalized as a constrained Markov decision process (CMDP), which targets minimizing a global cost and bringing the mean of constraint violation below a user-defined threshold. Inspired by real-world robotic applications, we define safety as zero constraint violation. While many safe multi-agent reinforcement learning (MARL) algorithms have been proposed to solve CMDPs, these algorithms suffer from unstable training in this setting. To tackle this, we use the epigraph form for constrained optimization to improve training stability and prove that the centralized epigraph form problem can be solved in a distributed fashion by each agent. This results in a novel centralized training distributed execution MARL algorithm named Def-MARL. Simulation experiments on 8 different tasks across 2 different simulators show that Def-MARL achieves the best overall performance, satisfies safety constraints, and maintains stable training. Real-world hardware experiments on Crazyflie quadcopters demonstrate the ability of Def-MARL to safely coordinate agents to complete complex collaborative tasks compared to other methods.

arxiv情報

著者 Songyuan Zhang,Oswin So,Mitchell Black,Zachary Serlin,Chuchu Fan
発行日 2025-04-21 20:34:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.MA, cs.RO, math.OC | Solving Multi-Agent Safe Optimal Control with Distributed Epigraph Form MARL はコメントを受け付けていません

Nearly Optimal Nonlinear Safe Control with BaS-SDRE

要約

状態依存のRiccati方程式(SDRE)アプローチは、ほぼ最適な非線形コントローラーを設計する体系的かつ効果的な手段として浮上しています。
障壁状態(BAS)埋め込み方法論は、システムの他の状態とともに制御される状態として安全条件が現れる安全な多目的制御のために最近開発されました。
安全埋め込みシステムと呼ばれるシステム全体は、元のシステムが線形であっても非常に非線形です。
このペーパーでは、2つの戦略を効果的に組み合わせることにより、非線形のほぼ最適な安全フィードバック制御手法を開発します。
まず、BASは拡張された線形化定式化に由来し、その後、拡張された安全埋め込みシステムを形成するために使用されます。
その後、新しい最適な制御問題が形成されます。これは、最適コントロール問題の関連するハミルトン – ヤコビ – ベルマン(HJB)方程式の溶液の溶液に近似するbas-sdreと呼ばれる安全埋め込み状態依存リカティ方程式を構築するために使用されます。
その後、Bas-Sdreはオンラインで解決され、ほぼ最適な安全制御を合成します。
提案された手法の有効性は、合成された制御が安全でない領域の近くの非線形性にどのように反応するか、構造的および動的な懸念のために存在する限られたパス角度速度を持つ非線形飛行制御システム、および混雑した環境で安全にナビゲーションを導く平面的な四輪システムでどのように反応するかを示す、不安定で制約された線形システムで実証されています。

要約(オリジナル)

The State-Dependent Riccati Equation (SDRE) approach has emerged as a systematic and effective means of designing nearly optimal nonlinear controllers. The Barrier States (BaS) embedding methodology was developed recently for safe multi-objective controls in which the safety condition is manifested as a state to be controlled along with other states of the system. The overall system, termed the safety embedded system, is highly nonlinear even if the original system is linear. This paper develops a nonlinear nearly optimal safe feedback control technique by combining the two strategies effectively. First, the BaS is derived in an extended linearization formulation to be subsequently used to form an extended safety embedded system. A new optimal control problem is formed thereafter, which is used to construct a safety embedded State-Dependent Riccati Equation, termed BaS-SDRE, whose solution approximates the solution of the optimal control problem’s associated Hamilton-Jacobi-Bellman (HJB) equation. The BaS-SDRE is then solved online to synthesize the nearly optimal safe control. The proposed technique’s efficacy is demonstrated on an unstable, constrained linear system that shows how the synthesized control reacts to nonlinearities near the unsafe region, a nonlinear flight control system with limited path angular velocity that exists due to structural and dynamic concerns, and a planar quadrotor system that navigates safely in a crowded environment.

arxiv情報

著者 Hassan Almubarak,Maitham F. AL-Sunni,Justin T. Dubbin,Nader Sadegh,John M. Dolan,Evangelos A. Theodorou
発行日 2025-04-21 21:39:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Nearly Optimal Nonlinear Safe Control with BaS-SDRE はコメントを受け付けていません