Defeating Prompt Injections by Design

要約

大規模な言語モデル(LLM)は、外部環境と相互作用するエージェントシステムにますます展開されています。
ただし、LLMエージェントは、信頼されていないデータを処理する際の迅速な注入攻撃に対して脆弱です。
この論文では、LLMの周りに保護システム層を作成する堅牢な防御であるCamelを提案し、基礎となるモデルが攻撃の影響を受けやすい場合でも保護します。
操作するために、キャメルは(信頼できる)クエリからコントロールとデータの流れを明示的に抽出します。
したがって、LLMによって取得された信頼されていないデータは、プログラムの流れに決して影響を与えることはありません。
セキュリティをさらに改善するために、Camelは、不正なデータフローよりもプライベートデータの拡張を防ぐ能力の概念に依存しています。
最近のエージェントセキュリティベンチマークであるAgentdojo [Neurips 2024]の証明可能なセキュリティを持つタスクの67ドル\%$を解くことにより、ラクダの有効性を実証します。

要約(オリジナル)

Large Language Models (LLMs) are increasingly deployed in agentic systems that interact with an external environment. However, LLM agents are vulnerable to prompt injection attacks when handling untrusted data. In this paper we propose CaMeL, a robust defense that creates a protective system layer around the LLM, securing it even when underlying models may be susceptible to attacks. To operate, CaMeL explicitly extracts the control and data flows from the (trusted) query; therefore, the untrusted data retrieved by the LLM can never impact the program flow. To further improve security, CaMeL relies on a notion of a capability to prevent the exfiltration of private data over unauthorized data flows. We demonstrate effectiveness of CaMeL by solving $67\%$ of tasks with provable security in AgentDojo [NeurIPS 2024], a recent agentic security benchmark.

arxiv情報

著者 Edoardo Debenedetti,Ilia Shumailov,Tianqi Fan,Jamie Hayes,Nicholas Carlini,Daniel Fabian,Christoph Kern,Chongyang Shi,Andreas Terzis,Florian Tramèr
発行日 2025-03-24 15:54:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR | Defeating Prompt Injections by Design はコメントを受け付けていません

Towards Responsible AI Music: an Investigation of Trustworthy Features for Creative Systems

要約

生成的AIは、文化的な工芸品の作成と対話の方法を根本的に変えることにより、創造的な芸術を根本的に変化させています。
芸術的な表現と商業化のための前例のない機会を提供しながら、この技術は倫理的、社会的、法的懸念をもたらします。
これらの重要なのは、人間の創造性の潜在的な変位、膨大なトレーニングデータセットに起因する著作権侵害、および透明性、説明可能性、公平性メカニズムの欠如です。
このドメインで生成システムが広まるにつれて、責任ある設計が重要です。
以前の研究は、生成システムの孤立した側面(透明性、評価、データなど)に取り組んでいますが、包括的なアプローチを採用し、欧州委員会が任命したAIが生み出した高レベルの専門家グループが生み出した信頼できる人工知能の倫理ガイドライン内でこれらの取り組みを根拠としています。
生成音楽AIに焦点を当て、これらの要件をフィールドに対してコンテキスト化する方法を説明し、複数の次元にわたる信頼性に対処し、既存の文献からの洞察を統合します。
さらに、これらの文脈化された要件を運用するためのロードマップを提案し、学際的なコラボレーションと利害関係者の関与を強調します。
私たちの仕事は、AIの専門家、倫理学者、法学者、芸術家の間でのコラボレーションを求めて、責任ある音楽生成システムを設計および評価するための基盤を提供します。
この原稿には、Webサイトhttps://amresearchlab.github.io/raim-framework/が付属しています。

要約(オリジナル)

Generative AI is radically changing the creative arts, by fundamentally transforming the way we create and interact with cultural artefacts. While offering unprecedented opportunities for artistic expression and commercialisation, this technology also raises ethical, societal, and legal concerns. Key among these are the potential displacement of human creativity, copyright infringement stemming from vast training datasets, and the lack of transparency, explainability, and fairness mechanisms. As generative systems become pervasive in this domain, responsible design is crucial. Whilst previous work has tackled isolated aspects of generative systems (e.g., transparency, evaluation, data), we take a comprehensive approach, grounding these efforts within the Ethics Guidelines for Trustworthy Artificial Intelligence produced by the High-Level Expert Group on AI appointed by the European Commission – a framework for designing responsible AI systems across seven macro requirements. Focusing on generative music AI, we illustrate how these requirements can be contextualised for the field, addressing trustworthiness across multiple dimensions and integrating insights from the existing literature. We further propose a roadmap for operationalising these contextualised requirements, emphasising interdisciplinary collaboration and stakeholder engagement. Our work provides a foundation for designing and evaluating responsible music generation systems, calling for collaboration among AI experts, ethicists, legal scholars, and artists. This manuscript is accompanied by a website: https://amresearchlab.github.io/raim-framework/.

arxiv情報

著者 Jacopo de Berardinis,Lorenzo Porcaro,Albert Meroño-Peñuela,Angelo Cangelosi,Tess Buckley
発行日 2025-03-24 15:54:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Towards Responsible AI Music: an Investigation of Trustworthy Features for Creative Systems はコメントを受け付けていません

Learning Multi-Robot Coordination through Locality-Based Factorized Multi-Agent Actor-Critic Algorithm

要約

この作業では、\ textbf {loc} ality based \ textbf {fac} torized \ textbf {m} ulti-agent \ textbf {a} ctor- \ textbf {c} ritic(loc-facmac)と呼ばれる新しい協同組合マルチエージェント補強学習方法を紹介します。
FACMACなどの既存の最先端のアルゴリズムは、分散型システムにおける個々のロボットのアクションの品質を正確に反映していないグローバルな報酬情報に依存しています。
地域の概念を批評家の学習に統合します。批評家学習では、トレーニング中に強く関連するロボットがパーティションを形成します。
同じパーティション内のロボットは、相互に大きな影響を与え、より正確なポリシー評価につながります。
さらに、ロボット間の関係をキャプチャする依存書グラフを構築し、パーティションプロセスを促進します。
このアプローチは、次元の呪いを軽減し、ロボットが無関係な情報を使用することを防ぎます。
私たちの方法は、ローカルの報酬に焦点を当て、パーティションベースの学習を活用してトレーニングの効率とパフォーマンスを向上させることにより、既存のアルゴリズムを改善します。
廊下、マルチカートポール、および境界協力的ナビゲーションの3つの環境でのloc-Facmacのパフォーマンスを評価します。
パフォーマンスに対するパーティションサイズの影響を調査し、結果をLOMAQ、FACMAC、QMIXなどのベースラインMARLアルゴリズムと比較します。
実験では、局所構造が適切に定義されている場合、loc-facmacがこれらのベースラインアルゴリズムを108 \%まで上回ることを明らかにしており、俳優criticフレームワークのローカリティ構造を活用することでMARLのパフォーマンスが向上することを示しています。

要約(オリジナル)

In this work, we present a novel cooperative multi-agent reinforcement learning method called \textbf{Loc}ality based \textbf{Fac}torized \textbf{M}ulti-Agent \textbf{A}ctor-\textbf{C}ritic (Loc-FACMAC). Existing state-of-the-art algorithms, such as FACMAC, rely on global reward information, which may not accurately reflect the quality of individual robots’ actions in decentralized systems. We integrate the concept of locality into critic learning, where strongly related robots form partitions during training. Robots within the same partition have a greater impact on each other, leading to more precise policy evaluation. Additionally, we construct a dependency graph to capture the relationships between robots, facilitating the partitioning process. This approach mitigates the curse of dimensionality and prevents robots from using irrelevant information. Our method improves existing algorithms by focusing on local rewards and leveraging partition-based learning to enhance training efficiency and performance. We evaluate the performance of Loc-FACMAC in three environments: Hallway, Multi-cartpole, and Bounded-Cooperative-Navigation. We explore the impact of partition sizes on the performance and compare the result with baseline MARL algorithms such as LOMAQ, FACMAC, and QMIX. The experiments reveal that, if the locality structure is defined properly, Loc-FACMAC outperforms these baseline algorithms up to 108\%, indicating that exploiting the locality structure in the actor-critic framework improves the MARL performance.

arxiv情報

著者 Chak Lam Shek,Amrit Singh Bedi,Anjon Basak,Ellen Novoseller,Nick Waytowich,Priya Narayanan,Dinesh Manocha,Pratap Tokekar
発行日 2025-03-24 16:00:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Learning Multi-Robot Coordination through Locality-Based Factorized Multi-Agent Actor-Critic Algorithm はコメントを受け付けていません

EconEvals: Benchmarks and Litmus Tests for LLM Agents in Unknown Environments

要約

不明な環境で行動し、学習し、戦略を立てるLLMエージェントのベンチマークを開発します。これは、LLMエージェントが意図的な探索から時間をかけて学習しなければならない仕様です。
私たちのベンチマークは、経済学の重要な問題に由来する意思決定タスクで構成されています。
飽和状態を未然に防ぐために、ベンチマークタスクはスケーラブルな難易度レベルで合成的に生成されます。
さらに、LLMSおよびLLMエージェントの新しい種類の定量的尺度であるLitmusテストを提案します。
ベンチマークとは異なり、Litmusテストは、LLMおよびLLMエージェントの文字、値、および傾向の違いを定量化します。
全体として、当社のベンチマークとLitmusテストは、調達、スケジュール、タスクの割り当て、価格設定にまたがる多様な設定における複雑な経済問題に取り組むLLMエージェントの能力と傾向を評価します – そのようなエージェントがさらに重要になるはずのアプリケーションが経済にさらに統合されます。

要約(オリジナル)

We develop benchmarks for LLM agents that act in, learn from, and strategize in unknown environments, the specifications of which the LLM agent must learn over time from deliberate exploration. Our benchmarks consist of decision-making tasks derived from key problems in economics. To forestall saturation, the benchmark tasks are synthetically generated with scalable difficulty levels. Additionally, we propose litmus tests, a new kind of quantitative measure for LLMs and LLM agents. Unlike benchmarks, litmus tests quantify differences in character, values, and tendencies of LLMs and LLM agents, by considering their behavior when faced with tradeoffs (e.g., efficiency versus equality) where there is no objectively right or wrong behavior. Overall, our benchmarks and litmus tests assess the abilities and tendencies of LLM agents in tackling complex economic problems in diverse settings spanning procurement, scheduling, task allocation, and pricing — applications that should grow in importance as such agents are further integrated into the economy.

arxiv情報

著者 Sara Fish,Julia Shephard,Minkai Li,Ran I. Shorrer,Yannai A. Gonczarowski
発行日 2025-03-24 16:06:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.GT | EconEvals: Benchmarks and Litmus Tests for LLM Agents in Unknown Environments はコメントを受け付けていません

Interpretable and Fair Mechanisms for Abstaining Classifiers

要約

分類器を棄権するには、分類が困難なインスタンスの予測の提供を控えるオプションがあります。
棄権メカニズムは、最小数の予測を確保しながら、受け入れられたデータでの分類器のパフォーマンスをトレードオフするように設計されています。
この設定では、多くの場合、棄権メカニズムがデータの大多数グループのエラーを減らすだけで、人口統計グループ全体でパフォーマンスの違いが増加すると、公平性の懸念が生じます。
棄権するときに差別を減らすことを目的とする多くの方法が存在しますが、説明可能な方法でそうすることができるメカニズムはありません。
このホワイトペーパーでは、このギャップを埋めて、不確実性と不公平の両方に基づいて予測を拒否できるアルゴリズムである解釈可能で公正な分類器IFACを導入します。
おそらく不公平な予測を拒否することにより、私たちの方法は、拒否されていないデータの人口統計グループ間のエラーと正の決定率の差を減らします。
不公平に基づいた拒否は、解釈可能な設計方法、つまりルールベースの公正チェックと状況テストに基づいているため、人間の意思決定者が不公平な予測をレビューし、より正当な意思決定を行うことができる透明なプロセスを作成します。
この説明可能な側面は、最近のAI規制に照らして特に重要であり、差別のリスクを減らすために人間の専門家が高リスクの決定タスクを監督すべきであることを義務付けています。

要約(オリジナル)

Abstaining classifiers have the option to refrain from providing a prediction for instances that are difficult to classify. The abstention mechanism is designed to trade off the classifier’s performance on the accepted data while ensuring a minimum number of predictions. In this setting, often fairness concerns arise when the abstention mechanism solely reduces errors for the majority groups of the data, resulting in increased performance differences across demographic groups. While there exist a bunch of methods that aim to reduce discrimination when abstaining, there is no mechanism that can do so in an explainable way. In this paper, we fill this gap by introducing Interpretable and Fair Abstaining Classifier IFAC, an algorithm that can reject predictions both based on their uncertainty and their unfairness. By rejecting possibly unfair predictions, our method reduces error and positive decision rate differences across demographic groups of the non-rejected data. Since the unfairness-based rejections are based on an interpretable-by-design method, i.e., rule-based fairness checks and situation testing, we create a transparent process that can empower human decision-makers to review the unfair predictions and make more just decisions for them. This explainable aspect is especially important in light of recent AI regulations, mandating that any high-risk decision task should be overseen by human experts to reduce discrimination risks.

arxiv情報

著者 Daphne Lenders,Andrea Pugnana,Roberto Pellungrini,Toon Calders,Dino Pedreschi,Fosca Giannotti
発行日 2025-03-24 16:06:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Interpretable and Fair Mechanisms for Abstaining Classifiers はコメントを受け付けていません

Three Kinds of AI Ethics

要約

AI倫理には圧倒的に豊富な作品があります。
この成長は、それがどれほど突然であるか、その量、およびその学際的な性質のために混oticとしています。
これにより、議論を追跡し、AI倫理学者が必要とする目標、研究の質問、方法、専門知識を体系的に特徴付けることが困難になります。
この記事では、AIと倫理の関係は、少なくとも3つの方法で特徴付けられることを示しています。
AIの倫理;
AIの倫理。
これらの3種類のAI倫理の特徴を解明し、研究の質問を特徴付け、各種類が必要とする種類の専門知識を特定します。
また、AI倫理に対する特定の批判が、ある種のAI倫理の観点から、異なる目標を持つ別の種類にどのように行われているかを示します。
全体として、この作品はAI倫理の性質に光を当て、AI倫理学者の範囲、方法、訓練に関するより情報に基づいた議論の根拠を設定します。

要約(オリジナル)

There is an overwhelmingly abundance of works in AI Ethics. This growth is chaotic because of how sudden it is, its volume, and its multidisciplinary nature. This makes difficult to keep track of debates, and to systematically characterize goals, research questions, methods, and expertise required by AI ethicists. In this article, I show that the relation between AI and ethics can be characterized in at least three ways, which correspond to three well-represented kinds of AI ethics: ethics and AI; ethics in AI; ethics of AI. I elucidate the features of these three kinds of AI Ethics, characterize their research questions, and identify the kind of expertise that each kind needs. I also show how certain criticisms to AI ethics are misplaced, as being done from the point of view of one kind of AI ethics, to another kind with different goals. All in all, this work sheds light on the nature of AI ethics, and set the grounds for more informed discussions about scope, methods, and trainings of AI ethicists.

arxiv情報

著者 Emanuele Ratti
発行日 2025-03-24 16:15:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY | Three Kinds of AI Ethics はコメントを受け付けていません

Self-Organizing Graph Reasoning Evolves into a Critical State for Continuous Discovery Through Structural-Semantic Dynamics

要約

エージェントグラフ推論システムが、継続的なセマンティック発見を維持する重要な状態に向かって自発的に進化する方法についての基本的な洞察を報告します。
構造(von neumannグラフエントロピー)とセマンティック(埋め込み)エントロピーを厳密に分析することにより、セマンティックエントロピーが構造エントロピーよりも持続的に支配する微妙で堅牢なレジームを特定します。
この相互作用は、小さな負の値で安定する無次元の批判的発見パラメーターによって定量化され、セマンティックエントロピーの一貫した過剰を示します。
経験的には、「驚くべき」エッジの安定した画分(12%)、意味的に遠い概念間のリンクを観察し、連続的なイノベーションを促進する長距離またはドメインの接続の証拠を提供します。
同時に、システムは、構造的尺度とセマンティック測定の間の否定的な相互相関に加えて、スケールフリーで小規模のトポロジー特性を示し、自己組織化された臨界と類似性を強化します。
これらの結果は、物理的、生物学的、および認知的複雑なシステムにおける重要な現象と明確な類似点を確立し、適応性と継続的なイノベーションを管理するエントロピーベースの原則を明らかにします。
重要なことに、推論プロセスで明示的に使用されていないにもかかわらず、意味の豊かさは持続的な探査の基礎となるドライバーとして現れます。
私たちの調査結果は、学際的な洞察と、長期的な発見と適応のための本質的な能力を備えたインテリジェントシステムを工学するための実践的戦略を提供し、批判的発見を強化するモデルトレーニング戦略を開発する方法についての洞察を提供します。

要約(オリジナル)

We report fundamental insights into how agentic graph reasoning systems spontaneously evolve toward a critical state that sustains continuous semantic discovery. By rigorously analyzing structural (Von Neumann graph entropy) and semantic (embedding) entropy, we identify a subtle yet robust regime in which semantic entropy persistently dominates over structural entropy. This interplay is quantified by a dimensionless Critical Discovery Parameter that stabilizes at a small negative value, indicating a consistent excess of semantic entropy. Empirically, we observe a stable fraction (12%) of ‘surprising’ edges, links between semantically distant concepts, providing evidence of long-range or cross-domain connections that drive continuous innovation. Concomitantly, the system exhibits scale-free and small-world topological features, alongside a negative cross-correlation between structural and semantic measures, reinforcing the analogy to self-organized criticality. These results establish clear parallels with critical phenomena in physical, biological, and cognitive complex systems, revealing an entropy-based principle governing adaptability and continuous innovation. Crucially, semantic richness emerges as the underlying driver of sustained exploration, despite not being explicitly used by the reasoning process. Our findings provide interdisciplinary insights and practical strategies for engineering intelligent systems with intrinsic capacities for long-term discovery and adaptation, and offer insights into how model training strategies can be developed that reinforce critical discovery.

arxiv情報

著者 Markus J. Buehler
発行日 2025-03-24 16:30:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.mes-hall, cs.AI, cs.LG, nlin.AO, physics.app-ph | Self-Organizing Graph Reasoning Evolves into a Critical State for Continuous Discovery Through Structural-Semantic Dynamics はコメントを受け付けていません

Structuring Scientific Innovation: A Framework for Modeling and Discovering Impactful Knowledge Combinations

要約

大規模な言語モデルの出現は、科学的知識の構造化された探求のための新しい可能性を提供します。
科学的発見を孤立したアイデアやコンテンツと見なすのではなく、破壊的な洞察を形作る際の方法の組み合わせの役割を強調する構造化されたアプローチを提案します。
具体的には、知識単位、特に方法論的設計に結び付けられたものがどのようにモデル化され、再結合されて研究のブレークスルーをもたらすかを調査します。提案されたフレームワークは2つの重要な課題に対処します。
まず、問題駆動型のコンテキスト内で歴史的に破壊的な方法の組み合わせの際立った特徴を特定するための対照的な学習ベースのメカニズムを紹介します。
この研究は、構造化された推論と履歴データモデリングに基づいた計算誘導科学的アイデアの新しい道を提供します。

要約(オリジナル)

The emergence of large language models offers new possibilities for structured exploration of scientific knowledge. Rather than viewing scientific discovery as isolated ideas or content, we propose a structured approach that emphasizes the role of method combinations in shaping disruptive insights. Specifically, we investigate how knowledge unit–especially those tied to methodological design–can be modeled and recombined to yield research breakthroughs.Our proposed framework addresses two key challenges. First, we introduce a contrastive learning-based mechanism to identify distinguishing features of historically disruptive method combinations within problem-driven contexts.Second, we propose a reasoning-guided Monte Carlo search algorithm that leverages the chain-of-thought capability of LLMs to identify promising knowledge recombinations for new problem statements.Empirical studies across multiple domains show that the framework is capable of modeling the structural dynamics of innovation and successfully highlights combinations with high disruptive potential.This research provides a new path for computationally guided scientific ideation grounded in structured reasoning and historical data modeling.

arxiv情報

著者 Junlan Chen,Kexin Zhang,Daifeng Li,Yangyang Feng,Yuxuan Zhang,Bowen Deng
発行日 2025-03-24 16:41:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Structuring Scientific Innovation: A Framework for Modeling and Discovering Impactful Knowledge Combinations はコメントを受け付けていません

Reasoning to Learn from Latent Thoughts

要約

言語モデル(LM)の事前トレーニングのスケーリングを計算すると、人間が書いたテキストの成長を上回り、データがLMスケーリングのボトルネックになるという懸念につながります。
このデータが制約したレジームの事前脱布のスケーリングを継続するために、テキスト生成プロセスの根底にある潜在的な考えを明示的にモデル化し、推測することで、前のデータ効率を大幅に改善できることを提案します。
直感的に、私たちのアプローチは、Webテキストを、冗長な人間の思考プロセスの圧縮された最終結果と見なし、潜在的な思考には、データ効率の高い学習に不可欠な重要な文脈的知識と推論ステップが含まれていると見なしています。
数学のためのデータが制約された継続的な事前販売を通じて、アプローチの有効性を経験的に実証します。
まず、合成データが潜在的思考を推測するためにアプローチしてデータの効率を大幅に改善し、同じ量の生データ(5.7 \%$ \ rightArrow $ 25.4 \%)でトレーニングを上回ることを示します。
さらに、強力な教師なしで潜在的な思考の推論を示します。LMは、emアルゴリズムを使用して訓練されたLMの能力と思考能力のある前削除データの品質を繰り返し改善することにより、独自のパフォーマンスをブートストラップします。
1B LMが少なくとも3つの反復にわたってパフォーマンスをブートストラップし、生データでトレーニングされたベースラインを大幅に上回ることができることを示しています。
推論のスケーリングと繰り返しによる利益は、データが制約した事前削除をスケーリングする新しい機会を示唆しています。

要約(オリジナル)

Compute scaling for language model (LM) pretraining has outpaced the growth of human-written texts, leading to concerns that data will become the bottleneck to LM scaling. To continue scaling pretraining in this data-constrained regime, we propose that explicitly modeling and inferring the latent thoughts that underlie the text generation process can significantly improve pretraining data efficiency. Intuitively, our approach views web text as the compressed final outcome of a verbose human thought process and that the latent thoughts contain important contextual knowledge and reasoning steps that are critical to data-efficient learning. We empirically demonstrate the effectiveness of our approach through data-constrained continued pretraining for math. We first show that synthetic data approaches to inferring latent thoughts significantly improve data efficiency, outperforming training on the same amount of raw data (5.7\% $\rightarrow$ 25.4\% on MATH). Furthermore, we demonstrate latent thought inference without a strong teacher, where an LM bootstraps its own performance by using an EM algorithm to iteratively improve the capability of the trained LM and the quality of thought-augmented pretraining data. We show that a 1B LM can bootstrap its performance across at least three iterations and significantly outperform baselines trained on raw data, with increasing gains from additional inference compute when performing the E-step. The gains from inference scaling and EM iterations suggest new opportunities for scaling data-constrained pretraining.

arxiv情報

著者 Yangjun Ruan,Neil Band,Chris J. Maddison,Tatsunori Hashimoto
発行日 2025-03-24 16:41:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Reasoning to Learn from Latent Thoughts はコメントを受け付けていません

Bootstrapped Model Predictive Control

要約

モデル予測制御(MPC)は、継続的な制御タスクに効果的であることが実証されています。
世界モデルと値関数が利用可能な場合、事前に一連のアクションを計画すると、より良いポリシーにつながります。
既存のメソッドは通常、モデルのない方法で値関数と対応するポリシーを取得します。
ただし、このようなアプローチは複雑なタスクと格闘しているため、政策学習が不十分で価値の推定が不正確になります。
この問題に対処するために、MPC自体の強みを活用します。
この作業では、ブートストラップされたモデル予測制御(BMPC)を紹介します。これは、ブートストラップされた方法でポリシー学習を実行する新しいアルゴリズムです。
BMPCは、MPCの専門家を模倣することによりネットワークポリシーを学習し、このポリシーを使用してMPCプロセスをガイドします。
モデルベースのTD学習と組み合わせると、当社のポリシー学習はより良い価値の推定をもたらし、MPCの効率をさらに高めます。
また、計算上効率の良い模倣学習を可能にする怠zyな再分析メカニズムも導入します。
私たちの方法は、多様な連続制御タスクに関する以前の作業よりも優れたパフォーマンスを実現します。
特に、挑戦的な高次元の移動タスクでは、BMPCはデータ効率を大幅に向上させ、同等のトレーニング時間とネットワークサイズが小さく、漸近パフォーマンスとトレーニングの安定性を高めます。
コードはhttps://github.com/wertyuilife2/bmpcで入手できます。

要約(オリジナル)

Model Predictive Control (MPC) has been demonstrated to be effective in continuous control tasks. When a world model and a value function are available, planning a sequence of actions ahead of time leads to a better policy. Existing methods typically obtain the value function and the corresponding policy in a model-free manner. However, we find that such an approach struggles with complex tasks, resulting in poor policy learning and inaccurate value estimation. To address this problem, we leverage the strengths of MPC itself. In this work, we introduce Bootstrapped Model Predictive Control (BMPC), a novel algorithm that performs policy learning in a bootstrapped manner. BMPC learns a network policy by imitating an MPC expert, and in turn, uses this policy to guide the MPC process. Combined with model-based TD-learning, our policy learning yields better value estimation and further boosts the efficiency of MPC. We also introduce a lazy reanalyze mechanism, which enables computationally efficient imitation learning. Our method achieves superior performance over prior works on diverse continuous control tasks. In particular, on challenging high-dimensional locomotion tasks, BMPC significantly improves data efficiency while also enhancing asymptotic performance and training stability, with comparable training time and smaller network sizes. Code is available at https://github.com/wertyuilife2/bmpc.

arxiv情報

著者 Yuhang Wang,Hanwei Guo,Sizhe Wang,Long Qian,Xuguang Lan
発行日 2025-03-24 16:46:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | Bootstrapped Model Predictive Control はコメントを受け付けていません