Causal Concept Graph Models: Beyond Causal Opacity in Deep Learning

要約

因果不透明度は、ディープニューラルネットワーク(DNN)モデルの決定の根底にある「隠された」因果構造を理解するのが難しいことを示します。
これにより、特にハイステークスシナリオで、最先端のDNNベースのシステムに依存して検証できなくなります。
このため、DNNSの因果不透明度を回避することは、深い学習、解釈可能性、因果関係の交差点での重要なオープンな課題を表しています。
この作業は、意思決定プロセスが設計により因果的に透明である解釈可能なモデルのクラスである因果概念グラフモデル(因果CGM)を導入することにより、このギャップに対処します。
我々の実験は、因果CGMが次のことを示しています。(i)因果的に不透明なモデルの一般化パフォーマンスと一致し、(ii)誤って予測された中間推論の手順をループする人間の修正を可能にし、修正後の下流の精度だけでなく、特定の例で提供された説明の関係性も高め、(III)uculion and countal and countalの分析をサポートします。
信頼性と公平性の効果的な検証をサポートします。

要約(オリジナル)

Causal opacity denotes the difficulty in understanding the ‘hidden’ causal structure underlying the decisions of deep neural network (DNN) models. This leads to the inability to rely on and verify state-of-the-art DNN-based systems, especially in high-stakes scenarios. For this reason, circumventing causal opacity in DNNs represents a key open challenge at the intersection of deep learning, interpretability, and causality. This work addresses this gap by introducing Causal Concept Graph Models (Causal CGMs), a class of interpretable models whose decision-making process is causally transparent by design. Our experiments show that Causal CGMs can: (i) match the generalisation performance of causally opaque models, (ii) enable human-in-the-loop corrections to mispredicted intermediate reasoning steps, boosting not just downstream accuracy after corrections but also the reliability of the explanations provided for specific instances, and (iii) support the analysis of interventional and counterfactual scenarios, thereby improving the model’s causal interpretability and supporting the effective verification of its reliability and fairness.

arxiv情報

著者 Gabriele Dominici,Pietro Barbiero,Mateo Espinosa Zarlenga,Alberto Termine,Martin Gjoreski,Giuseppe Marra,Marc Langheinrich
発行日 2025-04-01 10:47:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Causal Concept Graph Models: Beyond Causal Opacity in Deep Learning はコメントを受け付けていません

Machine Unlearning Fails to Remove Data Poisoning Attacks

要約

大規模な深い学習のために開発されたおおよそのマシンの概算のためのいくつかの実用的な方法の有効性を再訪します。
データの削除要求に準拠することに加えて、学習方法を解除するための潜在的なアプリケーションの1つは、中毒データの効果を削除することです。
既存の未解決の方法は多くの設定で効果的であることが実証されているが、さまざまな種類の中毒攻撃(無差別、標的、および新しく導入されたガウス中毒攻撃)およびモデル(画像分類子およびLLM)にわたるデータ中毒の影響を除去できないことを実験的に実証します。
比較的大きな計算予算が付与された場合でも。
未学習の有効性を正確に特徴付けるために、データ中毒に基づいて学習するための新しい評価メトリックを導入します。
私たちの結果は、幅広い評価を含むより広範な視点が、証明可能な保証なしに深い学習のための機械の学習手順に対する誤った自信を避けるために必要であることを示唆しています。
さらに、学習方法の未学習は、再訓練することなく有毒なデータを効率的に除去するのに役立つ兆候を示していますが、私たちの研究は、これらの方法がまだ「プライムタイムの準備ができていない」ことを示唆しており、現在再訓練に限られた利益を提供しています。

要約(オリジナル)

We revisit the efficacy of several practical methods for approximate machine unlearning developed for large-scale deep learning. In addition to complying with data deletion requests, one often-cited potential application for unlearning methods is to remove the effects of poisoned data. We experimentally demonstrate that, while existing unlearning methods have been demonstrated to be effective in a number of settings, they fail to remove the effects of data poisoning across a variety of types of poisoning attacks (indiscriminate, targeted, and a newly-introduced Gaussian poisoning attack) and models (image classifiers and LLMs); even when granted a relatively large compute budget. In order to precisely characterize unlearning efficacy, we introduce new evaluation metrics for unlearning based on data poisoning. Our results suggest that a broader perspective, including a wider variety of evaluations, are required to avoid a false sense of confidence in machine unlearning procedures for deep learning without provable guarantees. Moreover, while unlearning methods show some signs of being useful to efficiently remove poisoned data without having to retrain, our work suggests that these methods are not yet “ready for prime time,” and currently provide limited benefit over retraining.

arxiv情報

著者 Martin Pawelczyk,Jimmy Z. Di,Yiwei Lu,Ayush Sekhari,Gautam Kamath,Seth Neel
発行日 2025-04-01 10:49:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.CY, cs.LG | Machine Unlearning Fails to Remove Data Poisoning Attacks はコメントを受け付けていません

Reactive Diffusion Policy: Slow-Fast Visual-Tactile Policy Learning for Contact-Rich Manipulation

要約

人間は、ビジョンとタッチを使用して複雑な接触豊富なタスクを達成でき、環境の変化に対する迅速な調整や接触力の適応制御などの非常に反応性のある機能を備えています。
ただし、これはロボットにとって挑戦的なままです。
既存の視覚的模倣学習(IL)アプローチは、複雑な動作をモデル化するためのアクションチャンキングに依存しています。
さらに、ほとんどのテレオ操作システムは、実行できるタスクの範囲を制限する微調整された触覚 /力のフィードバックを提供するのに苦労しています。
これらの課題に対処するために、拡張現実(AR)を介してリアルタイムの触覚フィードバックを提供する低コストの視聴システム(AR)と、接触豊富な操作スキルを学習するための新規遅い視覚視覚模倣学習アルゴリズムであるReactive拡散ポリシー(RDP)とともに、Tactarを紹介します。
RDPは、2レベルの階層を採用しています。(1)低周波数の潜在空間での高レベルのアクションチャンクを予測するための遅い潜在的拡散ポリシー、(2)高周波での閉ループ触覚フィードバック制御のための高速非対称トークネザー。
この設計により、統一されたフレームワーク内で複雑な軌跡モデリングと迅速な反応挙動の両方が可能になります。
3つの挑戦的な接触豊富なタスクにわたる広範な評価を通じて、RDPは、触覚 /力のフィードバックに対する迅速な反応を通じて、最先端の視覚的なILベースラインと比較してパフォーマンスを大幅に向上させます。
さらに、実験では、RDPが異なる触覚 /力センサーに適用可能であることが示されています。
コードとビデオは、https://reative-diffusion-policy.github.ioで入手できます。

要約(オリジナル)

Humans can accomplish complex contact-rich tasks using vision and touch, with highly reactive capabilities such as quick adjustments to environmental changes and adaptive control of contact forces; however, this remains challenging for robots. Existing visual imitation learning (IL) approaches rely on action chunking to model complex behaviors, which lacks the ability to respond instantly to real-time tactile feedback during the chunk execution. Furthermore, most teleoperation systems struggle to provide fine-grained tactile / force feedback, which limits the range of tasks that can be performed. To address these challenges, we introduce TactAR, a low-cost teleoperation system that provides real-time tactile feedback through Augmented Reality (AR), along with Reactive Diffusion Policy (RDP), a novel slow-fast visual-tactile imitation learning algorithm for learning contact-rich manipulation skills. RDP employs a two-level hierarchy: (1) a slow latent diffusion policy for predicting high-level action chunks in latent space at low frequency, (2) a fast asymmetric tokenizer for closed-loop tactile feedback control at high frequency. This design enables both complex trajectory modeling and quick reactive behavior within a unified framework. Through extensive evaluation across three challenging contact-rich tasks, RDP significantly improves performance compared to state-of-the-art visual IL baselines through rapid response to tactile / force feedback. Furthermore, experiments show that RDP is applicable across different tactile / force sensors. Code and videos are available on https://reactive-diffusion-policy.github.io.

arxiv情報

著者 Han Xue,Jieji Ren,Wendi Chen,Gu Zhang,Yuan Fang,Guoying Gu,Huazhe Xu,Cewu Lu
発行日 2025-04-01 11:54:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | Reactive Diffusion Policy: Slow-Fast Visual-Tactile Policy Learning for Contact-Rich Manipulation はコメントを受け付けていません

Sabiá-3 Technical Report

要約

このレポートは、新しいフラッグシップ言語モデルであるSabi \ ‘A-3と、より費用対効果の高い兄弟であるSabiazinho-3を紹介しています。
モデルは、大きなブラジル中心のコーパスで訓練されました。
多様な専門的および学術的なベンチマーク全体の評価は、ポルトガル語とブラジル関連のタスクで強力なパフォーマンスを示しています。
Sabi \ ‘A-3は、特に推論集約型のタスクにおいて、以前のベストモデルであるSabia-2 Mediumと比較して、大きな改善を示しています。
特に、Sabi \ ‘A-3の平均パフォーマンスはフロンティアLLMSと一致しますが、トークンあたり3〜4倍低いコストで提供されており、ドメインの専門化の利点を強化します。

要約(オリジナル)

This report presents Sabi\’a-3, our new flagship language model, and Sabiazinho-3, a more cost-effective sibling. The models were trained on a large brazilian-centric corpus. Evaluations across diverse professional and academic benchmarks show a strong performance on Portuguese and Brazil-related tasks. Sabi\’a-3 shows large improvements in comparison to our previous best of model, Sabia-2 Medium, especially in reasoning-intensive tasks. Notably, Sabi\’a-3’s average performance matches frontier LLMs, while it is offered at a three to four times lower cost per token, reinforcing the benefits of domain specialization.

arxiv情報

著者 Hugo Abonizio,Thales Sales Almeida,Thiago Laitz,Roseval Malaquias Junior,Giovana Kerche Bonás,Rodrigo Nogueira,Ramon Pires
発行日 2025-04-01 12:19:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Sabiá-3 Technical Report はコメントを受け付けていません

QualiSpeech: A Speech Quality Assessment Dataset with Natural Language Reasoning and Descriptions

要約

このペーパーでは、自然言語の説明を活用することにより、音声品質評価に対する新しい視点を探り、従来の数値スコアリング方法よりも豊かで微妙な洞察を提供します。
自然言語のフィードバックは、有益な推奨事項と詳細な評価を提供しますが、既存のデータセットには、このアプローチに必要な包括的な注釈がありません。
このギャップを埋めるために、Qualispeechを紹介します。Qualispeechは、11の重要な側面と、推論や文脈的洞察を含む詳細な自然言語コメントを含む包括的な低レベルの音声品質評価データセットです。
さらに、聴覚大型言語モデル(LLM)の低レベルの音声理解能力を評価するために、Qualispeechベンチマークを提案します。
実験結果は、微調製された聴覚LLMがノイズと歪みの詳細な説明を確実に生成し、その種類と時間的特性を効果的に識別できることを示しています。
結果は、質の評価の精度と信頼性を高めるために推論を組み込む可能性をさらに強調しています。
データセットはhttps://huggingface.co/datasets/tsinghua-ee/qualispeechでリリースされます。

要約(オリジナル)

This paper explores a novel perspective to speech quality assessment by leveraging natural language descriptions, offering richer, more nuanced insights than traditional numerical scoring methods. Natural language feedback provides instructive recommendations and detailed evaluations, yet existing datasets lack the comprehensive annotations needed for this approach. To bridge this gap, we introduce QualiSpeech, a comprehensive low-level speech quality assessment dataset encompassing 11 key aspects and detailed natural language comments that include reasoning and contextual insights. Additionally, we propose the QualiSpeech Benchmark to evaluate the low-level speech understanding capabilities of auditory large language models (LLMs). Experimental results demonstrate that finetuned auditory LLMs can reliably generate detailed descriptions of noise and distortion, effectively identifying their types and temporal characteristics. The results further highlight the potential for incorporating reasoning to enhance the accuracy and reliability of quality assessments. The dataset will be released at https://huggingface.co/datasets/tsinghua-ee/QualiSpeech.

arxiv情報

著者 Siyin Wang,Wenyi Yu,Xianzhao Chen,Xiaohai Tian,Jun Zhang,Lu Lu,Yu Tsao,Junichi Yamagishi,Yuxuan Wang,Chao Zhang
発行日 2025-04-01 12:33:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | QualiSpeech: A Speech Quality Assessment Dataset with Natural Language Reasoning and Descriptions はコメントを受け付けていません

HRET: A Self-Evolving LLM Evaluation Toolkit for Korean

要約

韓国の大手言語モデル(LLMS)の最近の進歩は、多数のベンチマークと評価方法論に拍車をかけてきましたが、標準化された評価フレームワークの欠如は一貫性のない結果と比較可能性を制限しました。
これに対処するために、韓国のLLMS専用に調整されたオープンソースの自己進化評価フレームワークであるHRET Haerae Evaluation Toolkitを紹介します。
HRETは、ロジットベースのスコアリング、正確な試合、言語継続性の罰則、LLM-A-a-Judge評価など、多​​様な評価方法を統合します。
モジュラーのレジストリベースのアーキテクチャは、主要なベンチマーク(HAE-RAEベンチ、KMMLU、Kudge、HRM8K)と複数の推論バックエンド(VLLM、Huggingface、OpenAI互換のエンドポイント)を統合します。
継続的な進化のための自動パイプラインにより、HRETは、再現性があり、公正で、透明な韓国NLP研究のための堅牢な基盤を提供します。

要約(オリジナル)

Recent advancements in Korean large language models (LLMs) have spurred numerous benchmarks and evaluation methodologies, yet the lack of a standardized evaluation framework has led to inconsistent results and limited comparability. To address this, we introduce HRET Haerae Evaluation Toolkit, an open-source, self-evolving evaluation framework tailored specifically for Korean LLMs. HRET unifies diverse evaluation methods, including logit-based scoring, exact-match, language-inconsistency penalization, and LLM-as-a-Judge assessments. Its modular, registry-based architecture integrates major benchmarks (HAE-RAE Bench, KMMLU, KUDGE, HRM8K) and multiple inference backends (vLLM, HuggingFace, OpenAI-compatible endpoints). With automated pipelines for continuous evolution, HRET provides a robust foundation for reproducible, fair, and transparent Korean NLP research.

arxiv情報

著者 Hanwool Lee,Soo Yong Kim,Dasol Choi,SangWon Baek,Seunghyeok Hong,Ilgyun Jeong,Inseon Hwang,Naeun Lee,Guijin Son
発行日 2025-04-01 12:37:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CE, cs.CL | HRET: A Self-Evolving LLM Evaluation Toolkit for Korean はコメントを受け付けていません

A Graph-to-Text Approach to Knowledge-Grounded Response Generation in Human-Robot Interaction

要約

ナレッジグラフは、構造化された情報を柔軟で効率的な方法で表すためによく使用されますが、そのような対話での使用は依存していないままです。
この論文では、対話状態のグラフベースの表現に基づいた、人間とロボットの相互作用のための新しい会話モデルを紹介します。
ダイアログ状態を表す知識グラフは、言語、位置、マルチモーダル入力を含むロボットセンサーからの新しい観測により継続的に更新され、特に空間的理解のために他のモジュールによってさらに濃縮されます。
ユーザーの発話に応答するために採用されたニューラル会話モデルは、ダイアログ状態グラフを通過し、トラバーサルを自然言語形式に変換する単純だが効果的なグラフからテキスト間メカニズムに依存しています。
この状態グラフのテキストへの変換は、パラメーター化された関数のセットを使用して実行され、それらのパラメーターの値は、ウィザードオブオンスの相互作用の小さなセットに基づいて最適化されます。
この変換の後、ダイアログ状態グラフのテキスト表現は、エージェントの応答を解読するために使用される大規模な言語モデルのプロンプトの一部として含まれています。
提案されたアプローチは、応答生成に対するグラフからテキストメカニズムの影響を評価するために会話パートナーとして機能するヒューマノイドロボットを使用したユーザー調査を通じて経験的に評価されます。
屋内環境のツアーに沿ってロボットを移動した後、参加者は話し言葉を使用してロボットと対話し、ロボットがツアー中にロボットが観察したことについての質問にどれだけよく答えることができるかを評価しました。
ユーザースコアは、セマンティックトリプルとして構成された入力を使用したベースラインと比較して、グラフからテキストアプローチが採用されている場合、ロボット応答の知覚された事実性の統計的に有意な改善を示しています。

要約(オリジナル)

Knowledge graphs are often used to represent structured information in a flexible and efficient manner, but their use in situated dialogue remains under-explored. This paper presents a novel conversational model for human–robot interaction that rests upon a graph-based representation of the dialogue state. The knowledge graph representing the dialogue state is continuously updated with new observations from the robot sensors, including linguistic, situated and multimodal inputs, and is further enriched by other modules, in particular for spatial understanding. The neural conversational model employed to respond to user utterances relies on a simple but effective graph-to-text mechanism that traverses the dialogue state graph and converts the traversals into a natural language form. This conversion of the state graph into text is performed using a set of parameterized functions, and the values for those parameters are optimized based on a small set of Wizard-of-Oz interactions. After this conversion, the text representation of the dialogue state graph is included as part of the prompt of a large language model used to decode the agent response. The proposed approach is empirically evaluated through a user study with a humanoid robot that acts as conversation partner to evaluate the impact of the graph-to-text mechanism on the response generation. After moving a robot along a tour of an indoor environment, participants interacted with the robot using spoken dialogue and evaluated how well the robot was able to answer questions about what the robot observed during the tour. User scores show a statistically significant improvement in the perceived factuality of the robot responses when the graph-to-text approach is employed, compared to a baseline using inputs structured as semantic triples.

arxiv情報

著者 Nicholas Thomas Walker,Stefan Ultes,Pierre Lison
発行日 2025-04-01 12:39:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | A Graph-to-Text Approach to Knowledge-Grounded Response Generation in Human-Robot Interaction はコメントを受け付けていません

PICLe: Pseudo-Annotations for In-Context Learning in Low-Resource Named Entity Detection

要約

コンテキスト内学習(ICL)により、大規模な言語モデル(LLM)が少数のデモンストレーションを使用してタスクを実行できます。ラベルのある例を取得するのが難しい場合は、タスクの適応を促進します。
ただし、ICLはデモンストレーションの選択に敏感であり、どのデモンストレーション属性がコンテキスト内の一般化を有効にするかは不明のままです。
この作業では、低リソースという名前のエンティティ検出(NED)のコンテキスト内デモンストレーションの摂動​​研究を実施します。
私たちの驚くべき発見は、部分的に正しい注釈付きエンティティの言及を伴うコンテキスト内デモンストレーションは、完全に正しいデモンストレーションと同じくらいタスク転送に効果的である可能性があるということです。
調査結果に基づいて、ノイズの多い擬似解決デモンストレーションを使用したコンテキスト学習のフレームワークである擬似感染内学習(Picle)を提案します。
ピクルはLLMを活用して、ゼロショットファーストパスで多くのデモンストレーションを注釈します。
次に、これらの合成デモンストレーションをクラスター化し、各クラスターからのコンテキスト内デモンストレーションの特定のセットをサンプリングし、各セットを独立して使用してエンティティの言及を予測します。
最後に、自己検証を使用して、最終的なエンティティの言及セットを選択します。
5つの生物医学的NEDデータセットでピクルを評価し、人間の注釈がゼロで、ピクルが低リソース設定でICLを上回ることを示しています。

要約(オリジナル)

In-context learning (ICL) enables Large Language Models (LLMs) to perform tasks using few demonstrations, facilitating task adaptation when labeled examples are hard to obtain. However, ICL is sensitive to the choice of demonstrations, and it remains unclear which demonstration attributes enable in-context generalization. In this work, we conduct a perturbation study of in-context demonstrations for low-resource Named Entity Detection (NED). Our surprising finding is that in-context demonstrations with partially correct annotated entity mentions can be as effective for task transfer as fully correct demonstrations. Based off our findings, we propose Pseudo-annotated In-Context Learning (PICLe), a framework for in-context learning with noisy, pseudo-annotated demonstrations. PICLe leverages LLMs to annotate many demonstrations in a zero-shot first pass. We then cluster these synthetic demonstrations, sample specific sets of in-context demonstrations from each cluster, and predict entity mentions using each set independently. Finally, we use self-verification to select the final set of entity mentions. We evaluate PICLe on five biomedical NED datasets and show that, with zero human annotation, PICLe outperforms ICL in low-resource settings where limited gold examples can be used as in-context demonstrations.

arxiv情報

著者 Sepideh Mamooler,Syrielle Montariol,Alexander Mathis,Antoine Bosselut
発行日 2025-04-01 12:45:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | PICLe: Pseudo-Annotations for In-Context Learning in Low-Resource Named Entity Detection はコメントを受け付けていません

Forest-of-Thought: Scaling Test-Time Compute for Enhancing LLM Reasoning

要約

大規模な言語モデル(LLM)は、さまざまな言語タスクにわたって顕著な能力を実証していますが、複雑な推論の問題を解決することは依然として重要な課題です。
考え方(COT)や思考のツリー(TOT)などの既存の方法は、問題の分解またはプロンプトの構造化により推論を強化しますが、通常、推論の単一のパスを実行し、欠陥のあるパスを再訪して精度を損なう可能性があります。
この制限に対処するために、私たちは、複雑な論理的問題を解決するために集団的意思決定を活用するために複数の推論ツリーを統合する、考え方(FOT)と呼ばれる新しい推論フレームワークを提案します。
FOTは、まばらなアクティベーション戦略を採用して、最も関連性の高い推論パスを選択し、効率と精度の両方を改善します。
さらに、リアルタイムのエラー修正を可能にする動的な自己修正戦略と、正確性と計算リソースの両方を最適化するコンセンサスガイド付きの意思決定戦略を導入します。
実験結果は、FOTフレームワークとこれらの戦略が組み合わさって、LLMの推論能力を大幅に向上させ、より正確で効率的に複雑なタスクを解決できるようにすることを示しています。
コードはhttps://github.com/iamhankai/forest-of-thoughtで入手できます。

要約(オリジナル)

Large Language Models (LLMs) have demonstrated remarkable abilities across various language tasks, but solving complex reasoning problems remains a significant challenge. While existing methods, such as Chain-of-Thought (CoT) and Tree-of-Thought (ToT), enhance reasoning by decomposing problems or structuring prompts, they typically perform a single pass of reasoning and may fail to revisit flawed paths, compromising accuracy. To address this limitation, we propose a novel reasoning framework called Forest-of-Thought (FoT), which integrates multiple reasoning trees to leverage collective decision-making for solving complex logical problems. FoT employs sparse activation strategies to select the most relevant reasoning paths, improving both efficiency and accuracy. Additionally, we introduce a dynamic self-correction strategy that enables real-time error correction, along with consensus-guided decision-making strategies to optimize both correctness and computational resources. Experimental results demonstrate that the FoT framework, combined with these strategies, significantly enhances the reasoning capabilities of LLMs, enabling them to solve complex tasks with greater precision and efficiency. Code will be available at https://github.com/iamhankai/Forest-of-Thought.

arxiv情報

著者 Zhenni Bi,Kai Han,Chuanjian Liu,Yehui Tang,Yunhe Wang
発行日 2025-04-01 12:48:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Forest-of-Thought: Scaling Test-Time Compute for Enhancing LLM Reasoning はコメントを受け付けていません

Scalable Safe Multi-Agent Reinforcement Learning for Multi-Agent System

要約

安全性とスケーラビリティは、実用的なマルチエージェントシステム(MAS)が直面する2つの重要な課題です。
ただし、報酬形状のみに依存する既存のマルチエージェント補強学習(MARL)アルゴリズムは、安全性を確保するのに効果がなく、固定サイズのネットワーク出力によりスケーラビリティはかなり限られています。
これらの問題に対処するために、MARLメソッドの安全性とスケーラビリティを向上させるために、新しいフレームワーク、スケーラブルなSafe Marl(SS-Marl)を提案します。
MASの固有のグラフ構造を活用すると、さまざまなサイズのローカル観測と通信を集約するために、マルチレイヤーメッセージの通過ネットワークを設計します。
さらに、安全性を向上させるために、局所観察の設定で制約された共同政策最適化方法を開発します。
シミュレーション実験は、SS-MARLがベースラインと比較して最適性と安全性の間でより良いトレードオフを達成し、そのスケーラビリティが多くのエージェントとシナリオの最新の方法を大幅に上回ることを示しています。

要約(オリジナル)

Safety and scalability are two critical challenges faced by practical Multi-Agent Systems (MAS). However, existing Multi-Agent Reinforcement Learning (MARL) algorithms that rely solely on reward shaping are ineffective in ensuring safety, and their scalability is rather limited due to the fixed-size network output. To address these issues, we propose a novel framework, Scalable Safe MARL (SS-MARL), to enhance the safety and scalability of MARL methods. Leveraging the inherent graph structure of MAS, we design a multi-layer message passing network to aggregate local observations and communications of varying sizes. Furthermore, we develop a constrained joint policy optimization method in the setting of local observation to improve safety. Simulation experiments demonstrate that SS-MARL achieves a better trade-off between optimality and safety compared to baselines, and its scalability significantly outperforms the latest methods in scenarios with a large number of agents.

arxiv情報

著者 Haikuo Du,Fandi Gou,Yunze Cai
発行日 2025-04-01 12:59:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.MA | Scalable Safe Multi-Agent Reinforcement Learning for Multi-Agent System はコメントを受け付けていません