MF-CLIP: Leveraging CLIP as Surrogate Models for No-box Adversarial Attacks

要約

深いニューラルネットワーク(DNNS)の敵対的な攻撃に対する脆弱性は、安全性の高いアプリケーションでの展開に大きな課題をもたらします。
広範な研究ではさまざまな攻撃シナリオに対処していますが、ターゲットモデルのトレーニングデータへのアクセスを含む事前知識がない場合は、その実用的な関連性にもかかわらず、比較的目立たない依存しています。
この作業は、ノーボックス攻撃を実行するためのサロゲートモデルとして、大規模なビジョン言語モデル(VLMS)、特にクリップを活用するための体系的な調査を提示します。
私たちの理論的および経験的分析は、代理モデルとしてバニラクリップを直接適用するための不十分な識別能力に起因するNO-Box攻撃の実行における重要な制限を明らかにしています。
この制限に対処するために、MF-Clipを提案します。これは、マージンを認識する機能スペースの最適化を通じて、代理モデルとしてのクリップの有効性を高める新しいフレームワークです。
多様なアーキテクチャとデータセット全体の包括的な評価は、MFクリップがノーボックス攻撃で最先端の攻撃を大幅に進め、標準モデルで既存のベースラインを15.23%上回り、敵対的に訓練されたモデルで9.52%の改善を達成することを示しています。
私たちのコードは、この方向での再現性と将来の研究を促進するために公開されます。

要約(オリジナル)

The vulnerability of Deep Neural Networks (DNNs) to adversarial attacks poses a significant challenge to their deployment in safety-critical applications. While extensive research has addressed various attack scenarios, the no-box attack setting where adversaries have no prior knowledge, including access to training data of the target model, remains relatively underexplored despite its practical relevance. This work presents a systematic investigation into leveraging large-scale Vision-Language Models (VLMs), particularly CLIP, as surrogate models for executing no-box attacks. Our theoretical and empirical analyses reveal a key limitation in the execution of no-box attacks stemming from insufficient discriminative capabilities for direct application of vanilla CLIP as a surrogate model. To address this limitation, we propose MF-CLIP: a novel framework that enhances CLIP’s effectiveness as a surrogate model through margin-aware feature space optimization. Comprehensive evaluations across diverse architectures and datasets demonstrate that MF-CLIP substantially advances the state-of-the-art in no-box attacks, surpassing existing baselines by 15.23% on standard models and achieving a 9.52% improvement on adversarially trained models. Our code will be made publicly available to facilitate reproducibility and future research in this direction.

arxiv情報

著者 Jiaming Zhang,Lingyu Qiu,Qi Yi,Yige Li,Jitao Sang,Changsheng Xu,Dit-Yan Yeung
発行日 2025-03-24 15:27:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.LG | MF-CLIP: Leveraging CLIP as Surrogate Models for No-box Adversarial Attacks はコメントを受け付けていません

HybridNorm: Towards Stable and Efficient Transformer Training via Hybrid Normalization

要約

トランスフォーマーは、特に大規模な言語モデル(LLM)で、幅広い機械学習タスクの事実上のアーキテクチャとなっています。
驚くべきパフォーマンスにもかかわらず、特に層の正規化の位置に関して、深い変圧器ネットワークのトレーニングに課題が残っています。
プレノーム構造は、より顕著なアイデンティティパスのために簡単なトレーニングを促進しますが、多くの場合、ポストノームと比較して最適ではないパフォーマンスをもたらします。
このホワイトペーパーでは、$ \ textBf {HybridNorm} $を提案します。これは、プリノームとノーム後のアプローチの両方の利点を統合する簡単でありながら効果的なハイブリッド正規化戦略です。
具体的には、ハイブリッドノームは、各トランスブロックのフィードフォワードネットワーク(FFN)で注意メカニズムとポストノーム内でQKV正規化を採用しています。
このデザインは、特にLLMSのコンテキストで、トレーニングを安定させるだけでなく、パフォーマンスを向上させます。
密集したアーキテクチャとスパースアーキテクチャの両方での包括的な実験は、ハイブリッドノームが一貫してノーム以前のアプローチとノーム後のアプローチの両方を上回り、さまざまなベンチマークで最新の結果を達成することを示しています。
これらの発見は、ディープトランスモデルのトレーニングとパフォーマンスを改善するためのより安定した効果的な手法としてのハイブリッドノームの可能性を強調しています。
コードはhttps://github.com/brycezhuo/hybridnormで入手できます。

要約(オリジナル)

Transformers have become the de facto architecture for a wide range of machine learning tasks, particularly in large language models (LLMs). Despite their remarkable performance, challenges remain in training deep transformer networks, especially regarding the location of layer normalization. While Pre-Norm structures facilitate easier training due to their more prominent identity path, they often yield suboptimal performance compared to Post-Norm. In this paper, we propose $\textbf{HybridNorm}$, a straightforward yet effective hybrid normalization strategy that integrates the advantages of both Pre-Norm and Post-Norm approaches. Specifically, HybridNorm employs QKV normalization within the attention mechanism and Post-Norm in the feed-forward network (FFN) of each transformer block. This design not only stabilizes training but also enhances performance, particularly in the context of LLMs. Comprehensive experiments in both dense and sparse architectures show that HybridNorm consistently outperforms both Pre-Norm and Post-Norm approaches, achieving state-of-the-art results across various benchmarks. These findings highlight the potential of HybridNorm as a more stable and effective technique for improving the training and performance of deep transformer models. Code is available at https://github.com/BryceZhuo/HybridNorm.

arxiv情報

著者 Zhijian Zhuo,Yutao Zeng,Ya Wang,Sijun Zhang,Jian Yang,Xiaoqing Li,Xun Zhou,Jinwen Ma
発行日 2025-03-24 15:27:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | HybridNorm: Towards Stable and Efficient Transformer Training via Hybrid Normalization はコメントを受け付けていません

Frequency Dynamic Convolution for Dense Image Prediction

要約

動的畳み込み(DY-CONV)は、注意メカニズムと組み合わせた複数の並列重量を介して適応体重選択を可能にすることにより有望なパフォーマンスを示していますが、これらの重量の周波数応答は高い類似性を示し、高いパラメーターコストをもたらしますが、適応性は限られています。
この作業では、Frequency Dynamic Convolution(FDCONV)を導入します。これは、Forierドメインで固定パラメーター予算を学習することでこれらの制限を軽減する新しいアプローチです。
FDCONVは、この予算を分離フーリエインデックスで周波数ベースのグループに分割し、パラメーターコストを増やすことなく周波数ダイバーウェイトの構築を可能にします。
適応性をさらに向上させるために、カーネル空間変調(KSM)と周波数帯域変調(FBM)を提案します。
KSMは、各フィルターの周波数応答を空間レベルで動的に調整し、FBMは周波数ドメインの異なる周波数帯域に重みを分解し、ローカルコンテンツに基づいて動的に変調します。
オブジェクトの検出、セグメンテーション、および分類に関する広範な実験により、FDCONVの有効性が検証されます。
ResNet-50に適用されると、FDCONVは +3.6mパラメーターの適度な増加で優れたパフォーマンスを達成し、パラメーター予算の大幅な増加を必要とする以前の方法(Condconv +90m、kw +76.5mなど)を上回ることを実証します。
さらに、FDCONVは、Convnext、Swin-Transformerなど、さまざまなアーキテクチャにシームレスに統合され、最新のビジョンタスクに柔軟で効率的なソリューションを提供します。
このコードは、https://github.com/linwei-chen/fdconvで公開されています。

要約(オリジナル)

While Dynamic Convolution (DY-Conv) has shown promising performance by enabling adaptive weight selection through multiple parallel weights combined with an attention mechanism, the frequency response of these weights tends to exhibit high similarity, resulting in high parameter costs but limited adaptability. In this work, we introduce Frequency Dynamic Convolution (FDConv), a novel approach that mitigates these limitations by learning a fixed parameter budget in the Fourier domain. FDConv divides this budget into frequency-based groups with disjoint Fourier indices, enabling the construction of frequency-diverse weights without increasing the parameter cost. To further enhance adaptability, we propose Kernel Spatial Modulation (KSM) and Frequency Band Modulation (FBM). KSM dynamically adjusts the frequency response of each filter at the spatial level, while FBM decomposes weights into distinct frequency bands in the frequency domain and modulates them dynamically based on local content. Extensive experiments on object detection, segmentation, and classification validate the effectiveness of FDConv. We demonstrate that when applied to ResNet-50, FDConv achieves superior performance with a modest increase of +3.6M parameters, outperforming previous methods that require substantial increases in parameter budgets (e.g., CondConv +90M, KW +76.5M). Moreover, FDConv seamlessly integrates into a variety of architectures, including ConvNeXt, Swin-Transformer, offering a flexible and efficient solution for modern vision tasks. The code is made publicly available at https://github.com/Linwei-Chen/FDConv.

arxiv情報

著者 Linwei Chen,Lin Gu,Liang Li,Chenggang Yan,Ying Fu
発行日 2025-03-24 15:32:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Frequency Dynamic Convolution for Dense Image Prediction はコメントを受け付けていません

CarbonSense: A Multimodal Dataset and Baseline for Carbon Flux Modelling

要約

陸生炭素フラックスは、私たちの生物圏の健康と、人為的なCo $ _2 $排出量を吸収する能力に関する重要な情報を提供します。
炭素フラックスを予測することの重要性は、統計的手法を使用して生物物理学的データから炭素フラックスを予測するデータ駆動型炭素フラックスモデリング(DDCFM)の新興分野につながりました。
ただし、フィールドには、モデル間の比較を促進するための標準化されたデータセットがありません。
このギャップに対処するために、DDCFMの最初の機械学習対応データセットであるCarbonsenseを提示します。
Carbonsenseは、世界中の385の場所から測定された炭素フラックス、気象予測因子、衛星画像を統合し、包括的なカバレッジを提供し、堅牢なモデルトレーニングを促進します。
さらに、現在の最先端のDDCFMアプローチと新しいトランスベースのモデルを使用して、ベースラインモデルを提供します。
私たちの実験は、マルチモーダルの深い学習技術がこのドメインにもたらす潜在的な利益を示しています。
これらのリソースを提供することにより、私たちは、他の深い学習研究者が新しいモデルを開発し、炭素フラックスモデリングの新しい進歩を促進するための参入障壁を下げることを目指しています。

要約(オリジナル)

Terrestrial carbon fluxes provide vital information about our biosphere’s health and its capacity to absorb anthropogenic CO$_2$ emissions. The importance of predicting carbon fluxes has led to the emerging field of data-driven carbon flux modelling (DDCFM), which uses statistical techniques to predict carbon fluxes from biophysical data. However, the field lacks a standardized dataset to promote comparisons between models. To address this gap, we present CarbonSense, the first machine learning-ready dataset for DDCFM. CarbonSense integrates measured carbon fluxes, meteorological predictors, and satellite imagery from 385 locations across the globe, offering comprehensive coverage and facilitating robust model training. Additionally, we provide a baseline model using a current state-of-the-art DDCFM approach and a novel transformer based model. Our experiments illustrate the potential gains that multimodal deep learning techniques can bring to this domain. By providing these resources, we aim to lower the barrier to entry for other deep learning researchers to develop new models and drive new advances in carbon flux modelling.

arxiv情報

著者 Matthew Fortier,Mats L. Richter,Oliver Sonnentag,Chris Pal
発行日 2025-03-24 15:37:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | CarbonSense: A Multimodal Dataset and Baseline for Carbon Flux Modelling はコメントを受け付けていません

REALM: A Dataset of Real-World LLM Use Cases

要約

GPTシリーズなどの大規模な言語モデルは、重要な産業用途を推進しており、経済的および社会的変革につながりました。
ただし、実際のアプリケーションの包括的な理解は依然として限られています。
これに対処するために、Redditおよびニュース記事から収集された94,000を超えるLLMユースケースのデータセットであるRealmを紹介します。
Realmは、LLMSの多様なアプリケーションとユーザーの人口統計の2つの重要な側面を捉えています。
LLMアプリケーションを分類し、ユーザーの職業が使用するアプリケーションの種類にどのように関連しているかを調査します。
現実世界のデータを統合することにより、RealmはさまざまなドメインにわたるLLM採用に関する洞察を提供し、進化する社会的役割に関する将来の研究の基盤を提供します。
専用のダッシュボードhttps://realm-e7682.web.app/データを提示します。

要約(オリジナル)

Large Language Models, such as the GPT series, have driven significant industrial applications, leading to economic and societal transformations. However, a comprehensive understanding of their real-world applications remains limited. To address this, we introduce REALM, a dataset of over 94,000 LLM use cases collected from Reddit and news articles. REALM captures two key dimensions: the diverse applications of LLMs and the demographics of their users. It categorizes LLM applications and explores how users’ occupations relate to the types of applications they use. By integrating real-world data, REALM offers insights into LLM adoption across different domains, providing a foundation for future research on their evolving societal roles. A dedicated dashboard https://realm-e7682.web.app/ presents the data.

arxiv情報

著者 Jingwen Cheng,Kshitish Ghate,Wenyue Hua,William Yang Wang,Hong Shen,Fei Fang
発行日 2025-03-24 15:39:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY, cs.HC | REALM: A Dataset of Real-World LLM Use Cases はコメントを受け付けていません

Classical Planning with LLM-Generated Heuristics: Challenging the State of the Art with Python Code

要約

近年、大規模な言語モデル(LLM)は、さまざまな人工知能の問題に顕著な能力を示しています。
ただし、計画タスクの詳細な定義でプロンプトされた場合でも、それらは確実に計画を立てていません。
考え方の促し、微調整、明示的な「推論」など、計画能力を改善しようとする試みは、依然として誤った計画をもたらし、通常はより大きなタスクに一般化することができません。
このホワイトペーパーでは、サイズの増加の分散型タスクであっても、LLMSを使用して正しい計画を生成する方法を示します。
特定の計画ドメインについては、LLMにPythonコードの形でいくつかのドメイン依存性ヒューリスティック関数を生成し、貪欲なベストファースト検索内の一連のトレーニングタスクでそれらを評価し、最強の検索を選択します。
結果として生成されるLLM生成ヒューリスティックは、古典的な計画のための最先端のドメインに依存しないヒューリスティックよりも、より多くの目に見えないテストタスクを解決します。
それらは、ドメイン依存の計画のための最も強力な学習アルゴリズムとさえ競争しています。
これらの調査結果は、概念実証の実装が最適化されていないPythonプランナーに基づいており、すべてが高度に最適化されたC ++コードに基づいて構築されていることを考えると、特に顕著です。
一部のドメインでは、LLMが生成したヒューリスティックは、ベースラインよりも少ない状態を拡張し、効率的に計算可能であるだけでなく、最先端のヒューリスティックよりもさらに有益であることが明らかになりました。
全体として、我々の結果は、一連の計画ヒューリスティック機能プログラムをサンプリングすることでLLMの計画能力を大幅に改善できることを示しています。

要約(オリジナル)

In recent years, large language models (LLMs) have shown remarkable capabilities in various artificial intelligence problems. However, they fail to plan reliably, even when prompted with a detailed definition of the planning task. Attempts to improve their planning capabilities, such as chain-of-thought prompting, fine-tuning, and explicit ‘reasoning’ still yield incorrect plans and usually fail to generalize to larger tasks. In this paper, we show how to use LLMs to generate correct plans, even for out-of-distribution tasks of increasing size. For a given planning domain, we ask an LLM to generate several domain-dependent heuristic functions in the form of Python code, evaluate them on a set of training tasks within a greedy best-first search, and choose the strongest one. The resulting LLM-generated heuristics solve many more unseen test tasks than state-of-the-art domain-independent heuristics for classical planning. They are even competitive with the strongest learning algorithm for domain-dependent planning. These findings are especially remarkable given that our proof-of-concept implementation is based on an unoptimized Python planner and the baselines all build upon highly optimized C++ code. In some domains, the LLM-generated heuristics expand fewer states than the baselines, revealing that they are not only efficiently computable, but sometimes even more informative than the state-of-the-art heuristics. Overall, our results show that sampling a set of planning heuristic function programs can significantly improve the planning capabilities of LLMs.

arxiv情報

著者 Augusto B. Corrêa,André G. Pereira,Jendrik Seipp
発行日 2025-03-24 15:50:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Classical Planning with LLM-Generated Heuristics: Challenging the State of the Art with Python Code はコメントを受け付けていません

Defeating Prompt Injections by Design

要約

大規模な言語モデル(LLM)は、外部環境と相互作用するエージェントシステムにますます展開されています。
ただし、LLMエージェントは、信頼されていないデータを処理する際の迅速な注入攻撃に対して脆弱です。
この論文では、LLMの周りに保護システム層を作成する堅牢な防御であるCamelを提案し、基礎となるモデルが攻撃の影響を受けやすい場合でも保護します。
操作するために、キャメルは(信頼できる)クエリからコントロールとデータの流れを明示的に抽出します。
したがって、LLMによって取得された信頼されていないデータは、プログラムの流れに決して影響を与えることはありません。
セキュリティをさらに改善するために、Camelは、不正なデータフローよりもプライベートデータの拡張を防ぐ能力の概念に依存しています。
最近のエージェントセキュリティベンチマークであるAgentdojo [Neurips 2024]の証明可能なセキュリティを持つタスクの67ドル\%$を解くことにより、ラクダの有効性を実証します。

要約(オリジナル)

Large Language Models (LLMs) are increasingly deployed in agentic systems that interact with an external environment. However, LLM agents are vulnerable to prompt injection attacks when handling untrusted data. In this paper we propose CaMeL, a robust defense that creates a protective system layer around the LLM, securing it even when underlying models may be susceptible to attacks. To operate, CaMeL explicitly extracts the control and data flows from the (trusted) query; therefore, the untrusted data retrieved by the LLM can never impact the program flow. To further improve security, CaMeL relies on a notion of a capability to prevent the exfiltration of private data over unauthorized data flows. We demonstrate effectiveness of CaMeL by solving $67\%$ of tasks with provable security in AgentDojo [NeurIPS 2024], a recent agentic security benchmark.

arxiv情報

著者 Edoardo Debenedetti,Ilia Shumailov,Tianqi Fan,Jamie Hayes,Nicholas Carlini,Daniel Fabian,Christoph Kern,Chongyang Shi,Andreas Terzis,Florian Tramèr
発行日 2025-03-24 15:54:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR | Defeating Prompt Injections by Design はコメントを受け付けていません

Towards Responsible AI Music: an Investigation of Trustworthy Features for Creative Systems

要約

生成的AIは、文化的な工芸品の作成と対話の方法を根本的に変えることにより、創造的な芸術を根本的に変化させています。
芸術的な表現と商業化のための前例のない機会を提供しながら、この技術は倫理的、社会的、法的懸念をもたらします。
これらの重要なのは、人間の創造性の潜在的な変位、膨大なトレーニングデータセットに起因する著作権侵害、および透明性、説明可能性、公平性メカニズムの欠如です。
このドメインで生成システムが広まるにつれて、責任ある設計が重要です。
以前の研究は、生成システムの孤立した側面(透明性、評価、データなど)に取り組んでいますが、包括的なアプローチを採用し、欧州委員会が任命したAIが生み出した高レベルの専門家グループが生み出した信頼できる人工知能の倫理ガイドライン内でこれらの取り組みを根拠としています。
生成音楽AIに焦点を当て、これらの要件をフィールドに対してコンテキスト化する方法を説明し、複数の次元にわたる信頼性に対処し、既存の文献からの洞察を統合します。
さらに、これらの文脈化された要件を運用するためのロードマップを提案し、学際的なコラボレーションと利害関係者の関与を強調します。
私たちの仕事は、AIの専門家、倫理学者、法学者、芸術家の間でのコラボレーションを求めて、責任ある音楽生成システムを設計および評価するための基盤を提供します。
この原稿には、Webサイトhttps://amresearchlab.github.io/raim-framework/が付属しています。

要約(オリジナル)

Generative AI is radically changing the creative arts, by fundamentally transforming the way we create and interact with cultural artefacts. While offering unprecedented opportunities for artistic expression and commercialisation, this technology also raises ethical, societal, and legal concerns. Key among these are the potential displacement of human creativity, copyright infringement stemming from vast training datasets, and the lack of transparency, explainability, and fairness mechanisms. As generative systems become pervasive in this domain, responsible design is crucial. Whilst previous work has tackled isolated aspects of generative systems (e.g., transparency, evaluation, data), we take a comprehensive approach, grounding these efforts within the Ethics Guidelines for Trustworthy Artificial Intelligence produced by the High-Level Expert Group on AI appointed by the European Commission – a framework for designing responsible AI systems across seven macro requirements. Focusing on generative music AI, we illustrate how these requirements can be contextualised for the field, addressing trustworthiness across multiple dimensions and integrating insights from the existing literature. We further propose a roadmap for operationalising these contextualised requirements, emphasising interdisciplinary collaboration and stakeholder engagement. Our work provides a foundation for designing and evaluating responsible music generation systems, calling for collaboration among AI experts, ethicists, legal scholars, and artists. This manuscript is accompanied by a website: https://amresearchlab.github.io/raim-framework/.

arxiv情報

著者 Jacopo de Berardinis,Lorenzo Porcaro,Albert Meroño-Peñuela,Angelo Cangelosi,Tess Buckley
発行日 2025-03-24 15:54:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Towards Responsible AI Music: an Investigation of Trustworthy Features for Creative Systems はコメントを受け付けていません

Learning Multi-Robot Coordination through Locality-Based Factorized Multi-Agent Actor-Critic Algorithm

要約

この作業では、\ textbf {loc} ality based \ textbf {fac} torized \ textbf {m} ulti-agent \ textbf {a} ctor- \ textbf {c} ritic(loc-facmac)と呼ばれる新しい協同組合マルチエージェント補強学習方法を紹介します。
FACMACなどの既存の最先端のアルゴリズムは、分散型システムにおける個々のロボットのアクションの品質を正確に反映していないグローバルな報酬情報に依存しています。
地域の概念を批評家の学習に統合します。批評家学習では、トレーニング中に強く関連するロボットがパーティションを形成します。
同じパーティション内のロボットは、相互に大きな影響を与え、より正確なポリシー評価につながります。
さらに、ロボット間の関係をキャプチャする依存書グラフを構築し、パーティションプロセスを促進します。
このアプローチは、次元の呪いを軽減し、ロボットが無関係な情報を使用することを防ぎます。
私たちの方法は、ローカルの報酬に焦点を当て、パーティションベースの学習を活用してトレーニングの効率とパフォーマンスを向上させることにより、既存のアルゴリズムを改善します。
廊下、マルチカートポール、および境界協力的ナビゲーションの3つの環境でのloc-Facmacのパフォーマンスを評価します。
パフォーマンスに対するパーティションサイズの影響を調査し、結果をLOMAQ、FACMAC、QMIXなどのベースラインMARLアルゴリズムと比較します。
実験では、局所構造が適切に定義されている場合、loc-facmacがこれらのベースラインアルゴリズムを108 \%まで上回ることを明らかにしており、俳優criticフレームワークのローカリティ構造を活用することでMARLのパフォーマンスが向上することを示しています。

要約(オリジナル)

In this work, we present a novel cooperative multi-agent reinforcement learning method called \textbf{Loc}ality based \textbf{Fac}torized \textbf{M}ulti-Agent \textbf{A}ctor-\textbf{C}ritic (Loc-FACMAC). Existing state-of-the-art algorithms, such as FACMAC, rely on global reward information, which may not accurately reflect the quality of individual robots’ actions in decentralized systems. We integrate the concept of locality into critic learning, where strongly related robots form partitions during training. Robots within the same partition have a greater impact on each other, leading to more precise policy evaluation. Additionally, we construct a dependency graph to capture the relationships between robots, facilitating the partitioning process. This approach mitigates the curse of dimensionality and prevents robots from using irrelevant information. Our method improves existing algorithms by focusing on local rewards and leveraging partition-based learning to enhance training efficiency and performance. We evaluate the performance of Loc-FACMAC in three environments: Hallway, Multi-cartpole, and Bounded-Cooperative-Navigation. We explore the impact of partition sizes on the performance and compare the result with baseline MARL algorithms such as LOMAQ, FACMAC, and QMIX. The experiments reveal that, if the locality structure is defined properly, Loc-FACMAC outperforms these baseline algorithms up to 108\%, indicating that exploiting the locality structure in the actor-critic framework improves the MARL performance.

arxiv情報

著者 Chak Lam Shek,Amrit Singh Bedi,Anjon Basak,Ellen Novoseller,Nick Waytowich,Priya Narayanan,Dinesh Manocha,Pratap Tokekar
発行日 2025-03-24 16:00:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Learning Multi-Robot Coordination through Locality-Based Factorized Multi-Agent Actor-Critic Algorithm はコメントを受け付けていません

EconEvals: Benchmarks and Litmus Tests for LLM Agents in Unknown Environments

要約

不明な環境で行動し、学習し、戦略を立てるLLMエージェントのベンチマークを開発します。これは、LLMエージェントが意図的な探索から時間をかけて学習しなければならない仕様です。
私たちのベンチマークは、経済学の重要な問題に由来する意思決定タスクで構成されています。
飽和状態を未然に防ぐために、ベンチマークタスクはスケーラブルな難易度レベルで合成的に生成されます。
さらに、LLMSおよびLLMエージェントの新しい種類の定量的尺度であるLitmusテストを提案します。
ベンチマークとは異なり、Litmusテストは、LLMおよびLLMエージェントの文字、値、および傾向の違いを定量化します。
全体として、当社のベンチマークとLitmusテストは、調達、スケジュール、タスクの割り当て、価格設定にまたがる多様な設定における複雑な経済問題に取り組むLLMエージェントの能力と傾向を評価します – そのようなエージェントがさらに重要になるはずのアプリケーションが経済にさらに統合されます。

要約(オリジナル)

We develop benchmarks for LLM agents that act in, learn from, and strategize in unknown environments, the specifications of which the LLM agent must learn over time from deliberate exploration. Our benchmarks consist of decision-making tasks derived from key problems in economics. To forestall saturation, the benchmark tasks are synthetically generated with scalable difficulty levels. Additionally, we propose litmus tests, a new kind of quantitative measure for LLMs and LLM agents. Unlike benchmarks, litmus tests quantify differences in character, values, and tendencies of LLMs and LLM agents, by considering their behavior when faced with tradeoffs (e.g., efficiency versus equality) where there is no objectively right or wrong behavior. Overall, our benchmarks and litmus tests assess the abilities and tendencies of LLM agents in tackling complex economic problems in diverse settings spanning procurement, scheduling, task allocation, and pricing — applications that should grow in importance as such agents are further integrated into the economy.

arxiv情報

著者 Sara Fish,Julia Shephard,Minkai Li,Ran I. Shorrer,Yannai A. Gonczarowski
発行日 2025-03-24 16:06:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.GT | EconEvals: Benchmarks and Litmus Tests for LLM Agents in Unknown Environments はコメントを受け付けていません