Discovering new robust local search algorithms with neuro-evolution

要約

このペーパーでは、ローカル検索アルゴリズムの領域で既存の課題を克服することを目的とした新しいアプローチを探ります。
私たちの目的は、各反復で近隣で可能な限り最高の移行を行うために、ローカル検索アルゴリズム内で行われる決定プロセスを改善することです。
このプロセスを改善するために、従来のローカル検索アルゴリズムと同じ入力情報を持つニューラルネットワークを使用することを提案します。
EvoCop2024で提示された作業の拡張であるこのホワイトペーパーでは、アルゴリズムを可能な限り効率的に、問題目的関数の単調変換に対しても堅牢にするために、この情報を表現するさまざまな方法を調査します。
このアプローチの効率を評価するために、NKランドスケープの問題を中心とした実験セットアップを開発し、問題のサイズと頑丈さを調整する柔軟性を提供します。
このアプローチは、新しいローカル検索アルゴリズムの出現と、ブラックボックスの問題に対する問題解決機能の改善のための有望な手段を提供します。
この記事の最後のバージョンは、Journal SN Computer Science(Springer)に掲載されています。

要約(オリジナル)

This paper explores a novel approach aimed at overcoming existing challenges in the realm of local search algorithms. Our aim is to improve the decision process that takes place within a local search algorithm so as to make the best possible transitions in the neighborhood at each iteration. To improve this process, we propose to use a neural network that has the same input information as conventional local search algorithms. In this paper, which is an extension of the work presented at EvoCOP2024, we investigate different ways of representing this information so as to make the algorithm as efficient as possible but also robust to monotonic transformations of the problem objective function. To assess the efficiency of this approach, we develop an experimental setup centered around NK landscape problems, offering the flexibility to adjust problem size and ruggedness. This approach offers a promising avenue for the emergence of new local search algorithms and the improvement of their problem-solving capabilities for black-box problems. The last version of this article is published in the journal SN Computer Science (Springer).

arxiv情報

著者 Mohamed Salim Amri Sakhri,Adrien Goëffon,Olivier Goudet,Frédéric Saubion,Chaïmaâ Touhami
発行日 2025-03-12 16:37:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.NE | Discovering new robust local search algorithms with neuro-evolution はコメントを受け付けていません

PairVDN – Pair-wise Decomposed Value Functions

要約

共同Qラーニングを協力的なマルチエージェント設定に拡張することは、共同行動空間の指数関数的な成長、非定常環境、クレジット割り当ての問題により挑戦的です。
値分解により、表現率の低下を犠牲にして、共同エージェントレベルで深いQラーニングを適用することができます。
この方向に過去の作業に基づいて構築された私たちの論文は、ペアブドンを提案します。これは、値関数をエージェントではなくペアワイズのコレクションに分解し、より複雑な(ただし効率的な)動的プログラミングの最大化アルゴリズムを必要とするコストで表現力を向上させるための新しい方法です。
私たちの方法により、VDNやQMIXなどの過去のアプローチとは異なり、エージェント一人の関数の単調な組み合わせとして表現できない値関数の表現が可能になります。
私たちは、この設定でこれらのベースラインでの小説の多くのエージェント協同組合環境、ボックスジャンプを実装し、これらのベースラインでのパフォーマンスの向上を実証します。
https://github.com/zzbuzzard/pairvdnでコードと環境をオープンソースします。

要約(オリジナル)

Extending deep Q-learning to cooperative multi-agent settings is challenging due to the exponential growth of the joint action space, the non-stationary environment, and the credit assignment problem. Value decomposition allows deep Q-learning to be applied at the joint agent level, at the cost of reduced expressivity. Building on past work in this direction, our paper proposes PairVDN, a novel method for decomposing the value function into a collection of pair-wise, rather than per-agent, functions, improving expressivity at the cost of requiring a more complex (but still efficient) dynamic programming maximisation algorithm. Our method enables the representation of value functions which cannot be expressed as a monotonic combination of per-agent functions, unlike past approaches such as VDN and QMIX. We implement a novel many-agent cooperative environment, Box Jump, and demonstrate improved performance over these baselines in this setting. We open-source our code and environment at https://github.com/zzbuzzard/PairVDN.

arxiv情報

著者 Zak Buzzard
発行日 2025-03-12 16:38:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | PairVDN – Pair-wise Decomposed Value Functions はコメントを受け付けていません

Multi-Task Reinforcement Learning Enables Parameter Scaling

要約

Multi-Task Rewnection Learning(MTRL)は、単一のエージェントに複数のタスクでうまく機能する機能を備えていることを目的としています。
最近の作品は、パフォーマンスを改善するための新しい洗練されたアーキテクチャの開発に焦点を当てており、多くの場合、より大きなモデルになります。
ただし、パフォーマンスの向上が、アーキテクチャデザイン自体の結果なのか、それとも追加のパラメーターであるかは不明です。
私たちは、パラメーターカウントを一致させるために単純なMTRLベースラインを素朴にスケーリングすることで、より洗練されたアーキテクチャを上回ることを実証することにより、利益は主に規模によるものであり、これらの利益は俳優よりも批評家を拡大することから最も利益を得ることができると主張します。
さらに、タスクの多様性に伴うトレーニングの安定性の利点を調査し、タスクの数を増やすことで可塑性の損失を軽減するのに役立つことを実証します。
私たちの調査結果は、MTRLの複数のタスクにわたる同時トレーニングが、強化学習における有益なパラメータースケーリングのための自然なフレームワークを提供し、複雑な建築革新の必要性に挑戦することを示唆しています。

要約(オリジナル)

Multi-task reinforcement learning (MTRL) aims to endow a single agent with the ability to perform well on multiple tasks. Recent works have focused on developing novel sophisticated architectures to improve performance, often resulting in larger models; it is unclear, however, whether the performance gains are a consequence of the architecture design itself or the extra parameters. We argue that gains are mostly due to scale by demonstrating that naively scaling up a simple MTRL baseline to match parameter counts outperforms the more sophisticated architectures, and these gains benefit most from scaling the critic over the actor. Additionally, we explore the training stability advantages that come with task diversity, demonstrating that increasing the number of tasks can help mitigate plasticity loss. Our findings suggest that MTRL’s simultaneous training across multiple tasks provides a natural framework for beneficial parameter scaling in reinforcement learning, challenging the need for complex architectural innovations.

arxiv情報

著者 Reginald McLean,Evangelos Chatzaroulas,Jordan Terry,Isaac Woungang,Nariman Farsad,Pablo Samuel Castro
発行日 2025-03-12 16:43:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Multi-Task Reinforcement Learning Enables Parameter Scaling はコメントを受け付けていません

Differentially Private Equilibrium Finding in Polymatrix Games

要約

Polymatrixゲームでは、プライバシー制約の差で平衡発見を研究しています。
開始するために、2つの設定のいずれかで、高い精度と漸近的な差別的なプライバシー予算(プレーヤーの数が無限に進むにつれて)を同時に達成できないことを示します。
次に、敵が一定の数の通信チャネルにアクセスできると仮定すると、ナッシュギャップを同時に消滅させる(予想されるユーティリティでは、プレーヤーの数が増えるとプライバシーの予算とも呼ばれる)と同時に消滅する戦略を回復する新しい分散アルゴリズムを開発します。

要約(オリジナル)

We study equilibrium finding in polymatrix games under differential privacy constraints. To start, we show that high accuracy and asymptotically vanishing differential privacy budget (as the number of players goes to infinity) cannot be achieved simultaneously under either of the two settings: (i) We seek to establish equilibrium approximation guarantees in terms of Euclidean distance to the equilibrium set, and (ii) the adversary has access to all communication channels. Then, assuming the adversary has access to a constant number of communication channels, we develop a novel distributed algorithm that recovers strategies with simultaneously vanishing Nash gap (in expected utility, also referred to as exploitability and privacy budget as the number of players increases.

arxiv情報

著者 Mingyang Liu,Gabriele Farina,Asuman Ozdaglar
発行日 2025-03-12 16:54:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.GT, cs.LG | Differentially Private Equilibrium Finding in Polymatrix Games はコメントを受け付けていません

The Value of Goal Commitment in Planning

要約

この論文では、現在のフォワードチェーンヒューリスティックプランナーの存在下での初期のプランナーからの目標コミットメントの概念を再訪します。
元の計画タスクを拡張するコンピレーションを提示します。これは、一度達成された特定の目標の持続性を強制するコミットアクションで、それによって検索サブツリーでそれらにコミットします。
このアプローチは、検索ツリーの一部に特定の目標達成順序を課し、行き止まり州を導入する可能性があります。
これにより、目標達成順序が正しい場合、検索の取り組みを減らすことができます。
それ以外の場合、検索アルゴリズムは、目標が持続しないオープンリストでノードを展開できます。
実験結果は、再定式化されたタスクが最先端のアジャイルプランナーに適していることを示しており、より良いものを見つけることができます

要約(オリジナル)

In this paper, we revisit the concept of goal commitment from early planners in the presence of current forward chaining heuristic planners. We present a compilation that extends the original planning task with commit actions that enforce the persistence of specific goals once achieved, thereby committing to them in the search sub-tree. This approach imposes a specific goal achievement order in parts of the search tree, potentially introducing dead-end states. This can reduce search effort if the goal achievement order is correct. Otherwise, the search algorithm can expand nodes in the open list where goals do not persist. Experimental results demonstrate that the reformulated tasks suit state-of-the-art agile planners, enabling them to find better

arxiv情報

著者 Alberto Pozanco,Marianela Morales,Daniel Borrajo,Manuela Veloso
発行日 2025-03-12 17:00:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | The Value of Goal Commitment in Planning はコメントを受け付けていません

Fair Play in the Fast Lane: Integrating Sportsmanship into Autonomous Racing Systems

要約

自律的なレースは、高速の意思決定とモーションコントロールのプラットフォームとして大きな注目を集めています。
既存の方法は主に軌道計画と追い越し戦略に焦点を当てていますが、公正な競争を確保するためのスポーツマンシップの役割はほとんど未調査のままです。
人間のレースでは、ワンモーションルールや十分なスペースルールなどのルールは、危険でスポーツマンのような行動を防ぎます。
ただし、自律的なレースシステムには、これらの原則を強制するメカニズムが欠けていることが多く、潜在的に危険な操作につながる可能性があります。
このペーパーでは、Sportsmanship(SPS)をversis Racingに統合するためのバイレベルのゲーム理論フレームワークを紹介します。
高レベルでは、スタッカーバーグゲームを使用してレースの意図をモデル化します。ここでは、モンテカルロツリー検索(MCTS)が最適な戦略を導き出すために採用されています。
低レベルでは、車両の相互作用は一般化されたナッシュ平衡問題(GNEP)として策定され、すべてのエージェントが軌道を最適化しながらスポーツマンシップの制約に従うことを保証します。
シミュレーション結果は、競争力のあるパフォーマンスを維持しながら、スポーツマンシップルールを実施する際の提案されたアプローチの有効性を示しています。
攻撃者とディフェンダーがスポーツマンシップのルールを遵守または無視しているさまざまなシナリオを分析し、これらの制約の知識が戦略的意思決定にどのように影響するかを示します。
この作品は、自律的なレースにおける競争と公平性のバランスをとることの重要性を強調し、倫理的で安全なAI主導のレースシステムを開発するための基盤を提供します。

要約(オリジナル)

Autonomous racing has gained significant attention as a platform for high-speed decision-making and motion control. While existing methods primarily focus on trajectory planning and overtaking strategies, the role of sportsmanship in ensuring fair competition remains largely unexplored. In human racing, rules such as the one-motion rule and the enough-space rule prevent dangerous and unsportsmanlike behavior. However, autonomous racing systems often lack mechanisms to enforce these principles, potentially leading to unsafe maneuvers. This paper introduces a bi-level game-theoretic framework to integrate sportsmanship (SPS) into versus racing. At the high level, we model racing intentions using a Stackelberg game, where Monte Carlo Tree Search (MCTS) is employed to derive optimal strategies. At the low level, vehicle interactions are formulated as a Generalized Nash Equilibrium Problem (GNEP), ensuring that all agents follow sportsmanship constraints while optimizing their trajectories. Simulation results demonstrate the effectiveness of the proposed approach in enforcing sportsmanship rules while maintaining competitive performance. We analyze different scenarios where attackers and defenders adhere to or disregard sportsmanship rules and show how knowledge of these constraints influences strategic decision-making. This work highlights the importance of balancing competition and fairness in autonomous racing and provides a foundation for developing ethical and safe AI-driven racing systems.

arxiv情報

著者 Zhenmin Huang,Ce Hao,Wei Zhan,Jun Ma,Masayoshi Tomizuka
発行日 2025-03-12 17:02:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.GT, cs.RO, cs.SY, eess.SY | Fair Play in the Fast Lane: Integrating Sportsmanship into Autonomous Racing Systems はコメントを受け付けていません

Generative AI Policies under the Microscope: How CS Conferences Are Navigating the New Frontier in Scholarly Writing

要約

学術執筆およびピアレビューにおける生成AI(Gen-AI)の使用が増え続けているため、コンピューティング分野が明確なGen-AIポリシーを確立および採用することが不可欠です。
この調査では、64の主要なコンピューターサイエンス会議にわたるGen-AIポリシーの景観を調べ、現場でのGen-AIのより効果的で責任ある使用を促進するための推奨事項を提供します。

要約(オリジナル)

As the use of Generative AI (Gen-AI) in scholarly writing and peer reviews continues to rise, it is essential for the computing field to establish and adopt clear Gen-AI policies. This study examines the landscape of Gen-AI policies across 64 major Computer Science conferences and offers recommendations for promoting more effective and responsible use of Gen-AI in the field.

arxiv情報

著者 Mahjabin Nahar,Sian Lee,Rebekah Guillen,Dongwon Lee
発行日 2025-03-12 17:10:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY, cs.LG | Generative AI Policies under the Microscope: How CS Conferences Are Navigating the New Frontier in Scholarly Writing はコメントを受け付けていません

Global Convergence and Rich Feature Learning in $L$-Layer Infinite-Width Neural Networks under $μ$P Parametrization

要約

深いニューラルネットワークの強力な表現学習能力にもかかわらず、ネットワークが意味のある機能学習とグローバル収束を同時に達成する方法の理論的理解はとらえどころのないままです。
特徴がこのパラメーター化における初期化に近いままであり、実質的な進化中に特徴特性に関するオープンな質問を残すため、神経接線カーネル(NTK)のような既存のアプローチは限られています。
このホワイトペーパーでは、テンソルプログラム(TP)フレームワークを使用して、無限に広い$ L $ -LAYER NEURAL NETWORKSのトレーニングダイナミクスを調査します。
具体的には、最大更新パラメーター化($ \ mu $ p)の下で確率的勾配降下(SGD)と活性化関数の軽度の条件で訓練された場合、SGDはこれらのネットワークが初期値から実質的に逸脱する線形独立した特徴を学習できることを示します。
この豊富な機能スペースは、関連するデータ情報をキャプチャし、トレーニングプロセスの収束ポイントがグローバルな最低であることを保証します。
分析は、レイヤー間の機能間の相互作用とガウスランダム変数の特性の両方を活用し、深い表現学習に関する新しい洞察を提供します。
さらに、実際のデータセットでの実験を通じて理論的な調査結果を検証します。

要約(オリジナル)

Despite deep neural networks’ powerful representation learning capabilities, theoretical understanding of how networks can simultaneously achieve meaningful feature learning and global convergence remains elusive. Existing approaches like the neural tangent kernel (NTK) are limited because features stay close to their initialization in this parametrization, leaving open questions about feature properties during substantial evolution. In this paper, we investigate the training dynamics of infinitely wide, $L$-layer neural networks using the tensor program (TP) framework. Specifically, we show that, when trained with stochastic gradient descent (SGD) under the Maximal Update parametrization ($\mu$P) and mild conditions on the activation function, SGD enables these networks to learn linearly independent features that substantially deviate from their initial values. This rich feature space captures relevant data information and ensures that any convergent point of the training process is a global minimum. Our analysis leverages both the interactions among features across layers and the properties of Gaussian random variables, providing new insights into deep representation learning. We further validate our theoretical findings through experiments on real-world datasets.

arxiv情報

著者 Zixiang Chen,Greg Yang,Qingyue Zhao,Quanquan Gu
発行日 2025-03-12 17:33:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, math.OC, stat.ML | Global Convergence and Rich Feature Learning in $L$-Layer Infinite-Width Neural Networks under $μ$P Parametrization はコメントを受け付けていません

Towards Reasoning Era: A Survey of Long Chain-of-Thought for Reasoning Large Language Models

要約

Openai-O1やDeepseek-R1などの大規模な言語モデル(RLLM)を使用した推論の最近の進歩は、数学やコーディングなどの複雑なドメインで印象的な能力を実証しています。
彼らの成功の中心的な要因は、推論能力を高め、複雑な問題の解決を可能にする長い考え方(長いCOT)特性の適用にあります。
ただし、これらの開発にもかかわらず、長いCOTに関する包括的な調査はまだ不足しており、従来の短いチェーン(短いCOT)との区別についての理解を制限し、「考え直し」や「テストタイムスケーリング」などの問題に関する継続的な議論を複雑にしています。
この調査では、長いCOTに関する統一された視点を提供することにより、このギャップを埋めようとしています。
(1)最初に長いベッドベッドと短いCOTを区別し、現在の推論パラダイムを分類するための新しい分類法を導入します。
(2)次に、長いCOTの重要な特性を調査します。深い推論、広範な探求、および実現可能な反射を調査します。これにより、モデルはより複雑なタスクを処理し、より浅い短いCOTと比較してより効率的でコヒーレントな結果を生成できます。
(3)次に、長いCOTの出現などの重要な現象を調査し、考え直しやテスト時間スケーリングを含むこれらの特性を備えており、これらのプロセスが実際にどのように現れるかについての洞察を提供します。
(4)最後に、重要な研究ギャップを特定し、マルチモーダル推論の統合、効率の改善、強化された知識フレームワークなど、有望な将来の方向性を強調します。
構造化された概要を提供することにより、この調査は、将来の研究を促し、人工知能における論理的推論の開発を促進することを目的としています。

要約(オリジナル)

Recent advancements in reasoning with large language models (RLLMs), such as OpenAI-O1 and DeepSeek-R1, have demonstrated their impressive capabilities in complex domains like mathematics and coding. A central factor in their success lies in the application of long chain-of-thought (Long CoT) characteristics, which enhance reasoning abilities and enable the solution of intricate problems. However, despite these developments, a comprehensive survey on Long CoT is still lacking, limiting our understanding of its distinctions from traditional short chain-of-thought (Short CoT) and complicating ongoing debates on issues like ‘overthinking’ and ‘test-time scaling.’ This survey seeks to fill this gap by offering a unified perspective on Long CoT. (1) We first distinguish Long CoT from Short CoT and introduce a novel taxonomy to categorize current reasoning paradigms. (2) Next, we explore the key characteristics of Long CoT: deep reasoning, extensive exploration, and feasible reflection, which enable models to handle more complex tasks and produce more efficient, coherent outcomes compared to the shallower Short CoT. (3) We then investigate key phenomena such as the emergence of Long CoT with these characteristics, including overthinking, and test-time scaling, offering insights into how these processes manifest in practice. (4) Finally, we identify significant research gaps and highlight promising future directions, including the integration of multi-modal reasoning, efficiency improvements, and enhanced knowledge frameworks. By providing a structured overview, this survey aims to inspire future research and further the development of logical reasoning in artificial intelligence.

arxiv情報

著者 Qiguang Chen,Libo Qin,Jinhao Liu,Dengyun Peng,Jiannan Guan,Peng Wang,Mengkang Hu,Yuhang Zhou,Te Gao,Wangxiang Che
発行日 2025-03-12 17:35:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Towards Reasoning Era: A Survey of Long Chain-of-Thought for Reasoning Large Language Models はコメントを受け付けていません

Block Diffusion: Interpolating Between Autoregressive and Diffusion Language Models

要約

拡散言語モデルは、並列化された生成と制御性の可能性により、自己回帰モデルよりも独自の利点を提供しますが、尤度モデリングに遅れをとっており、固定長の生成に限定されています。
この作業では、離散除去拡散モデルと自己回帰モデルの間を補間するブロック拡散言語モデルのクラスを導入します。
ブロック拡散は、柔軟な長さの生成をサポートし、KVキャッシングと並列トークンサンプリングで推論効率を改善することにより、両方のアプローチの重要な制限を克服します。
効率的なトレーニングアルゴリズム、勾配分散の推定器、および分散を最小限に抑えるデータ駆動型ノイズスケジュールを含む効果的なブロック拡散モデルを構築するためのレシピを提案します。
ブロック拡散は、言語モデリングベンチマークの拡散モデル間で新しい最先端のパフォーマンスを設定し、任意の長さのシーケンスを生成できるようにします。
プロジェクトページのモデルの重みとブログ投稿とともに、コードを提供します:https://m-arriola.com/bd3lms/

要約(オリジナル)

Diffusion language models offer unique benefits over autoregressive models due to their potential for parallelized generation and controllability, yet they lag in likelihood modeling and are limited to fixed-length generation. In this work, we introduce a class of block diffusion language models that interpolate between discrete denoising diffusion and autoregressive models. Block diffusion overcomes key limitations of both approaches by supporting flexible-length generation and improving inference efficiency with KV caching and parallel token sampling. We propose a recipe for building effective block diffusion models that includes an efficient training algorithm, estimators of gradient variance, and data-driven noise schedules to minimize the variance. Block diffusion sets a new state-of-the-art performance among diffusion models on language modeling benchmarks and enables generation of arbitrary-length sequences. We provide the code, along with the model weights and blog post on the project page: https://m-arriola.com/bd3lms/

arxiv情報

著者 Marianne Arriola,Aaron Gokaslan,Justin T Chiu,Zhihan Yang,Zhixuan Qi,Jiaqi Han,Subham Sekhar Sahoo,Volodymyr Kuleshov
発行日 2025-03-12 17:43:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Block Diffusion: Interpolating Between Autoregressive and Diffusion Language Models はコメントを受け付けていません