Hierarchical Neuro-Symbolic Decision Transformer

要約

古典的な象徴的な計画を変圧器ベースのポリシーと結びつけて、複雑で長期の意思決定タスクに対処する階層的な神経腫瘍制御フレームワークを提示します。
高レベルでは、シンボリックプランナーは、論理的命題に基づいて解釈可能なオペレーターのシーケンスを構築し、グローバルな制約と目標を体系的に順守します。
低レベルでは、各シンボリック演算子は、不確実で高次元の環境できめの細かい一連のアクションを生成するための決定変圧器を条件として、サブゴールトークンに翻訳されます。
シンボリックプランナーと神経実行層の両方からの近似誤差がどのように蓄積するかを示す理論分析を提供します。
複数のキー、ロックされたドア、アイテム収集タスクを備えたグリッドワールドの経験的評価は、階層的アプローチが成功率と政策効率における純粋にエンドツーエンドの神経アプローチよりも優れていることを示しています。

要約(オリジナル)

We present a hierarchical neuro-symbolic control framework that couples classical symbolic planning with transformer-based policies to address complex, long-horizon decision-making tasks. At the high level, a symbolic planner constructs an interpretable sequence of operators based on logical propositions, ensuring systematic adherence to global constraints and goals. At the low level, each symbolic operator is translated into a sub-goal token that conditions a decision transformer to generate a fine-grained sequence of actions in uncertain, high-dimensional environments. We provide theoretical analysis showing how approximation errors from both the symbolic planner and the neural execution layer accumulate. Empirical evaluations in grid-worlds with multiple keys, locked doors, and item-collection tasks show that our hierarchical approach outperforms purely end-to-end neural approach in success rates and policy efficiency.

arxiv情報

著者 Ali Baheri,Cecilia O. Alm
発行日 2025-03-12 15:02:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.SY, eess.SY | Hierarchical Neuro-Symbolic Decision Transformer はコメントを受け付けていません

Mixture of Experts based Multi-task Supervise Learning from Crowds

要約

クラウドソーシングの既存の真理推論方法は、冗長ラベルとアイテムを地上の真理にマッピングすることを目的としています。
彼らは地上の真理を隠された変数として扱い、統計的または深い学習ベースの労働者行動モデルを使用して、基本真理を推測します。
ただし、グラウンドトゥルースに依存している労働者の行動モデルは、アイテム機能レベルでの労働者の行動を見落とし、不正確な特性評価につながり、真実の推論の質に悪影響を及ぼします。
このペーパーでは、群衆からのマルチタスクの監督された学習の新しいパラダイムを提案します。これにより、労働者行動モデルにおけるアイテムのグラウンドトゥルースのモデリングの必要性が排除されます。
このパラダイム内で、群衆(MMLC)からの専門家ベースのマルチタスク監視学習の混合物と呼ばれるアイテム機能レベルで労働者行動モデルを提案します。
MMLC内で2つの真理推論戦略が提案されています。
MMLC-OWFという名前の最初の戦略は、ワーカースペクトル空間でクラスタリング方法を利用して、Oracle Workerの投影ベクトルを特定します。
その後、このベクトルに基づいて生成されたラベルは、推測された真実と見なされます。
MMLC-DFと呼ばれる2番目の戦略は、MMLCモデルを採用してクラウドソーシングデータを埋め、既存の真理推論方法の有効性を高めることができます。
実験結果は、MMLC-OWFが最新の方法を上回り、MMLC-DFが既存の真理推論方法の品質を高めることを示しています。

要約(オリジナル)

Existing truth inference methods in crowdsourcing aim to map redundant labels and items to the ground truth. They treat the ground truth as hidden variables and use statistical or deep learning-based worker behavior models to infer the ground truth. However, worker behavior models that rely on ground truth hidden variables overlook workers’ behavior at the item feature level, leading to imprecise characterizations and negatively impacting the quality of truth inference. This paper proposes a new paradigm of multi-task supervised learning from crowds, which eliminates the need for modeling of items’s ground truth in worker behavior models. Within this paradigm, we propose a worker behavior model at the item feature level called Mixture of Experts based Multi-task Supervised Learning from Crowds (MMLC). Two truth inference strategies are proposed within MMLC. The first strategy, named MMLC-owf, utilizes clustering methods in the worker spectral space to identify the projection vector of the oracle worker. Subsequently, the labels generated based on this vector are considered as the inferred truth. The second strategy, called MMLC-df, employs the MMLC model to fill the crowdsourced data, which can enhance the effectiveness of existing truth inference methods. Experimental results demonstrate that MMLC-owf outperforms state-of-the-art methods and MMLC-df enhances the quality of existing truth inference methods.

arxiv情報

著者 Tao Han,Huaixuan Shi,Xinyi Ding,Xiao Ma,Huamao Gu,Yili Fang
発行日 2025-03-12 15:25:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Mixture of Experts based Multi-task Supervise Learning from Crowds はコメントを受け付けていません

ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning

要約

大規模な言語モデル(LLMS)の推論に関する最近の研究では、メタ考えを統合することにより、モデルがより適応的で効果的な問題解決のために推論プロセスを監視、評価、制御できるようにすることにより、パフォーマンスをさらに向上させようとしています。
ただし、現在のシングルエージェント作業には、メタ考えを獲得するための専門的な設計が欠けているため、有効性が低くなります。
この課題に対処するために、マルチエージェント補強学習(MARL)を活用してメタを考えている行動を引き出すためにLLMSを考えるように促す新しいフレームワークである強化されたメタ考えエージェント(REMA)を紹介します。
Remaは、推論プロセスを2つの階層エージェントに切り離します。戦略的監視と計画の生成を担当する高レベルのメタ考えのエージェントと、詳細な実行のための低レベルの推論エージェントです。
整合した目的を伴う反復強化学習を通じて、これらのエージェントはコラボレーションを探求し、学習し、一般化と堅牢性の向上につながります。
実験結果は、Remaが競合レベルの数学ベンチマークやLLM-As-a-Judgeベンチマークを含む複雑な推論タスクのシングルエージェントRLベースラインよりも優れていることを示しています。
包括的なアブレーション研究は、各異なるエージェントの進化するダイナミクスをさらに示し、メタを考える推論プロセスがLLMSの推論能力をどのように強化するかについての貴重な洞察を提供します。

要約(オリジナル)

Recent research on Reasoning of Large Language Models (LLMs) has sought to further enhance their performance by integrating meta-thinking — enabling models to monitor, evaluate, and control their reasoning processes for more adaptive and effective problem-solving. However, current single-agent work lacks a specialized design for acquiring meta-thinking, resulting in low efficacy. To address this challenge, we introduce Reinforced Meta-thinking Agents (ReMA), a novel framework that leverages Multi-Agent Reinforcement Learning (MARL) to elicit meta-thinking behaviors, encouraging LLMs to think about thinking. ReMA decouples the reasoning process into two hierarchical agents: a high-level meta-thinking agent responsible for generating strategic oversight and plans, and a low-level reasoning agent for detailed executions. Through iterative reinforcement learning with aligned objectives, these agents explore and learn collaboration, leading to improved generalization and robustness. Experimental results demonstrate that ReMA outperforms single-agent RL baselines on complex reasoning tasks, including competitive-level mathematical benchmarks and LLM-as-a-Judge benchmarks. Comprehensive ablation studies further illustrate the evolving dynamics of each distinct agent, providing valuable insights into how the meta-thinking reasoning process enhances the reasoning capabilities of LLMs.

arxiv情報

著者 Ziyu Wan,Yunxiang Li,Yan Song,Hanjing Wang,Linyi Yang,Mark Schmidt,Jun Wang,Weinan Zhang,Shuyue Hu,Ying Wen
発行日 2025-03-12 16:05:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.MA | ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning はコメントを受け付けていません

Med-gte-hybrid: A contextual embedding transformer model for extracting actionable information from clinical texts

要約

GTE-LARGE SENET TRANSGREMERから派生した新しいコンテキスト埋め込みモデルMed-Gte-Hybridを導入して、非構造化された臨床物語から情報を抽出します。
Med-Gte-Hybridのモデルチューニング戦略は、対照的な学習と非自動エンコーダーを組み合わせています。
Med-Gte-Hybridのパフォーマンスを評価するために、慢性腎臓病(CKD)患者予後、推定糸球体ろ過率(EGFR)予測、および患者死亡率予測など、模倣IVデータセットから抽出された大規模な患者コホートのいくつかの臨床予測タスクを調査します。
さらに、MED-GTEハイブリッドモデルが患者の層別化、クラスタリング、およびテキストの検索を改善するため、大規模なテキスト埋め込みベンチマーク(MTEB)の現在の最先端モデルよりも優れていることを示しています。
私たちの評価のいくつかはCKDに焦点を当てていますが、文の変圧器のハイブリッドチューニングは他の医療ドメインに転送される可能性があり、さまざまなヘルスケアアプリケーションで臨床的意思決定とパーソナライズされた治療経路を改善する可能性があります。

要約(オリジナル)

We introduce a novel contextual embedding model med-gte-hybrid that was derived from the gte-large sentence transformer to extract information from unstructured clinical narratives. Our model tuning strategy for med-gte-hybrid combines contrastive learning and a denoising autoencoder. To evaluate the performance of med-gte-hybrid, we investigate several clinical prediction tasks in large patient cohorts extracted from the MIMIC-IV dataset, including Chronic Kidney Disease (CKD) patient prognosis, estimated glomerular filtration rate (eGFR) prediction, and patient mortality prediction. Furthermore, we demonstrate that the med-gte-hybrid model improves patient stratification, clustering, and text retrieval, thus outperforms current state-of-the-art models on the Massive Text Embedding Benchmark (MTEB). While some of our evaluations focus on CKD, our hybrid tuning of sentence transformers could be transferred to other medical domains and has the potential to improve clinical decision-making and personalised treatment pathways in various healthcare applications.

arxiv情報

著者 Aditya Kumar,Simon Rauch,Mario Cypko,Oliver Amft
発行日 2025-03-12 16:17:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Med-gte-hybrid: A contextual embedding transformer model for extracting actionable information from clinical texts はコメントを受け付けていません

RESTRAIN: Reinforcement Learning-Based Secure Framework for Trigger-Action IoT Environment

要約

トリガーアクション機能を備えたモノのインターネット(IoT)プラットフォームにより、イベント条件は、一連の相互作用を作成することにより、IoTデバイスのアクションを自律的にトリガーできます。
敵は、この一連の相互作用を悪用して、悪意のある偽のイベント条件をIoTハブに注入し、ターゲットIoTデバイスで不正アクションをトリガーしてリモートインジェクション攻撃を実装します。
既存の防衛メカニズムは、主に、物理的なイベント指紋を使用してイベントトランザクションの検証に焦点を当てており、安全でないイベントトランザクションをブロックするセキュリティポリシーを実施しています。
These approaches are designed to provide offline defense against injection attacks.
最先端のオンライン防衛メカニズムはリアルタイムの防御を提供しますが、IoTネットワークへの攻撃の影響に対する推論に対する広範な信頼性は、これらのアプローチの一般化能力を制限します。
この論文では、実行時にリモートインジェクション攻撃に対抗するために、プラットフォームに依存しないマルチエージェントオンライン防衛システム、すなわち抑制を提案します。
拘束により、防衛エージェントは実行時に攻撃アクションをプロファイルでき、IoTネットワークのセキュリティ要件に準拠する防衛ポリシーを最適化するために強化学習を活用します。
実験結果は、防衛エージェントが複雑で動的なリモートインジェクション攻撃に対してリアルタイムの防御措置を効果的に採用し、最小限の計算オーバーヘッドでセキュリティゲインを最大化することを示しています。

要約(オリジナル)

Internet of Things (IoT) platforms with trigger-action capability allow event conditions to trigger actions in IoT devices autonomously by creating a chain of interactions. Adversaries exploit this chain of interactions to maliciously inject fake event conditions into IoT hubs, triggering unauthorized actions on target IoT devices to implement remote injection attacks. Existing defense mechanisms focus mainly on the verification of event transactions using physical event fingerprints to enforce the security policies to block unsafe event transactions. These approaches are designed to provide offline defense against injection attacks. The state-of-the-art online defense mechanisms offer real-time defense, but extensive reliability on the inference of attack impacts on the IoT network limits the generalization capability of these approaches. In this paper, we propose a platform-independent multi-agent online defense system, namely RESTRAIN, to counter remote injection attacks at runtime. RESTRAIN allows the defense agent to profile attack actions at runtime and leverages reinforcement learning to optimize a defense policy that complies with the security requirements of the IoT network. The experimental results show that the defense agent effectively takes real-time defense actions against complex and dynamic remote injection attacks and maximizes the security gain with minimal computational overhead.

arxiv情報

著者 Md Morshed Alam,Lokesh Chandra Das,Sandip Roy,Sachin Shetty,Weichao Wang
発行日 2025-03-12 16:23:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR | RESTRAIN: Reinforcement Learning-Based Secure Framework for Trigger-Action IoT Environment はコメントを受け付けていません

Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning

要約

大規模な言語モデル(LLM)の効果的な推論とテキスト生成には、外部の知識と最新情報を効率的に取得することが不可欠です。
検索エンジンがツールとして扱われる複雑なマルチターン検索の柔軟性を欠くツールとして扱われる、または大規模な監視されたデータを必要とするツールとしてのツール使用トレーニングアプローチ。
LLMは検索エンジンと最適に相互作用する方法を学習しないため、検索エンジンを使用するための推論中に推論機能を備えた高度なLLMSをプロンプト化することは最適ではありません。
このホワイトペーパーでは、LLMがREANDECTION LEANINE(RL)のみを通じて学習するDeepSeek-R1モデルの拡張であるSearch-R1を紹介します。
Search-R1は、マルチターン検索インタラクションでLLMロールアウトを最適化し、安定したRLトレーニングと単純な結果ベースの報酬機能のために検索されたトークンマスキングを活用します。
7つの質問回答データセットでの実験では、Search-R1がSOTAベースラインで26%(QWEN2.5-7B)、21%(QWEN2.5-3B)、および10%(LLAMA3.2-3B)のパフォーマンスを改善することが示されています。
このペーパーでは、検索された推論におけるRL最適化方法、LLMの選択、および応答長ダイナミクスに関する経験的洞察をさらに提供します。
コードとモデルのチェックポイントは、https://github.com/petergriffinjin/search-r1で入手できます。

要約(オリジナル)

Efficiently acquiring external knowledge and up-to-date information is essential for effective reasoning and text generation in large language models (LLMs). Retrieval augmentation and tool-use training approaches where a search engine is treated as a tool lack complex multi-turn retrieval flexibility or require large-scale supervised data. Prompting advanced LLMs with reasoning capabilities during inference to use search engines is not optimal, since the LLM does not learn how to optimally interact with the search engine. This paper introduces Search-R1, an extension of the DeepSeek-R1 model where the LLM learns — solely through reinforcement learning (RL) — to autonomously generate (multiple) search queries during step-by-step reasoning with real-time retrieval. Search-R1 optimizes LLM rollouts with multi-turn search interactions, leveraging retrieved token masking for stable RL training and a simple outcome-based reward function. Experiments on seven question-answering datasets show that Search-R1 improves performance by 26% (Qwen2.5-7B), 21% (Qwen2.5-3B), and 10% (LLaMA3.2-3B) over SOTA baselines. This paper further provides empirical insights into RL optimization methods, LLM choices, and response length dynamics in retrieval-augmented reasoning. The code and model checkpoints are available at https://github.com/PeterGriffinJin/Search-R1.

arxiv情報

著者 Bowen Jin,Hansi Zeng,Zhenrui Yue,Dong Wang,Hamed Zamani,Jiawei Han
発行日 2025-03-12 16:26:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR | Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning はコメントを受け付けていません

ANPMI: Assessing the True Comprehension Capabilities of LLMs for Multiple Choice Questions

要約

さまざまなプロンプトと選択で構成される複数選択ベンチマークは、言語モデルの自然言語理解能力を評価するための最も広く使用されている方法の1つです。
特定のプロンプトが与えられた場合、通常、$ P(選択|プロンプト)$を計算して、言語モデルが誤ったものと比較して正しい選択を生成する可能性を評価します。
ただし、このアプローチを使用して測定されたパフォーマンスは、プロンプトのモデルの理解だけでなく、プロンプトに関係なく特定の選択に固有のバイアスにも反映されることがわかります。
この問題により、モデルはプロンプトを完全に理解せずに答えを選択する可能性があるため、モデルの自然言語の理解を正確に測定することが困難になります。
この制限に対処するために、ANPMIと呼ばれる新しいメトリックを提案します。ANPMIは、PointWise相互情報(PMI)を$ – \ log P(Choice)$で正規化します。
ANPMIは、プロンプトを適切に理解せずに質問に答えることが困難であることを確認することにより、モデルの自然言語の理解をより正確に評価します。

要約(オリジナル)

Multiple-choice benchmarks, consisting of various prompts and choices, are among the most widely used methods to assess a language model’s natural language understanding capability. Given a specific prompt, we typically compute $P(Choice|Prompt)$ to evaluate how likely a language model is to generate the correct choice compared to incorrect ones. However, we observe that performance measured using this approach reflects not only the model’s comprehension of the prompt but also its inherent biases for certain choices regardless of the prompt. This issue makes it challenging to accurately measure a model’s natural language understanding, as models may select the answer without fully understanding the prompt. To address this limitation, we propose a novel metric called ANPMI, which normalizes Pointwise Mutual Information (PMI) by $-\log P(Choice)$. ANPMI provides a more accurate assessment of the model’s natural language understanding by ensuring that it is challenging to answer a question without properly understanding the prompt.

arxiv情報

著者 Gyeongje Cho,Yeonkyoung So,Jaejin Lee
発行日 2025-03-12 16:27:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | ANPMI: Assessing the True Comprehension Capabilities of LLMs for Multiple Choice Questions はコメントを受け付けていません

The Interaction Layer: An Exploration for Co-Designing User-LLM Interactions in Parental Wellbeing Support Systems

要約

子育ては、仕事、育児、財政のバランスをとることから、疲労と限られた個人的な時間に対処することまで、感情的および肉体的な課題をもたらします。
しかし、3人に1人の親がサポートを求めません。
AIシステムは、潜在的に汚名がなく、アクセスしやすく、手頃な価格のソリューションを提供します。
しかし、ユーザーの採用は、説明可能性と信頼性に関する問題のためにしばしば失敗します。
共同設計アプローチを使用してこれらの問題を解決できるかどうかを確認するために、新しい親のための幸福サポートアシスタントであるNurtureBotを開発およびテストしました。
32人の親は、非同期のリモートコミュニティ方法を通じてシステムを共同設計し、「チャットの成功」を達成することとして重要な課題を特定しました。
共同設計の一環として、親は養育ボットとしてロールプレイされ、ユーザーの理解、制御、および結果を改善するために対話を書き直しました。
相互作用層を特徴とする洗練されたプロトタイプは、32の初期および46の新しい親によって評価され、ユーザーエクスペリエンスと使いやすさが向上し、最終的なCUQスコアが91.3/100で、相互作用パターンが成功しました。
私たちのプロセスは、効果的なAI子育てサポートのための有用なインタラクション設計レッスンを明らかにしました。

要約(オリジナル)

Parenting brings emotional and physical challenges, from balancing work, childcare, and finances to coping with exhaustion and limited personal time. Yet, one in three parents never seek support. AI systems potentially offer stigma-free, accessible, and affordable solutions. Yet, user adoption often fails due to issues with explainability and reliability. To see if these issues could be solved using a co-design approach, we developed and tested NurtureBot, a wellbeing support assistant for new parents. 32 parents co-designed the system through Asynchronous Remote Communities method, identifying the key challenge as achieving a ‘successful chat.’ As part of co-design, parents role-played as NurtureBot, rewriting its dialogues to improve user understanding, control, and outcomes. The refined prototype, featuring an Interaction Layer, was evaluated by 32 initial and 46 new parents, showing improved user experience and usability, with final CUQ score of 91.3/100, demonstrating successful interaction patterns. Our process revealed useful interaction design lessons for effective AI parenting support.

arxiv情報

著者 Sruthi Viswanathan,Seray Ibrahim,Ravi Shankar,Reuben Binns,Max Van Kleek,Petr Slovak
発行日 2025-03-12 16:29:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC | The Interaction Layer: An Exploration for Co-Designing User-LLM Interactions in Parental Wellbeing Support Systems はコメントを受け付けていません

Algebraic Evaluation Theorems

要約

多数票(MV)は、プロトタイプの「群衆の知恵」アルゴリズムです。
MVがグループの決定に最適な場合を考慮した定理Condorcetの1785年ju審\ Emph {Decision}の定理にまでさかのぼります。
定理の根底にある同じエラーの独立性の仮定を使用して、決定のバッチに基づいてju審員の純粋な代数評価(AE)を行うju審員\ emph {emaluation}定理を証明できます。
3人以上のバイナリju審員は、服用したテストでの正確性の2つの可能な統計のみを取得するのに十分です。
AEは3つの方法でMVよりも優れています。
第一に、その経験的仮定はよりゆるく、決定を下すのに50 \%未満の正確なju審員を処理できます。
第二に、エラーの独立性の仮定を考慮して、それらを評価する上でポイントのような精度があります。
この精度により、MVよりも標識精度が高く、経験的な不確実性の境界が付いている多段階的アプローチが可能になります。
そして、第三に、エラー独立性の仮定の失敗について自己説明しています。
American Community Surveyの人口統計データを使用した実験では、MVを超えるAEの実用性を確認しています。
AIの安全性の定理の2つの意味について説明します – 無限の監視チェーン(グレードを等級付けするのは誰ですか?)とスーパーアライメントの問題を終了する原則的な方法(理解できないタスクを実行するエージェントをどのように評価しますか?)。

要約(オリジナル)

Majority voting (MV) is the prototypical “wisdom of the crowd” algorithm. Theorems considering when MV is optimal for group decisions date back to Condorcet’s 1785 jury \emph{decision} theorem. The same error independence assumption underlying the theorem can be used to prove a jury \emph{evaluation} theorem that does purely algebraic evaluation (AE) of juror performance based on a batch of their decisions. Three or more binary jurors are enough to obtain the only two possible statistics of their correctness on a test they took. AE is superior to MV in three ways. First, its empirical assumptions are looser and can handle jurors less than 50\% accurate in making decisions. Second, it has point-like precision in evaluating them given its assumption of error independence. This precision enables a multi-accuracy approach that has higher labeling accuracy than MV and comes with empirical uncertainty bounds. And, third, it is self-alarming about the failure of its error independence assumption. Experiments using demographic data from the American Community Survey confirm the practical utility of AE over MV. Two implications of the theorem for AI safety are discussed – a principled way to terminate infinite monitoring chains (who grades the graders?) and the super-alignment problem (how do we evaluate agents doing tasks we do not understand?).

arxiv情報

著者 Andrés Corrada-Emmanuel
発行日 2025-03-12 16:31:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, I.2.6 | Algebraic Evaluation Theorems はコメントを受け付けていません

Discovering new robust local search algorithms with neuro-evolution

要約

このペーパーでは、ローカル検索アルゴリズムの領域で既存の課題を克服することを目的とした新しいアプローチを探ります。
私たちの目的は、各反復で近隣で可能な限り最高の移行を行うために、ローカル検索アルゴリズム内で行われる決定プロセスを改善することです。
このプロセスを改善するために、従来のローカル検索アルゴリズムと同じ入力情報を持つニューラルネットワークを使用することを提案します。
EvoCop2024で提示された作業の拡張であるこのホワイトペーパーでは、アルゴリズムを可能な限り効率的に、問題目的関数の単調変換に対しても堅牢にするために、この情報を表現するさまざまな方法を調査します。
このアプローチの効率を評価するために、NKランドスケープの問題を中心とした実験セットアップを開発し、問題のサイズと頑丈さを調整する柔軟性を提供します。
このアプローチは、新しいローカル検索アルゴリズムの出現と、ブラックボックスの問題に対する問題解決機能の改善のための有望な手段を提供します。
この記事の最後のバージョンは、Journal SN Computer Science(Springer)に掲載されています。

要約(オリジナル)

This paper explores a novel approach aimed at overcoming existing challenges in the realm of local search algorithms. Our aim is to improve the decision process that takes place within a local search algorithm so as to make the best possible transitions in the neighborhood at each iteration. To improve this process, we propose to use a neural network that has the same input information as conventional local search algorithms. In this paper, which is an extension of the work presented at EvoCOP2024, we investigate different ways of representing this information so as to make the algorithm as efficient as possible but also robust to monotonic transformations of the problem objective function. To assess the efficiency of this approach, we develop an experimental setup centered around NK landscape problems, offering the flexibility to adjust problem size and ruggedness. This approach offers a promising avenue for the emergence of new local search algorithms and the improvement of their problem-solving capabilities for black-box problems. The last version of this article is published in the journal SN Computer Science (Springer).

arxiv情報

著者 Mohamed Salim Amri Sakhri,Adrien Goëffon,Olivier Goudet,Frédéric Saubion,Chaïmaâ Touhami
発行日 2025-03-12 16:37:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.NE | Discovering new robust local search algorithms with neuro-evolution はコメントを受け付けていません