Confabulation dynamics in a reservoir computer: Filling in the gaps with untrained attractors

要約

人工知能は、人工ニューラルネットワーク(ANN)の設計とトレーニングの革新のおかげで、近年大幅に進歩しています。
これらの進歩にもかかわらず、私たちは、アンの基本的な形態がどのように学習し、学習することができず、欺く意図をせずに誤った情報を生成する方法について、「コンパブレーション」として知られる現象について、まだほとんど理解していません。
基本的な洞察を提供するために、このペーパーでは、貯水池コンピューター(RCS)でどのように混乱が起こるかを分析します。ANNの形の動的システム。
RCは、明確に定義された方法で確認されることが知られているため、研究するのに特に役立ちます。RCが特定のアトラクタのダイナミクスを再構築するように訓練されている場合、構築するように訓練されていないアトラクタを構築することがあります。
このペーパーでは、再構成が失敗したときにUASが果たす役割と、再構築されたアトラクタ間の遷移をモデル化するときの影響に光を当てています。
私たちの結果に基づいて、UASは状態空間が境界を掲載している学習システムの本質的な特徴であり、この混乱の手段はRCを超えたシステムに存在する可能性があると結論付けています。

要約(オリジナル)

Artificial Intelligence has advanced significantly in recent years thanks to innovations in the design and training of artificial neural networks (ANNs). Despite these advancements, we still understand relatively little about how elementary forms of ANNs learn, fail to learn, and generate false information without the intent to deceive, a phenomenon known as `confabulation’. To provide some foundational insight, in this paper we analyse how confabulation occurs in reservoir computers (RCs): a dynamical system in the form of an ANN. RCs are particularly useful to study as they are known to confabulate in a well-defined way: when RCs are trained to reconstruct the dynamics of a given attractor, they sometimes construct an attractor that they were not trained to construct, a so-called `untrained attractor’ (UA). This paper sheds light on the role played by UAs when reconstruction fails and their influence when modelling transitions between reconstructed attractors. Based on our results, we conclude that UAs are an intrinsic feature of learning systems whose state spaces are bounded, and that this means of confabulation may be present in systems beyond RCs.

arxiv情報

著者 Jack O’Hagan,Andrew Keane,Andrew Flynn
発行日 2025-06-02 09:06:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, math.DS | Confabulation dynamics in a reservoir computer: Filling in the gaps with untrained attractors はコメントを受け付けていません

Wait, that’s not an option: LLMs Robustness with Incorrect Multiple-Choice Options

要約

この作業では、有効な回答が含まれていない複数選択の質問が提示された場合、LLMSの能力を評価する能力を評価するための新しいフレームワークを紹介します。
算術、ドメイン固有の知識、およびハイステークスの医療決定タスク全体の体系的な評価を通じて、トレーニング後のアラインドモデルはしばしば無効なオプションを選択することをデフォルトし、ベースモデルはモデルサイズでスケーリングする改善された拒否機能を示すことを実証します。
私たちの分析では、アラインメント手法は、有用性を高めることを目的としていますが、モデルの反射判断を不注意に損なう可能性があることが明らかになりました。
さらに、同様の指導に従うバイアスを示す並行者の研究を実施し、これらのバイアスがアライメントで使用される人間のフィードバックデータセットを介してどのように伝播するかに影響を与えます。
モデルサイズ、トレーニング技術、および迅速なエンジニアリングの影響を調べる広範なアブレーション研究を提供します。
私たちの調査結果は、現実世界の展開のためのより堅牢なAIシステムを開発するために重要な意味を持つ、アラインメントの最適化と重要な推論能力の保存との間の基本的な緊張を強調しています。

要約(オリジナル)

This work introduces a novel framework for evaluating LLMs’ capacity to balance instruction-following with critical reasoning when presented with multiple-choice questions containing no valid answers. Through systematic evaluation across arithmetic, domain-specific knowledge, and high-stakes medical decision tasks, we demonstrate that post-training aligned models often default to selecting invalid options, while base models exhibit improved refusal capabilities that scale with model size. Our analysis reveals that alignment techniques, though intended to enhance helpfulness, can inadvertently impair models’ reflective judgment–the ability to override default behaviors when faced with invalid options. We additionally conduct a parallel human study showing similar instruction-following biases, with implications for how these biases may propagate through human feedback datasets used in alignment. We provide extensive ablation studies examining the impact of model size, training techniques, and prompt engineering. Our findings highlight fundamental tensions between alignment optimization and preservation of critical reasoning capabilities, with important implications for developing more robust AI systems for real-world deployment.

arxiv情報

著者 Gracjan Góral,Emilia Wiśnios,Piotr Sankowski,Paweł Budzianowski
発行日 2025-06-02 09:08:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Wait, that’s not an option: LLMs Robustness with Incorrect Multiple-Choice Options はコメントを受け付けていません

SEA-HELM: Southeast Asian Holistic Evaluation of Language Models

要約

大規模な言語モデル(LLMS)に新しい能力が急速に出現することで、統合された厳格な多言語および多文化ベンチマークの必要性がより顕著になりました。
既存のLLMベンチマークは、LLMの特定の機能を英語と、東南アジア(海)地域のものを含むさまざまな中程度から低リソース言語で評価することができますが、海の言語の包括的で文化的に代表的な評価スイートはこれまでに開発されていません。
ここでは、5つのコアピラーを含む海の言語を強調する全体的な言語および文化的LLM評価スイートであるシーヘルムを提示します:(1)NLPクラシック、(2)LLM特有、(3)海の言語学、(4)海の文化、(5)安全。
Sea-Helmは現在、フィリピン人、インドネシア、タミル語、タイ、ベトナム人を支援しています。
また、Sea-Helmのリーダーボードも紹介します。これにより、ユーザーは体系的でユーザーフレンドリーな方法でモデルの多言語と多文化のパフォーマンスを理解できるようにします。
シーヘルム評価コードを公開しています。

要約(オリジナル)

With the rapid emergence of novel capabilities in Large Language Models (LLMs), the need for rigorous multilingual and multicultural benchmarks that are integrated has become more pronounced. Though existing LLM benchmarks are capable of evaluating specific capabilities of LLMs in English as well as in various mid- to low-resource languages, including those in the Southeast Asian (SEA) region, a comprehensive and culturally representative evaluation suite for the SEA languages has not been developed thus far. Here, we present SEA-HELM, a holistic linguistic and cultural LLM evaluation suite that emphasises SEA languages, comprising five core pillars: (1) NLP Classics, (2) LLM-specifics, (3) SEA Linguistics, (4) SEA Culture, (5) Safety. SEA-HELM currently supports Filipino, Indonesian, Tamil, Thai, and Vietnamese. We also introduce the SEA-HELM leaderboard, which allows users to understand models’ multilingual and multicultural performance in a systematic and user-friendly manner. We make the SEA-HELM evaluation code publicly available.

arxiv情報

著者 Yosephine Susanto,Adithya Venkatadri Hulagadri,Jann Railey Montalan,Jian Gang Ngui,Xian Bin Yong,Weiqi Leong,Hamsawardhini Rengarajan,Peerat Limkonchotiwat,Yifan Mai,William Chandra Tjhi
発行日 2025-06-02 09:23:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | SEA-HELM: Southeast Asian Holistic Evaluation of Language Models はコメントを受け付けていません

Matryoshka Model Learning for Improved Elastic Student Models

要約

業界グレードのMLモデルは、モデル開発に重要なリソースを必要とする急速に進化するサービスの制約を満たすように慎重に設計されています。
このペーパーでは、新しい教師と学生のレシピを使用して、複数の正確な学生モデルをトレーニングするためのフレームワークであるMattaを提案します。
TAモデルは、容量が高い学生モデルのより大きなバージョンであるため、生徒モデルが教師モデルによりよく関係し、より多くのドメイン固有の専門知識をもたらすことができます。
さらに、TAモデルから複数の正確な学生モデルを抽出できます。
したがって、トレーニングの実行は1つだけにもかかわらず、方法論は、より低いサービングコストのために精度をトレードオフするための複数の保守可能なオプションを提供します。
独自のデータセットとモデルで提案された方法Mattaを実証します。
その実際の有効性は、生産MLシステム内のライブA/Bテストによって強調されており、キーメトリックの20%の改善を示しています。
また、パブリックモデルであるGPT-2メディアに関する方法を実証し、SAT数学の24%以上、ランバダベンチマークで10%以上の相対的な改善を達成します。

要約(オリジナル)

Industry-grade ML models are carefully designed to meet rapidly evolving serving constraints, which requires significant resources for model development. In this paper, we propose MatTA, a framework for training multiple accurate Student models using a novel Teacher-TA-Student recipe. TA models are larger versions of the Student models with higher capacity, and thus allow Student models to better relate to the Teacher model and also bring in more domain-specific expertise. Furthermore, multiple accurate Student models can be extracted from the TA model. Therefore, despite only one training run, our methodology provides multiple servable options to trade off accuracy for lower serving cost. We demonstrate the proposed method, MatTA, on proprietary datasets and models. Its practical efficacy is underscored by live A/B tests within a production ML system, demonstrating 20% improvement on a key metric. We also demonstrate our method on GPT-2 Medium, a public model, and achieve relative improvements of over 24% on SAT Math and over 10% on the LAMBADA benchmark.

arxiv情報

著者 Chetan Verma,Aditya Srinivas Timmaraju,Cho-Jui Hsieh,Suyash Damle,Ngot Bui,Yang Zhang,Wen Chen,Xin Liu,Prateek Jain,Inderjit S Dhillon
発行日 2025-06-02 09:31:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Matryoshka Model Learning for Improved Elastic Student Models はコメントを受け付けていません

A personalized time-resolved 3D mesh generative model for unveiling normal heart dynamics

要約

心臓の主な原因である心血管疾患の診断と管理には、心臓の構造と動きを理解することが重要です。
人口統計、人体測定因子、疾患因子の影響を受ける心臓の形状と運動パターンには大きなばらつきがあります。
形状と動きの通常のパターンを解明し、各個人が標準からどのように逸脱するかを理解することで、正確な診断と個別化された治療戦略が促進されます。
この目的のために、心臓の左右の心室の形状と運動パターンの分布を学ぶために、条件付き生成モデルMeshheartを開発しました。
高次元の時空間メッシュデータをモデル化するために、MeshHeartは幾何学的エンコーダーを使用して潜在空間の心臓メッシュを表し、潜在表現の動きのダイナミクスをモデル化するための時間的変圧器を使用します。
Meshheartに基づいて、3D+Tの心臓メッシュシーケンスの潜在空間を調査し、その個別化された規範パターンからの実際の心臓の偏差を定量化する距離メトリックである潜在デルタを提案します。
英国Biobankの38,309人の被験者の大規模な心磁気共鳴画像データセットを使用した実験では、Meshheartは心臓メッシュシーケンスの再構築と生成の高性能を示しています。
潜在スペースの特徴は、心臓病分類の識別的ですが、潜在的なデルタはフェノム全体の関連研究で臨床表現型と強い相関関係を示します。
コードと訓練されたモデルは、さらなる研究をサポートするためにリリースされます。

要約(オリジナル)

Understanding the structure and motion of the heart is crucial for diagnosing and managing cardiovascular diseases, the leading cause of global death. There is wide variation in cardiac shape and motion patterns, influenced by demographic, anthropometric and disease factors. Unravelling normal patterns of shape and motion, and understanding how each individual deviates from the norm, would facilitate accurate diagnosis and personalised treatment strategies. To this end, we developed a conditional generative model, MeshHeart, to learn the distribution of shape and motion patterns for the left and right ventricles of the heart. To model the high-dimensional spatio-temporal mesh data, MeshHeart employs a geometric encoder to represent cardiac meshes in a latent space, and a temporal Transformer to model the motion dynamics of latent representations. Based on MeshHeart, we investigate the latent space of 3D+t cardiac mesh sequences and propose a distance metric, latent delta, which quantifies the deviation of a real heart from its personalised normative pattern. In experiments using a large cardiac magnetic resonance image dataset of 38,309 subjects from the UK Biobank, MeshHeart demonstrates high performance in cardiac mesh sequence reconstruction and generation. Latent space features are discriminative for cardiac disease classification, whereas latent delta exhibits strong correlations with clinical phenotypes in phenome-wide association studies. The code and the trained model are released to support further research.

arxiv情報

著者 Mengyun Qiao,Kathryn A McGurk,Shuo Wang,Paul M. Matthews,Declan P O Regan,Wenjia Bai
発行日 2025-06-02 09:43:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | A personalized time-resolved 3D mesh generative model for unveiling normal heart dynamics はコメントを受け付けていません

Standard Benchmarks Fail – Auditing LLM Agents in Finance Must Prioritize Risk

要約

標準的なベンチマークは、大規模な言語モデル(LLM)エージェントが金融でどれだけうまく機能するかについて固定していますが、展開が安全かどうかについてはほとんど言いません。
私たちは、精度のメトリックとリターンベースのスコアは、幻覚、古いデータ、敵対的な迅速な操作などの脆弱性を見落とす信頼性の幻想を提供すると主張します。
私たちはしっかりした立場を取ります:金融LLMエージェントは、ポイントエクサイモのパフォーマンスではなく、リスクプロファイルについて何よりもまず評価する必要があります。
リスクエンジニアリングの原則に基づいて、現実的な障害モードでの応力テストLLMエージェントのためのモデル、ワークフロー、およびシステムの3レベルのアジェンダの概要を説明します。
このシフトが緊急である理由を説明するために、3つのインパクトタスクで6つのAPIベースのLLMエージェントを監査し、従来のベンチマークが見逃している隠れた弱点を明らかにします。
私たちは、研究者、実務家、規制当局に対する実用的な推奨事項で結論付けています。将来の研究でリスク認識メトリックを監査し、データセットと並んでストレスシナリオを公開し、「安全予算」を主要な成功基準として扱います。
「良い」ものを再定義することによってのみ、コミュニティは責任を持ってAI主導の財務を進めることができます。

要約(オリジナル)

Standard benchmarks fixate on how well large language model (LLM) agents perform in finance, yet say little about whether they are safe to deploy. We argue that accuracy metrics and return-based scores provide an illusion of reliability, overlooking vulnerabilities such as hallucinated facts, stale data, and adversarial prompt manipulation. We take a firm position: financial LLM agents should be evaluated first and foremost on their risk profile, not on their point-estimate performance. Drawing on risk-engineering principles, we outline a three-level agenda: model, workflow, and system, for stress-testing LLM agents under realistic failure modes. To illustrate why this shift is urgent, we audit six API-based and open-weights LLM agents on three high-impact tasks and uncover hidden weaknesses that conventional benchmarks miss. We conclude with actionable recommendations for researchers, practitioners, and regulators: audit risk-aware metrics in future studies, publish stress scenarios alongside datasets, and treat “safety budget” as a primary success criterion. Only by redefining what “good” looks like can the community responsibly advance AI-driven finance.

arxiv情報

著者 Zichen Chen,Jiaao Chen,Jianda Chen,Misha Sra
発行日 2025-06-02 10:13:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, q-fin.GN | Standard Benchmarks Fail – Auditing LLM Agents in Finance Must Prioritize Risk はコメントを受け付けていません

Inducing, Detecting and Characterising Neural Modules: A Pipeline for Functional Interpretability in Reinforcement Learning

要約

RLシステムが人間の価値と一致するようにするには、解釈可能性が重要です。
ただし、複雑な意思決定ドメインで達成することは困難なままです。
既存の方法は、ニューロンや決定ノードなどの基本モデルユニットのレベルで解釈可能性を頻繁に試みます。これは、大規模なモデルに対してスケーリングが不十分なアプローチです。
ここでは、代わりに、機能的モジュール性のレベルで解釈可能性へのアプローチを提案します。
ネットワークの重みのスパース性と地域を奨励することで、RLポリシーネットワークの機能モジュールの出現につながることがどれほど示されますか。
これらのモジュールを検出するために、ニューラルネットワークアーキテクチャに適用された場合の標準ネットワーク分析手法の制限を克服するために、新しい「相関アライメント」メトリックを使用する拡張ルーバンアルゴリズムを開発します。
これらの方法を2Dおよび3Dミニグルド環境に適用すると、異なる軸の明確なナビゲーションモジュールの一貫した出現が明らかになり、さらに、推論前にネットワーク重みの直接的な介入を通じてこれらの機能を検証する方法をさらに示します。

要約(オリジナル)

Interpretability is crucial for ensuring RL systems align with human values. However, it remains challenging to achieve in complex decision making domains. Existing methods frequently attempt interpretability at the level of fundamental model units, such as neurons or decision nodes: an approach which scales poorly to large models. Here, we instead propose an approach to interpretability at the level of functional modularity. We show how encouraging sparsity and locality in network weights leads to the emergence of functional modules in RL policy networks. To detect these modules, we develop an extended Louvain algorithm which uses a novel `correlation alignment’ metric to overcome the limitations of standard network analysis techniques when applied to neural network architectures. Applying these methods to 2D and 3D MiniGrid environments reveals the consistent emergence of distinct navigational modules for different axes, and we further demonstrate how these functions can be validated through direct interventions on network weights prior to inference.

arxiv情報

著者 Anna Soligo,Pietro Ferraro,David Boyle
発行日 2025-06-02 10:38:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Inducing, Detecting and Characterising Neural Modules: A Pipeline for Functional Interpretability in Reinforcement Learning はコメントを受け付けていません

A is for Absorption: Studying Feature Splitting and Absorption in Sparse Autoencoders

要約

スパース自動エンコーダー(SAE)は、大規模な言語モデル(LLM)の活性化空間を人間の解釈可能な潜在的方向または特徴に分解することを目指しています。
SAEの機能の数を増やすと、階層的な機能がより細かい機能に分かれ(「数学」が「代数」、「ジオメトリ」などに分割される可能性があります)、機能分割と呼ばれる現象です。
ただし、階層的特徴のまばらな分解と分割が堅牢ではないことを示しています。
具体的には、一見単調な機能が必要な場所に発射できず、代わりに子供の機能に「吸収」されることを示します。
この現象の特徴を吸収し、基礎となる特徴が階層を形成するたびにSAEのスパースを最適化することによって引き起こされることを示しています。
SAEの吸収を検出するためのメトリックを導入し、数百のLLM SAEでの調査結果を経験的に検証します。
私たちの調査では、SAEのサイズやスパースの変化がこの問題を解決するには不十分であることが示唆されています。
SAEにおける特徴吸収の意味と、SAEがLLMを堅牢かつ規模に解釈するために使用する前に、基本的な理論的問題を解決するためのいくつかの潜在的なアプローチについて説明します。

要約(オリジナル)

Sparse Autoencoders (SAEs) aim to decompose the activation space of large language models (LLMs) into human-interpretable latent directions or features. As we increase the number of features in the SAE, hierarchical features tend to split into finer features (‘math’ may split into ‘algebra’, ‘geometry’, etc.), a phenomenon referred to as feature splitting. However, we show that sparse decomposition and splitting of hierarchical features is not robust. Specifically, we show that seemingly monosemantic features fail to fire where they should, and instead get ‘absorbed’ into their children features. We coin this phenomenon feature absorption, and show that it is caused by optimizing for sparsity in SAEs whenever the underlying features form a hierarchy. We introduce a metric to detect absorption in SAEs, and validate our findings empirically on hundreds of LLM SAEs. Our investigation suggests that varying SAE sizes or sparsity is insufficient to solve this issue. We discuss the implications of feature absorption in SAEs and some potential approaches to solve the fundamental theoretical issues before SAEs can be used for interpreting LLMs robustly and at scale.

arxiv情報

著者 David Chanin,James Wilken-Smith,Tomáš Dulka,Hardik Bhatnagar,Satvik Golechha,Joseph Bloom
発行日 2025-06-02 10:58:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | A is for Absorption: Studying Feature Splitting and Absorption in Sparse Autoencoders はコメントを受け付けていません

LEGO-Puzzles: How Good Are MLLMs at Multi-Step Spatial Reasoning?

要約

マルチステップの空間的推論には、複数のシーケンシャルステップにわたる空間的関係についての理解と推論が必要です。これは、ロボット操作、自律ナビゲーション、自動アセンブリなどの複雑な現実世界アプリケーションに取り組むために重要です。
現在のマルチモーダル大手言語モデル(MLLM)がこの基本的な機能を獲得したことを評価するために、LEGOパズルを導入します。これは、LEGOベースのタスクを通じてMLLMの空間的理解と順次推論の両方を評価するために設計されたスケーラブルなベンチマークです。
レゴパズルは、基本的な空間的理解から複雑なマルチステップ推論に至るまで、11の異なるタスクにまたがる1,100の慎重にキュレーションされた視覚的質問(VQA)サンプルで構成されています。
レゴパズルに基づいて、20の最先端のMLLMの包括的な評価を実施し、空間推論能力の有意な制限を明らかにします。最も強力なMLLMでさえ、テストケースの約半分しか回答できませんが、人間の参加者は90%以上の精度を達成できます。
さらに、レゴパズルに基づいて、MLLMが空間的理解と推論能力をイメージ生成に転送できるかどうかを調査するために、生成タスクを設計します。
私たちの実験は、GPT-4OとGEMINI-2.0-FLASHのみがこれらの命令に従うために限られた能力を示す一方で、他のMLLMは入力画像を複製するか、完全に無関係な出力を生成することを示しています。
全体として、LEGOパズルは、既存のMLLMの空間的理解と順次推論能力の重大な欠陥を暴露し、マルチモーダルの空間推論のさらなる進歩の必要性を強調しています。

要約(オリジナル)

Multi-step spatial reasoning entails understanding and reasoning about spatial relationships across multiple sequential steps, which is crucial for tackling complex real-world applications, such as robotic manipulation, autonomous navigation, and automated assembly. To assess how well current Multimodal Large Language Models (MLLMs) have acquired this fundamental capability, we introduce LEGO-Puzzles, a scalable benchmark designed to evaluate both spatial understanding and sequential reasoning in MLLMs through LEGO-based tasks. LEGO-Puzzles consists of 1,100 carefully curated visual question-answering (VQA) samples spanning 11 distinct tasks, ranging from basic spatial understanding to complex multi-step reasoning. Based on LEGO-Puzzles, we conduct a comprehensive evaluation of 20 state-of-the-art MLLMs and uncover significant limitations in their spatial reasoning capabilities: even the most powerful MLLMs can answer only about half of the test cases, whereas human participants achieve over 90% accuracy. Furthermore, based on LEGO-Puzzles, we design generation tasks to investigate whether MLLMs can transfer their spatial understanding and reasoning abilities to image generation. Our experiments show that only GPT-4o and Gemini-2.0-Flash exhibit a limited ability to follow these instructions, while other MLLMs either replicate the input image or generate completely irrelevant outputs. Overall, LEGO-Puzzles exposes critical deficiencies in existing MLLMs’ spatial understanding and sequential reasoning capabilities, and underscores the need for further advancements in multimodal spatial reasoning.

arxiv情報

著者 Kexian Tang,Junyao Gao,Yanhong Zeng,Haodong Duan,Yanan Sun,Zhening Xing,Wenran Liu,Kaifeng Lyu,Kai Chen
発行日 2025-06-02 11:06:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | LEGO-Puzzles: How Good Are MLLMs at Multi-Step Spatial Reasoning? はコメントを受け付けていません

Solving Multiagent Path Finding on Highly Centralized Networks

要約

Mutliagent Path Finding(MAPF)の問題は、可能な限り早く、互いに衝突することなく、希望する目的地に到達するために、エージェントのセットが特定のネットワーク内で従うべき軌跡を識別することで構成されています。
エージェントが目標を達成するために取る最大時間を最小限に抑え、最適なパス長を確保することを目指しています。
この作業では、パラメーター化された複雑さの観点を通じて、この問題のアルゴリズムの動作を体系的に研究することを目的とする最近の結果のスレッドを補完します。
まず、指定されたネットワークに星のようなトポロジ(境界付き頂点カバー番号)がある場合、または$ 11の葉があるツリーである場合、MAPFがNPハードであることを示します。
これらの結果は両方とも、[Fioravantes et al。
マルチエージェントパス発見のための正確なアルゴリズムと下限:ツリーリークトポロジの力。
aaai’24]。
それにもかかわらず、私たちの主な貢献は、指定されたネットワークのトポロジーが高度に集中化されている場合(FPT)、入力が成長する(FPT)(FPT)(FPT)を十分にスケーリングする正確なアルゴリズムです。
このパラメーターは、実際のネットワークを反映しているため、重要です。
このような環境では、多くの中央ハブ(処理領域など)が少数の末梢ノードにしか接続されていません。

要約(オリジナル)

The Mutliagent Path Finding (MAPF) problem consists of identifying the trajectories that a set of agents should follow inside a given network in order to reach their desired destinations as soon as possible, but without colliding with each other. We aim to minimize the maximum time any agent takes to reach their goal, ensuring optimal path length. In this work, we complement a recent thread of results that aim to systematically study the algorithmic behavior of this problem, through the parameterized complexity point of view. First, we show that MAPF is NP-hard when the given network has a star-like topology (bounded vertex cover number) or is a tree with $11$ leaves. Both of these results fill important gaps in our understanding of the tractability of this problem that were left untreated in the recent work of [Fioravantes et al. Exact Algorithms and Lowerbounds for Multiagent Path Finding: Power of Treelike Topology. AAAI’24]. Nevertheless, our main contribution is an exact algorithm that scales well as the input grows (FPT) when the topology of the given network is highly centralized (bounded distance to clique). This parameter is significant as it mirrors real-world networks. In such environments, a bunch of central hubs (e.g., processing areas) are connected to only few peripheral nodes.

arxiv情報

著者 Foivos Fioravantes,Dušan Knop,Jan Matyáš Křišťan,Nikolaos Melissinos,Michal Opler,Tung Anh Vu
発行日 2025-06-02 11:10:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CC | Solving Multiagent Path Finding on Highly Centralized Networks はコメントを受け付けていません