What, How, Where, and How Well? A Survey on Test-Time Scaling in Large Language Models

要約

「テスト時間コンピューティング」とも呼ばれるテスト時間スケーリング(TTS)が徐々に減少したため、事前トレーニング時代の計算(データとパラメーター)のスケーリング(データとパラメーター)への熱意が徐々に減少しました。
最近の研究は、TTSが大規模な言語モデル(LLM)の問題解決能力をさらに引き出すことができることを示しており、数学やコーディングなどの専門的な推論タスクだけでなく、オープンエンドQ&Aなどの一般的なタスクでも重要なブレークスルーを可能にします。
しかし、この分野での最近の努力の爆発にもかかわらず、体系的な理解を提供する包括的な調査が緊急に必要である。
このギャップを埋めるために、TTS研究の4つのコアディメンションに沿って構成された統一された多次元フレームワークを提案します。
この分類法に基づいて、メソッド、アプリケーションシナリオ、評価の側面の広範なレビューを実施し、より広範なTTSランドスケープ内の個々の手法のユニークな機能的役割を強調する組織化された分解を提示します。
この分析から、TTSの主要な発達軌跡をこれまでに蒸留し、実用的な展開のための実践的なガイドラインを提供します。
さらに、いくつかのオープンな課題を特定し、さらなるスケーリング、技術の機能的な本質の明確化、より多くのタスクへの一般化、より多くの帰属など、有望な将来の方向性に関する洞察を提供します。

要約(オリジナル)

As enthusiasm for scaling computation (data and parameters) in the pretraining era gradually diminished, test-time scaling (TTS), also referred to as “test-time computing” has emerged as a prominent research focus. Recent studies demonstrate that TTS can further elicit the problem-solving capabilities of large language models (LLMs), enabling significant breakthroughs not only in specialized reasoning tasks, such as mathematics and coding, but also in general tasks like open-ended Q&A. However, despite the explosion of recent efforts in this area, there remains an urgent need for a comprehensive survey offering a systemic understanding. To fill this gap, we propose a unified, multidimensional framework structured along four core dimensions of TTS research: what to scale, how to scale, where to scale, and how well to scale. Building upon this taxonomy, we conduct an extensive review of methods, application scenarios, and assessment aspects, and present an organized decomposition that highlights the unique functional roles of individual techniques within the broader TTS landscape. From this analysis, we distill the major developmental trajectories of TTS to date and offer hands-on guidelines for practical deployment. Furthermore, we identify several open challenges and offer insights into promising future directions, including further scaling, clarifying the functional essence of techniques, generalizing to more tasks, and more attributions.

arxiv情報

著者 Qiyuan Zhang,Fuyuan Lyu,Zexu Sun,Lei Wang,Weixu Zhang,Zhihan Guo,Yufei Wang,Irwin King,Xue Liu,Chen Ma
発行日 2025-03-31 15:46:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | What, How, Where, and How Well? A Survey on Test-Time Scaling in Large Language Models はコメントを受け付けていません

Spatio-temporal Prediction of Fine-Grained Origin-Destination Matrices with Applications in Ridesharing

要約

ネットワークベースの旅行者の要求の正確な空間的予測は、ライドシェアリングプラットフォームの効果的なポリシー設計にとって重要です。
今後のタイムスロットでさまざまな場所間の総需要に関する知識を持つことにより、プラットフォームは適切な供給を積極的に準備することができ、それにより、旅行者の要求を満たす可能性を高め、グローバルな供給需要の平衡を最適化するための潜在的な需要の高い地域にアイドルドライバーを再配布する可能性を高めます。
このペーパーでは、特に地元の地域の広大なセットに直面している場合、微粒子の空間レベルで、起源照明(OD)の要求の予測を掘り下げています。
このタスクは計り知れない実用的な価値を保持していますが、研究コミュニティ内では比較的未開拓のままです。
このギャップを埋めるために、データスパース性を緩和するための監視されていないスペースの粗大化技術と、セマンティックと地理的依存関係の両方をキャプチャするエンコーダーデコーダーアーキテクチャを含むOD-Cedと呼ばれる新しい予測モデルを導入します。
実用的な実験を通じて、OD-CEDは顕著な結果を示しています。
90%を超えるスパース性を示すODマトリックスを扱う場合、根平均誤差の最大45%の減少と、従来の統計的方法に比べて加重平均絶対パーセント誤差が60%減少することを達成しました。

要約(オリジナル)

Accurate spatial-temporal prediction of network-based travelers’ requests is crucial for the effective policy design of ridesharing platforms. Having knowledge of the total demand between various locations in the upcoming time slots enables platforms to proactively prepare adequate supplies, thereby increasing the likelihood of fulfilling travelers’ requests and redistributing idle drivers to areas with high potential demand to optimize the global supply-demand equilibrium. This paper delves into the prediction of Origin-Destination (OD) demands at a fine-grained spatial level, especially when confronted with an expansive set of local regions. While this task holds immense practical value, it remains relatively unexplored within the research community. To fill this gap, we introduce a novel prediction model called OD-CED, which comprises an unsupervised space coarsening technique to alleviate data sparsity and an encoder-decoder architecture to capture both semantic and geographic dependencies. Through practical experimentation, OD-CED has demonstrated remarkable results. It achieved an impressive reduction of up to 45% reduction in root-mean-square error and 60% in weighted mean absolute percentage error over traditional statistical methods when dealing with OD matrices exhibiting a sparsity exceeding 90%.

arxiv情報

著者 Run Yang,Runpeng Dai,Siran Gao,Xiaocheng Tang,Fan Zhou,Hongtu Zhu
発行日 2025-03-31 15:52:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML | Spatio-temporal Prediction of Fine-Grained Origin-Destination Matrices with Applications in Ridesharing はコメントを受け付けていません

Inductive Moment Matching

要約

拡散モデルとフローマッチングは、高品質のサンプルを生成しますが、推論では遅くなり、それらを少数のモデルに蒸留することは、しばしば不安定性と広範なチューニングにつながります。
これらのトレードオフを解決するために、単一段階のトレーニング手順を備えた1つまたは少数のサンプリングのための新しいクラスの生成モデルである帰納的モーメントマッチング(IMM)を提案します。
蒸留とは異なり、IMMは2つのネットワークのトレーニング前の初期化と最適化を必要としません。
また、一貫性モデルとは異なり、IMMは分布レベルの収束を保証し、さまざまなハイパーパラメーターと標準モデルアーキテクチャの下で安定したままです。
IMMは、8つの推論ステップのみを使用して1.99 FIDでImagenet-256×256で拡散モデルを上回り、ゼロからトレーニングされたモデルのCIFAR-10で最先端の2ステップFIDをCIFAR-10で達成します。

要約(オリジナル)

Diffusion models and Flow Matching generate high-quality samples but are slow at inference, and distilling them into few-step models often leads to instability and extensive tuning. To resolve these trade-offs, we propose Inductive Moment Matching (IMM), a new class of generative models for one- or few-step sampling with a single-stage training procedure. Unlike distillation, IMM does not require pre-training initialization and optimization of two networks; and unlike Consistency Models, IMM guarantees distribution-level convergence and remains stable under various hyperparameters and standard model architectures. IMM surpasses diffusion models on ImageNet-256×256 with 1.99 FID using only 8 inference steps and achieves state-of-the-art 2-step FID of 1.98 on CIFAR-10 for a model trained from scratch.

arxiv情報

著者 Linqi Zhou,Stefano Ermon,Jiaming Song
発行日 2025-03-31 16:02:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML | Inductive Moment Matching はコメントを受け付けていません

CASTLE: Benchmarking Dataset for Static Code Analyzers and LLMs towards CWE Detection

要約

特に重要なソフトウェアコンポーネントでは、ソースコードの脆弱性を特定することが重要です。
静的分析、動的分析、正式な検証、最近の大規模な言語モデルなどの既存の方法は、セキュリティの欠陥を検出するために広く使用されています。
このペーパーでは、さまざまな方法の脆弱性検出機能を評価するためのベンチマークフレームワークであるCastle(CWE Automated Securityテストと低レベルの評価)を紹介します。
25の一般的なCWEをカバーする250のマイクロベンチマークプログラムの手作りのデータセットを使用して、13の静的分析ツール、10 LLM、および2つの正式な検証ツールを評価します。
公正な比較を確保するための新しい評価メトリックであるCastle Scoreを提案します。
私たちの結果は重要な違いを明らかにします。ESBMC(正式な検証ツール)は、誤検知を最小限に抑えますが、暗号化やSQL注入などのモデルチェックを超えた脆弱性と闘っています。
静的アナライザーは、誤検知が高く、開発者の手動検証努力の増加に悩まされています。
LLMSは、小さなコードスニペットの脆弱性を識別するときに、Castle Datasetで非常によく機能します。
ただし、それらの精度は低下し、コードサイズが大きくなるにつれて幻覚が増加します。
これらの結果は、LLMが将来のセキュリティソリューション、特にコード完了フレームワーク内で極めて重要な役割を果たすことができることを示唆しています。ここでは、脆弱性を防ぐためのリアルタイムのガイダンスを提供できます。
データセットにはhttps://github.com/castle-benchmarkにアクセスできます。

要約(オリジナル)

Identifying vulnerabilities in source code is crucial, especially in critical software components. Existing methods such as static analysis, dynamic analysis, formal verification, and recently Large Language Models are widely used to detect security flaws. This paper introduces CASTLE (CWE Automated Security Testing and Low-Level Evaluation), a benchmarking framework for evaluating the vulnerability detection capabilities of different methods. We assess 13 static analysis tools, 10 LLMs, and 2 formal verification tools using a hand-crafted dataset of 250 micro-benchmark programs covering 25 common CWEs. We propose the CASTLE Score, a novel evaluation metric to ensure fair comparison. Our results reveal key differences: ESBMC (a formal verification tool) minimizes false positives but struggles with vulnerabilities beyond model checking, such as weak cryptography or SQL injection. Static analyzers suffer from high false positives, increasing manual validation efforts for developers. LLMs perform exceptionally well in the CASTLE dataset when identifying vulnerabilities in small code snippets. However, their accuracy declines, and hallucinations increase as the code size grows. These results suggest that LLMs could play a pivotal role in future security solutions, particularly within code completion frameworks, where they can provide real-time guidance to prevent vulnerabilities. The dataset is accessible at https://github.com/CASTLE-Benchmark.

arxiv情報

著者 Richard A. Dubniczky,Krisztofer Zoltán Horvát,Tamás Bisztray,Mohamed Amine Ferrag,Lucas C. Cordeiro,Norbert Tihanyi
発行日 2025-03-31 16:07:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.SE | CASTLE: Benchmarking Dataset for Static Code Analyzers and LLMs towards CWE Detection はコメントを受け付けていません

New Statistical Framework for Extreme Error Probability in High-Stakes Domains for Reliable Machine Learning

要約

機械学習はハイステークスドメインでは不可欠ですが、従来の検証方法は、極端なエラーの定量化に失敗する平均四角エラー(MSE)や平均絶対誤差(MAE)などの平均メトリックの平均化に依存しています。
最悪の予測の障害は大きな結果をもたらす可能性がありますが、現在のフレームワークには確率を評価するための統計的基礎がありません。
この作業では、極端な値理論(EVT)に基づいた新しい統計的フレームワークが提示され、最悪の障害を推定するための厳密なアプローチを提供します。
EVTを合成および実世界のデータセットに適用すると、この方法は壊滅的な故障確率の堅牢な推定を可能にし、標準的な交差検証の基本的な制限を克服することが示されています。
この作業は、モデルの信頼性を評価するための基本的なツールとしてEVTを確立し、不確実性の定量化が意思決定または科学分析の中心である新しいテクノロジーでのより安全なAI展開を確保します。

要約(オリジナル)

Machine learning is vital in high-stakes domains, yet conventional validation methods rely on averaging metrics like mean squared error (MSE) or mean absolute error (MAE), which fail to quantify extreme errors. Worst-case prediction failures can have substantial consequences, but current frameworks lack statistical foundations for assessing their probability. In this work a new statistical framework, based on Extreme Value Theory (EVT), is presented that provides a rigorous approach to estimating worst-case failures. Applying EVT to synthetic and real-world datasets, this method is shown to enable robust estimation of catastrophic failure probabilities, overcoming the fundamental limitations of standard cross-validation. This work establishes EVT as a fundamental tool for assessing model reliability, ensuring safer AI deployment in new technologies where uncertainty quantification is central to decision-making or scientific analysis.

arxiv情報

著者 Umberto Michelucci,Francesca Venturini
発行日 2025-03-31 16:08:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ME, stat.ML | New Statistical Framework for Extreme Error Probability in High-Stakes Domains for Reliable Machine Learning はコメントを受け付けていません

Evaluating and Designing Sparse Autoencoders by Approximating Quasi-Orthogonality

要約

スパースオートエンコーダー(SAE)は、現代の機械的解釈可能性の主力として登場していますが、$ $ k $スタイルのアクティベーション関数を使用して主要なSAEアプローチは、ハイパーパラメーター$ k $を選択するための理論的根拠に欠けています。
SAEは、線形表現仮説(LRH)に基づいており、大規模な言語モデル(LLM)の表現が線形エンコードされていると仮定し、重ね合わせ仮説(SH)は、その次元よりもモデルに多くの特徴がある可能性があると述べています。
LRHとSHの正式な定義に基づいて、スパース特徴ベクトルの大きさ(LLMSの密な埋め込みのSAEによって学習された潜在表現)は、閉じた型誤差を持つ対応する濃いベクターを使用して近似できることを示します。
これを視覚化するために、ZFプロットを提案します。これは、LLM隠された埋め込みとSAE機能ベクターの間に以前は未知の関係を明らかにし、特定の入力に対して過剰または過剰に活性化される範囲の範囲の最初の経験的測定を行うことができます。
それに対応して、接地真実のスパース特徴ベクトルの大きさに近似し、入力とアクティベーション間のアライメントを評価するためにAFAから派生した新しい評価メトリックを提案する近似特徴アクティベーション(AFA)を導入します。
また、AFAを活用して、新しいSAEアーキテクチャであるTop-AFA SAEを導入し、次のSAEにつながります。(a)理論的正当性に沿っています。
(b)Sae Sparsity HyperParametersを調整する必要性を取り除きます。
最後に、HyperParameter $ K $を調整する必要なく、最先端のTOP-K SAEのトップAFA SAEが再建損失を達成できることを経験的に実証します。
私たちのコードは、https://github.com/sewoonglee/top-afa-saeで入手できます。

要約(オリジナル)

Sparse autoencoders (SAEs) have emerged as a workhorse of modern mechanistic interpretability, but leading SAE approaches with top-$k$ style activation functions lack theoretical grounding for selecting the hyperparameter $k$. SAEs are based on the linear representation hypothesis (LRH), which assumes that the representations of large language models (LLMs) are linearly encoded, and the superposition hypothesis (SH), which states that there can be more features in the model than its dimensionality. We show that, based on the formal definitions of the LRH and SH, the magnitude of sparse feature vectors (the latent representations learned by SAEs of the dense embeddings of LLMs) can be approximated using their corresponding dense vector with a closed-form error bound. To visualize this, we propose the ZF plot, which reveals a previously unknown relationship between LLM hidden embeddings and SAE feature vectors, allowing us to make the first empirical measurement of the extent to which feature vectors of pre-trained SAEs are over- or under-activated for a given input. Correspondingly, we introduce Approximate Feature Activation (AFA), which approximates the magnitude of the ground-truth sparse feature vector, and propose a new evaluation metric derived from AFA to assess the alignment between inputs and activations. We also leverage AFA to introduce a novel SAE architecture, the top-AFA SAE, leading to SAEs that: (a) are more in line with theoretical justifications; and (b) obviate the need to tune SAE sparsity hyperparameters. Finally, we empirically demonstrate that top-AFA SAEs achieve reconstruction loss comparable to that of state-of-the-art top-k SAEs, without requiring the hyperparameter $k$ to be tuned. Our code is available at: https://github.com/SewoongLee/top-afa-sae.

arxiv情報

著者 Sewoong Lee,Adam Davies,Marc E. Canby,Julia Hockenmaier
発行日 2025-03-31 16:22:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Evaluating and Designing Sparse Autoencoders by Approximating Quasi-Orthogonality はコメントを受け付けていません

AutoEval: Autonomous Evaluation of Generalist Robot Manipulation Policies in the Real World

要約

スケーラブルで再現可能なポリシー評価は、ロボット学習における長年の課題でした。
評価は進捗を評価し、より良いポリシーを構築するために重要ですが、現実の世界では、特に統計的に信頼できる結果を提供する規模での評価は、人間の時間の面で費用がかかり、取得が困難です。
ますます一般的なロボットポリシーの評価には、評価環境のますます多様化するレパートリーが必要であり、評価のボトルネックがさらに顕著になります。
ロボットポリシーの実際の評価をより実用的にするために、私たちは、最小限の人間の介入で24時間周辺で自律的に評価するシステムであるAutoevalを提案します。
ユーザーは、ソフトウェアジョブがクラスタースケジューリングシステムで提出される方法と同様に、評価ジョブを自動変動キューに提出することにより、自動評価と対話し、自動成功検知と自動シーンのリセットを提供するフレームワーク内で評価のポリシーをスケジュールします。
自動面積は、評価プロセスへの人間の関与をほぼ完全に排除し、時計評価を中心に許可することを示し、評価結果は手で行われたグラウンドトゥルース評価に密接に対応しています。
Roboticsコミュニティにおけるジェネラリスト政策の評価を促進するために、Widowx Robot Armsを備えた人気のあるBriddeataロボットセットアップで、複数の自己評価シーンへのパブリックアクセスを提供します。
将来的には、機関全体に自己量のシーンを設置して、多様で分散した評価ネットワークを形成できることを願っています。

要約(オリジナル)

Scalable and reproducible policy evaluation has been a long-standing challenge in robot learning. Evaluations are critical to assess progress and build better policies, but evaluation in the real world, especially at a scale that would provide statistically reliable results, is costly in terms of human time and hard to obtain. Evaluation of increasingly generalist robot policies requires an increasingly diverse repertoire of evaluation environments, making the evaluation bottleneck even more pronounced. To make real-world evaluation of robotic policies more practical, we propose AutoEval, a system to autonomously evaluate generalist robot policies around the clock with minimal human intervention. Users interact with AutoEval by submitting evaluation jobs to the AutoEval queue, much like how software jobs are submitted with a cluster scheduling system, and AutoEval will schedule the policies for evaluation within a framework supplying automatic success detection and automatic scene resets. We show that AutoEval can nearly fully eliminate human involvement in the evaluation process, permitting around the clock evaluations, and the evaluation results correspond closely to ground truth evaluations conducted by hand. To facilitate the evaluation of generalist policies in the robotics community, we provide public access to multiple AutoEval scenes in the popular BridgeData robot setup with WidowX robot arms. In the future, we hope that AutoEval scenes can be set up across institutions to form a diverse and distributed evaluation network.

arxiv情報

著者 Zhiyuan Zhou,Pranav Atreya,You Liang Tan,Karl Pertsch,Sergey Levine
発行日 2025-03-31 16:23:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | AutoEval: Autonomous Evaluation of Generalist Robot Manipulation Policies in the Real World はコメントを受け付けていません

PharmAgents: Building a Virtual Pharma with Large Language Model Agents

要約

新規の小分子薬の発見は、疾患の治療と人間の健康の進歩に広範囲に及ぶ意味を持つ重要な科学的課題のままです。
従来の医薬品開発、特に小分子治療の場合、学際的なコラボレーションを必要とする非常に複雑で、リソース集約的で時間のかかるプロセスです。
人工知能(AI)の最近のブレークスルー、特に大規模な言語モデル(LLMS)の台頭は、このプロセスを合理化および加速する変革的な機会を提示します。
このホワイトペーパーでは、LLMベースのマルチエージェントコラボレーションによって駆動される仮想医薬品の生態系であるPharmagentsを紹介します。
Pharmagentsは、ターゲット発見から前臨床評価までの完全な創薬ワークフローをシミュレートします。特殊な機械学習モデルと計算ツールを備えた説明可能なLLM駆動型エージェントを統合することにより。
構造化された知識交換と自動化された最適化を通じて、薬剤は潜在的な治療標的を特定し、有望なリード化合物を発見し、結合親和性と主要な分子特性を強化し、毒性と合成の実現可能性のsilico分析を実行します。
さらに、システムは解釈可能性、エージェントの相互作用、および自己進化をサポートし、以前の経験に基づいて将来の薬物設計を改良できるようにします。
薬物発見におけるLLM駆動のマルチエージェントシステムの可能性を紹介することにより、この研究は、包括的な薬物ライフサイクル管理に向けた将来の拡張を伴う、自律的で説明可能な、スケーラブルな医薬品研究のための新しいパラダイムを確立します。

要約(オリジナル)

The discovery of novel small molecule drugs remains a critical scientific challenge with far-reaching implications for treating diseases and advancing human health. Traditional drug development–especially for small molecule therapeutics–is a highly complex, resource-intensive, and time-consuming process that requires multidisciplinary collaboration. Recent breakthroughs in artificial intelligence (AI), particularly the rise of large language models (LLMs), present a transformative opportunity to streamline and accelerate this process. In this paper, we introduce PharmAgents, a virtual pharmaceutical ecosystem driven by LLM-based multi-agent collaboration. PharmAgents simulates the full drug discovery workflow–from target discovery to preclinical evaluation–by integrating explainable, LLM-driven agents equipped with specialized machine learning models and computational tools. Through structured knowledge exchange and automated optimization, PharmAgents identifies potential therapeutic targets, discovers promising lead compounds, enhances binding affinity and key molecular properties, and performs in silico analyses of toxicity and synthetic feasibility. Additionally, the system supports interpretability, agent interaction, and self-evolvement, enabling it to refine future drug designs based on prior experience. By showcasing the potential of LLM-powered multi-agent systems in drug discovery, this work establishes a new paradigm for autonomous, explainable, and scalable pharmaceutical research, with future extensions toward comprehensive drug lifecycle management.

arxiv情報

著者 Bowen Gao,Yanwen Huang,Yiqiao Liu,Wenxuan Xie,Wei-Ying Ma,Ya-Qin Zhang,Yanyan Lan
発行日 2025-03-31 16:26:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, q-bio.BM | PharmAgents: Building a Virtual Pharma with Large Language Model Agents はコメントを受け付けていません

Value of Information-based Deceptive Path Planning Under Adversarial Interventions

要約

欺ceptiveなパス計画(DPP)の既存の方法に対処します。パスをパスを設計する問題に対処します。
このような方法は、観察者が経路計画エージェントを妨げるために敵対的な介入を実行する能力を持っている問題には適用されません。
この論文では、DPPポリシーの設計を導くために、敵対的介入の下でDPP問題の新しいマルコフ決定プロセス(MDP)ベースのモデルを提案し、情報の新しい価値(VOI)目的を開発します。
私たちが提案するVOIの目的を使用して、パス計画エージェントは、観察者にとって情報価値が低い軌跡を選択することにより、敵対的なオブザーバーを欺き、最適でない介入を選択します。
MDPの線形プログラミング理論への接続を活用すると、敵対的介入の下でDPPを実行するためのポリシーを合成するための計算効率的なソリューション方法を導き出します。
私たちの実験では、敵対的な介入の下で欺ceptiveningを達成する上で提案されたソリューション法の有効性を説明し、既存のDPPメソッドと実例のあるグリッドワールドの問題に関する保守的な経路計画アプローチの両方に対するアプローチの優れたパフォーマンスを実証します。

要約(オリジナル)

Existing methods for deceptive path planning (DPP) address the problem of designing paths that conceal their true goal from a passive, external observer. Such methods do not apply to problems where the observer has the ability to perform adversarial interventions to impede the path planning agent. In this paper, we propose a novel Markov decision process (MDP)-based model for the DPP problem under adversarial interventions and develop new value of information (VoI) objectives to guide the design of DPP policies. Using the VoI objectives we propose, path planning agents deceive the adversarial observer into choosing suboptimal interventions by selecting trajectories that are of low informational value to the observer. Leveraging connections to the linear programming theory for MDPs, we derive computationally efficient solution methods for synthesizing policies for performing DPP under adversarial interventions. In our experiments, we illustrate the effectiveness of the proposed solution method in achieving deceptiveness under adversarial interventions and demonstrate the superior performance of our approach to both existing DPP methods and conservative path planning approaches on illustrative gridworld problems.

arxiv情報

著者 Wesley A. Suttle,Jesse Milzman,Mustafa O. Karabag,Brian M. Sadler,Ufuk Topcu
発行日 2025-03-31 16:31:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, math.OC | Value of Information-based Deceptive Path Planning Under Adversarial Interventions はコメントを受け付けていません

Shape Expressions with Inheritance

要約

形状式言語(SHEX)の継承メカニズムを正式に紹介します。
オブジェクト指向のプログラミング言語の継承に触発され、再利用、モジュール性、より柔軟なデータモデリングなどの同様の利点を提供します。
例を使用して、継承メカニズムの主な特徴を説明します。
その構文と正式なセマンティクスを提示します。
セマンティクスは、Shex 2.1のセマンティクスの拡張です。
また、同じアルゴリズムの複雑さを維持しながら、以前のSHEX検証アルゴリズムの拡張として検証アルゴリズムを直接生成します。

要約(オリジナル)

We formally introduce an inheritance mechanism for the Shape Expressions language (ShEx). It is inspired by inheritance in object-oriented programming languages, and provides similar advantages such as reuse, modularity, and more flexible data modelling. Using an example, we explain the main features of the inheritance mechanism. We present its syntax and formal semantics. The semantics is an extension of the semantics of ShEx 2.1. It also directly yields a validation algorithm as an extension of the previous ShEx validation algorithms, while maintaining the same algorithmic complexity.

arxiv情報

著者 Iovka Boneva,Jose Emilio Labra Gayo,Eric Prud’hommeaux,Katherine Thornton,Andra Waagmeester
発行日 2025-03-31 16:42:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DB | Shape Expressions with Inheritance はコメントを受け付けていません