ProofAug: Efficient Neural Theorem Proving via Fine-grained Proof Structure Analysis

要約

ディープラーニングモデルと、プルーフアシスタントの組み込み戦術や既製の自動定理プロバーなどの従来の自動化ツールとの相乗効果は、堅牢で効率的な神経定理プロバー(NTP)を開発する上で重要な役割を果たします。
ただし、LLMSを使用したプルーフ合成の場合、以前の作業は、モデルによって明示的に呼び出された場合、または単一の粒度レベルでのみ、自動化ツールを適用します。
この問題を解決するために、モデル生成された証明提案の細粒構造分析を通じて、LLMSにさまざまな粒度に自動化方法を装備する手順であるProofAugを提案します。
Proofaugは、任意のツリー検索アルゴリズムとシームレスに統合する汎用性の高いプラグアンドプレイモジュールとしても機能し、効率的な再帰証明(ERP)モジュールの構築を可能にして、パフォーマンスをさらに強化します。
この方法の優位性は、オープンソースのdeepseek-math-7bベースモデルとイザベルプルーフアシスタントを使用して、minif2fベンチマークで検証されます。
特に、混合プロンプト戦略をさらに採用することにより、データセットのキュレーション後に66.0%の累積パス率(元のバージョンの61.9%)を達成します。
また、Minif2F-TestでKimina-Prover-Preview-Distill-1.5Bのパス@1パフォーマンスを44.3%から50.4%に改善できるLEAN 4バージョンのProofAugも実装しています。
私たちのコードは、https://github.com/haoxiongliu/proofaugで入手できます。

要約(オリジナル)

The synergy between deep learning models and traditional automation tools, such as built-in tactics of the proof assistant and off-the-shelf automated theorem provers, plays a crucial role in developing robust and efficient neural theorem provers(NTPs). However, for proof synthesis with LLMs, previous work applies automation tools either only when explicitly invoked by the model or at a single granularity level, failing to fully exploit their power. To solve this issue, we propose ProofAug, a procedure that equips LLMs with automation methods at various granularities through fine-grained structure analysis of model-generated proof proposals. ProofAug also serves as a versatile plug-and-play module that seamlessly integrates with any tree-search algorithm, enabling our construction of an efficient recursive proving (ERP) module to further enhance performance. The superiority of our method is validated on the miniF2F benchmark using the open-source deepseek-math-7b-base model and the Isabelle proof assistant. Notably, by additionally employing a mixed prompting strategy, we achieve a cumulative pass rate of 66.0% after curation of the dataset (61.9% for the original version) with 2100 queries to the model per problem (In contrast, the previous SOTA in Isabelle, Subgoal-XL, only achieves 56.1% using 16384 queries per problem). We also implement a Lean 4 version of ProofAug that can improve the pass@1 performance of Kimina-Prover-Preview-Distill-1.5B from 44.3% to 50.4% on miniF2F-test. Our code is available at https://github.com/haoxiongliu/ProofAug.

arxiv情報

著者 Haoxiong Liu,Jiacheng Sun,Zhenguo Li,Andrew C Yao
発行日 2025-06-06 13:30:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | ProofAug: Efficient Neural Theorem Proving via Fine-grained Proof Structure Analysis はコメントを受け付けていません

Proximal Policy Distillation

要約

学生主導の蒸留と近位政策最適化(PPO)を統合してサンプル効率を高め、蒸留中に学生政策が収集する追加の報酬を活用する新しい政策蒸留法(PPD)を導入します。
当社の方法の有効性を評価するために、個別のアクションと継続的な制御(Atari、Mujoco、およびProcgen)を含む幅広い強化学習環境で、PPDを学生と教師の2つの代替案と比較します。
各環境と方法について、私たちは、より小さく、同一(自己抵抗)、または教師ネットワークよりも大きい一連のターゲット学生ニューラルネットワークに蒸留を実行します。
私たちの調査結果は、PPDがサンプルの効率を改善し、典型的な政策蒸留アプローチと比較してより良い学生ポリシーを生み出すことを示しています。
さらに、PPDは、ポリシーを不完全なデモンストレーションから蒸留する際に、代替方法よりも大きな堅牢性を示しています。
このペーパーのコードは、政策の蒸留を促進するために、安定したベースラインの上に構築された新しいPythonライブラリの一部としてリリースされます。「SB3-Distill」。

要約(オリジナル)

We introduce Proximal Policy Distillation (PPD), a novel policy distillation method that integrates student-driven distillation and Proximal Policy Optimization (PPO) to increase sample efficiency and to leverage the additional rewards that the student policy collects during distillation. To assess the efficacy of our method, we compare PPD with two common alternatives, student-distill and teacher-distill, over a wide range of reinforcement learning environments that include discrete actions and continuous control (ATARI, Mujoco, and Procgen). For each environment and method, we perform distillation to a set of target student neural networks that are smaller, identical (self-distillation), or larger than the teacher network. Our findings indicate that PPD improves sample efficiency and produces better student policies compared to typical policy distillation approaches. Moreover, PPD demonstrates greater robustness than alternative methods when distilling policies from imperfect demonstrations. The code for the paper is released as part of a new Python library built on top of stable-baselines3 to facilitate policy distillation: `sb3-distill’.

arxiv情報

著者 Giacomo Spigler
発行日 2025-06-06 13:37:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Proximal Policy Distillation はコメントを受け付けていません

Tug-of-war between idiom’s figurative and literal meanings in LLMs

要約

イディオムは、非相続的な比ur的な意味のために言語モデルにユニークな課題を提示します。これは、イディオムの文字通りの解釈から強く異なることがよくあります。
この二重性には、2つの意味を表現して決定するモデルが、比fig的な意味で、または文字通りイディオムを解釈するための2つの意味を決定する必要があります。
このホワイトペーパーでは、機械的解釈可能性からツールを使用して、大規模な前提条件の因果変圧器(llama3.2-1bベース)がこのあいまいさをどのように扱うかを追跡します。
イディオム処理の3つのステップをローカライズします。まず、イディオムの比ur的な意味は、早期の注意とMLPサブレイヤーで取得されます。
イディオムの文字通りの解釈を抑制しながら、イディオムの比ur的な意味を高める特定の注意ヘッドを特定します。
その後、モデルは中間経路を介した比ur的な表現を表します。
一方、平行バイパスルートは文字通りの解釈を前進させ、両方の読み取りが利用できるようにします。
全体として、私たちの調査結果は、自己回帰トランスにおけるイディオム理解の機械的証拠を提供します。

要約(オリジナル)

Idioms present a unique challenge for language models due to their non-compositional figurative meanings, which often strongly diverge from the idiom’s literal interpretation. This duality requires a model to learn representing and deciding between the two meanings to interpret an idiom in a figurative sense, or literally. In this paper, we employ tools from mechanistic interpretability to trace how a large pretrained causal transformer (LLama3.2-1B-base) deals with this ambiguity. We localize three steps of idiom processing: First, the idiom’s figurative meaning is retrieved in early attention and MLP sublayers. We identify specific attention heads which boost the figurative meaning of the idiom while suppressing the idiom’s literal interpretation. The model subsequently represents the figurative representation through an intermediate path. Meanwhile, a parallel bypass route forwards literal interpretation, ensuring that a both reading remain available. Overall, our findings provide a mechanistic evidence for idiom comprehension in an autoregressive transformer.

arxiv情報

著者 Soyoung Oh,Xinting Huang,Mathis Pink,Michael Hahn,Vera Demberg
発行日 2025-06-06 13:41:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Tug-of-war between idiom’s figurative and literal meanings in LLMs はコメントを受け付けていません

Multidimensional Adaptive Coefficient for Inference Trajectory Optimization in Flow and Diffusion

要約

フローと拡散モデルは、さまざまなタスクで強力なパフォーマンスとトレーニングの安定性を実証していますが、シミュレーションベースの方法の2つの重要な特性がありません。次元の自由度と、異なる推論軌跡に対する適応性です。
この制限に対処するために、従来の単次元係数を多次元の係数に拡張し、推論の軌道係数を可能にするフローおよび拡散モデルのプラグインモジュールである多次元適応係数(MAC)を提案します。
Macは、敵対的な洗練を通じてシミュレーションベースのフィードバックを介してトレーニングされます。
多様なフレームワークとデータセット全体の経験的結果は、MACが高いトレーニング効率で生成品質を向上させることを示しています。
その結果、私たちの研究は、推論の軌跡の最適性に関する新しい視点を提供し、将来の研究がベクターフィールド設計を超えて、トレーニング効率の良いシミュレーションベースの最適化を活用するよう促します。

要約(オリジナル)

Flow and diffusion models have demonstrated strong performance and training stability across various tasks but lack two critical properties of simulation-based methods: freedom of dimensionality and adaptability to different inference trajectories. To address this limitation, we propose the Multidimensional Adaptive Coefficient (MAC), a plug-in module for flow and diffusion models that extends conventional unidimensional coefficients to multidimensional ones and enables inference trajectory-wise adaptation. MAC is trained via simulation-based feedback through adversarial refinement. Empirical results across diverse frameworks and datasets demonstrate that MAC enhances generative quality with high training efficiency. Consequently, our work offers a new perspective on inference trajectory optimality, encouraging future research to move beyond vector field design and to leverage training-efficient, simulation-based optimization.

arxiv情報

著者 Dohoon Lee,Jaehyun Park,Hyunwoo J. Kim,Kyogu Lee
発行日 2025-06-06 13:50:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, F.1.1 | Multidimensional Adaptive Coefficient for Inference Trajectory Optimization in Flow and Diffusion はコメントを受け付けていません

Paradigms of AI Evaluation: Mapping Goals, Methodologies and Culture

要約

AI評価の研究により、ますます複雑で学際的になり、さまざまな背景と目的を持つ研究者を引き付けました。
その結果、発散的な評価パラダイムが出現し、しばしば単独で発展し、対立する用語を採用し、お互いの貢献を見落としています。
この断片化は、異なるパラダイムと一般大衆の両方で島の研究の軌跡とコミュニケーションの障壁をもたらし、展開されたAIシステムに対する満たされていない期待に貢献しています。
この孤立性を橋渡しするために、この論文では、AI評価環境での最近の研究を調査し、6つの主要なパラダイムを特定します。
私たちは、目標、方法論、および研究文化に関連する重要な次元にわたる各パラダイム内の主要な最近の貢献を特徴づけています。
各パラダイムに関連する質問とアプローチのユニークな組み合わせを明確にすることにより、現在の評価アプローチの幅に対する認識を高め、異なるパラダイム間の相互殺害を促進することを目指しています。
また、将来の研究の方向性を刺激するために、フィールドの潜在的なギャップを特定します。

要約(オリジナル)

Research in AI evaluation has grown increasingly complex and multidisciplinary, attracting researchers with diverse backgrounds and objectives. As a result, divergent evaluation paradigms have emerged, often developing in isolation, adopting conflicting terminologies, and overlooking each other’s contributions. This fragmentation has led to insular research trajectories and communication barriers both among different paradigms and with the general public, contributing to unmet expectations for deployed AI systems. To help bridge this insularity, in this paper we survey recent work in the AI evaluation landscape and identify six main paradigms. We characterise major recent contributions within each paradigm across key dimensions related to their goals, methodologies and research cultures. By clarifying the unique combination of questions and approaches associated with each paradigm, we aim to increase awareness of the breadth of current evaluation approaches and foster cross-pollination between different paradigms. We also identify potential gaps in the field to inspire future research directions.

arxiv情報

著者 John Burden,Marko Tešić,Lorenzo Pacchiardi,José Hernández-Orallo
発行日 2025-06-06 13:52:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Paradigms of AI Evaluation: Mapping Goals, Methodologies and Culture はコメントを受け付けていません

Text-to-LoRA: Instant Transformer Adaption

要約

基礎モデルは、迅速なコンテンツ作成のための一般的なツールを提供しますが、タスク固有の適応を定期的に必要とします。
従来、この演習では、データセットの慎重なキュレーションと、基礎となるモデルの微調整を繰り返します。
微調整技術により、実践者は多くの新しいアプリケーションに基礎モデルを適応させることができますが、ハイパーパラメーターの選択に特に敏感なものであるが、高価で長いトレーニングを必要とすることができます。
これらの制限を克服するために、ターゲットタスクの自然言語の説明だけに基づいて、大規模な言語モデルをその場で適応させることができるモデルであるText-to-Lora(T2L)を紹介します。
T2Lは、1回の安価なフォワードパスでLORAを構築するためにトレーニングされたハイパーネットワークです。
9つの事前に訓練されたLORAアダプター(GSM8K、ARCなど)のスイートでT2Lをトレーニングした後、アドホック再構築されたLORAインスタンスが、対応するテストセット全体でタスク固有のアダプターのパフォーマンスと一致することを示します。
さらに、T2Lは何百ものLORAインスタンスを圧縮し、ゼロショットが完全に見えないタスクに一般化できます。
このアプローチは、基礎モデルの専門化を民主化するための重要なステップを提供し、最小限の計算要件で言語ベースの適応を可能にします。
私たちのコードは、https://github.com/sakanaai/text-to-loraで入手できます

要約(オリジナル)

While Foundation Models provide a general tool for rapid content creation, they regularly require task-specific adaptation. Traditionally, this exercise involves careful curation of datasets and repeated fine-tuning of the underlying model. Fine-tuning techniques enable practitioners to adapt foundation models for many new applications but require expensive and lengthy training while being notably sensitive to hyper-parameter choices. To overcome these limitations, we introduce Text-to-LoRA (T2L), a model capable of adapting Large Language Models on the fly solely based on a natural language description of the target task. T2L is a hypernetwork trained to construct LoRAs in a single inexpensive forward pass. After training T2L on a suite of 9 pre-trained LoRA adapters (GSM8K, Arc, etc.), we show that the ad-hoc reconstructed LoRA instances match the performance of task-specific adapters across the corresponding test sets. Furthermore, T2L can compress hundreds of LoRA instances and zero-shot generalize to entirely unseen tasks. This approach provides a significant step towards democratizing the specialization of foundation models and enables language-based adaptation with minimal compute requirements. Our code is available at https://github.com/SakanaAI/text-to-lora

arxiv情報

著者 Rujikorn Charakorn,Edoardo Cetin,Yujin Tang,Robert Tjarko Lange
発行日 2025-06-06 14:11:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Text-to-LoRA: Instant Transformer Adaption はコメントを受け付けていません

Towards Lifecycle Unlearning Commitment Management: Measuring Sample-level Unlearning Completeness

要約

データのプライバシーとセキュリティに対する懸念の高まりは、マシンの学習の重要性を強調しています。これは、完全な再訓練なしでトレーニングされたモデルからの特定のデータの影響を除去します。
メンバーシップ推論攻撃(MIA)のような手法は、成功した未学習を外部的に評価するために広く使用されています。
ただし、既存の方法は2つの重要な制限に直面しています。(1)MIAの有効性を最大化する(たとえば、オンライン攻撃を介して)、多くの場合、再訓練コストを超える法外な計算リソースが必要です。
(2)バイナリインクルージョンテスト用に設計されたMIAは、おおよその学習において粒状の変化を捉えるのに苦労しています。
これらの課題に対処するために、補間化された近似測定(IAM)を提案します。これは、学習の推論のためにネイティブに設計されたフレームワークです。
IAMは、クエリされたサンプルのモデルの一般化適合の動作ギャップを補間することにより、サンプルレベルの学習完全性を定量化します。
IAMは、1つの事前訓練を受けたシャドウモデルのみを使用してLLMSが拡大するために、正確に学習していない、正確に学習し、高い相関関係のためにバイナリインクルージョンテストで強力なパフォーマンスを達成します。
IAMのスコアリングメカニズムがパフォーマンスを効率的に維持する方法を理論的に分析します。
次に、IAMを最近のおおよその未学習アルゴリズムに適用し、非不規則と不正行為の両方の両方の一般的なリスクを明らかにし、概算されていないシステムにおけるより強力なセーフガードの必要性を強調しています。
このコードは、https://github.com/happy2git/unlearning_inference_iamで入手できます。

要約(オリジナル)

Growing concerns over data privacy and security highlight the importance of machine unlearning–removing specific data influences from trained models without full retraining. Techniques like Membership Inference Attacks (MIAs) are widely used to externally assess successful unlearning. However, existing methods face two key limitations: (1) maximizing MIA effectiveness (e.g., via online attacks) requires prohibitive computational resources, often exceeding retraining costs; (2) MIAs, designed for binary inclusion tests, struggle to capture granular changes in approximate unlearning. To address these challenges, we propose the Interpolated Approximate Measurement (IAM), a framework natively designed for unlearning inference. IAM quantifies sample-level unlearning completeness by interpolating the model’s generalization-fitting behavior gap on queried samples. IAM achieves strong performance in binary inclusion tests for exact unlearning and high correlation for approximate unlearning–scalable to LLMs using just one pre-trained shadow model. We theoretically analyze how IAM’s scoring mechanism maintains performance efficiently. We then apply IAM to recent approximate unlearning algorithms, revealing general risks of both over-unlearning and under-unlearning, underscoring the need for stronger safeguards in approximate unlearning systems. The code is available at https://github.com/Happy2Git/Unlearning_Inference_IAM.

arxiv情報

著者 Cheng-Long Wang,Qi Li,Zihang Xiang,Yinzhi Cao,Di Wang
発行日 2025-06-06 14:22:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.LG | Towards Lifecycle Unlearning Commitment Management: Measuring Sample-level Unlearning Completeness はコメントを受け付けていません

Phonetically-Augmented Discriminative Rescoring for Voice Search Error Correction

要約

エンドツーエンド(E2E)自動音声認識(ASR)モデルは、高品質のグラウンドトゥルースデータには人間の注釈が必要なため、取得に費用がかかるペアのオーディオテキストサンプルを使用してトレーニングされます。
デジタルメディアプレーヤーなどの音声検索アプリケーションは、ASRを活用して、ユーザーが画面上のキーボードではなく音声で検索できるようにします。
ただし、E2E ASRシステムのトレーニングデータでは、最近またはまれな映画タイトルが十分に表されない可能性があるため、認識が不十分である可能性があります。
この論文では、(a)E2Eシステムでは考慮されない音声代替品を生成するASRモデルの出力に基づく音声検索と、(b)ASRモデルの認識と音響の代替物を組み合わせて最終システムの出力を選択する音声検索で構成される音声修正システムを提案します。
私たちのアプローチは、一連の競争のベースラインで、人気のある映画タイトルのベンチマークで4.4〜7.6%の間の単語エラー率を改善することがわかります。

要約(オリジナル)

End-to-end (E2E) Automatic Speech Recognition (ASR) models are trained using paired audio-text samples that are expensive to obtain, since high-quality ground-truth data requires human annotators. Voice search applications, such as digital media players, leverage ASR to allow users to search by voice as opposed to an on-screen keyboard. However, recent or infrequent movie titles may not be sufficiently represented in the E2E ASR system’s training data, and hence, may suffer poor recognition. In this paper, we propose a phonetic correction system that consists of (a) a phonetic search based on the ASR model’s output that generates phonetic alternatives that may not be considered by the E2E system, and (b) a rescorer component that combines the ASR model recognition and the phonetic alternatives, and select a final system output. We find that our approach improves word error rate between 4.4 and 7.6% relative on benchmarks of popular movie titles over a series of competitive baselines.

arxiv情報

著者 Christophe Van Gysel,Maggie Wu,Lyan Verwimp,Caglar Tirkaz,Marco Bertola,Zhihong Lei,Youssef Oualil
発行日 2025-06-06 14:25:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR | Phonetically-Augmented Discriminative Rescoring for Voice Search Error Correction はコメントを受け付けていません

Decomposability-Guaranteed Cooperative Coevolution for Large-Scale Itinerary Planning

要約

大規模な旅程計画は、旅行期間とコストを最小限に抑えながら、収集された関心ポイント(POI)スコアを最大化する最適なパスを決定することを目的としています。
このペーパーでは、大規模な旅程計画の分解性を分析し、厳密な分解性を満たすのが難しいことを証明し、必要な条件に基づいて弱い分解性定義を導入し、このプロパティを満たす対応するグラフ構造を導き出します。
分解性が保証されているため、大規模な旅程計画のための新しい多目的協同組合共進化アルゴリズムを提案し、コンポーネントの不均衡と相互作用の課題に対処します。
具体的には、各コンポーネント内の正規化されたフィットネスに基づいて動的な分解戦略を設計し、コンポーネントスケールと貢献を考慮した最適化の可能性を定義し、計算リソース割り当て戦略を開発します。
最後に、一連の実際のデータセットで提案されたアルゴリズムを評価します。
最先端の多目的旅程計画アルゴリズムとの比較実験は、私たちのアプローチの優位性を実証し、問題スケールが増加するにつれてパフォーマンスの利点が増加します。

要約(オリジナル)

Large-scale itinerary planning is a variant of the traveling salesman problem, aiming to determine an optimal path that maximizes the collected points of interest (POIs) scores while minimizing travel time and cost, subject to travel duration constraints. This paper analyzes the decomposability of large-scale itinerary planning, proving that strict decomposability is difficult to satisfy, and introduces a weak decomposability definition based on a necessary condition, deriving the corresponding graph structures that fulfill this property. With decomposability guaranteed, we propose a novel multi-objective cooperative coevolutionary algorithm for large-scale itinerary planning, addressing the challenges of component imbalance and interactions. Specifically, we design a dynamic decomposition strategy based on the normalized fitness within each component, define optimization potential considering component scale and contribution, and develop a computational resource allocation strategy. Finally, we evaluate the proposed algorithm on a set of real-world datasets. Comparative experiments with state-of-the-art multi-objective itinerary planning algorithms demonstrate the superiority of our approach, with performance advantages increasing as the problem scale grows.

arxiv情報

著者 Ziyu Zhang,Peilan Xu,Yuetong Sun,Yuhui Shi,Wenjian Luo
発行日 2025-06-06 14:31:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Decomposability-Guaranteed Cooperative Coevolution for Large-Scale Itinerary Planning はコメントを受け付けていません

Regret-Free Reinforcement Learning for LTL Specifications

要約

高レベルの時間仕様に関して未知の動的システムを制御することを学ぶことは、制御理論の重要な問題です。
未知のダイナミクスを持つシステムの線形時間論的論理(LTL)仕様のコントローラーを学習するための最初の後悔のないオンラインアルゴリズムを提示します。
基礎となる(未知の)ダイナミクスは、有限状態およびアクションマルコフ決定プロセス(MDP)によってモデル化されていると仮定します。
私たちのコアの技術的結果は、MDPの無限ホロイゾンリーチと回避の問題の後悔のない学習アルゴリズムです。
一般的なLTL仕様の場合、グラフ構造がわかったら合成問題をリーチと回避の問題に削減できることを示します。
さらに、主な後悔のないアルゴリズムとは独立して動作する最小遷移確率の知識を想定して、グラフ構造を学習するためのアルゴリズムを提供します。
当社のLTLコントローラー合成アルゴリズムは、有限数の学習エピソードの後に​​最適な動作を達成することにどれだけ近いかについて、急激な境界を提供します。
対照的に、LTL合成の以前のアルゴリズムは漸近保証のみを提供し、学習段階での過渡性パフォーマンスに関する洞察を与えません。

要約(オリジナル)

Learning to control an unknown dynamical system with respect to high-level temporal specifications is an important problem in control theory. We present the first regret-free online algorithm for learning a controller for linear temporal logic (LTL) specifications for systems with unknown dynamics. We assume that the underlying (unknown) dynamics is modeled by a finite-state and action Markov decision process (MDP). Our core technical result is a regret-free learning algorithm for infinite-horizon reach-avoid problems on MDPs. For general LTL specifications, we show that the synthesis problem can be reduced to a reach-avoid problem once the graph structure is known. Additionally, we provide an algorithm for learning the graph structure, assuming knowledge of a minimum transition probability, which operates independently of the main regret-free algorithm. Our LTL controller synthesis algorithm provides sharp bounds on how close we are to achieving optimal behavior after a finite number of learning episodes. In contrast, previous algorithms for LTL synthesis only provide asymptotic guarantees, which give no insight into the transient performance during the learning phase.

arxiv情報

著者 Rupak Majumdar,Mahmoud Salamati,Sadegh Soudjani
発行日 2025-06-06 14:51:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Regret-Free Reinforcement Learning for LTL Specifications はコメントを受け付けていません