Complex LLM Planning via Automated Heuristics Discovery

要約

複雑な計画タスクの大規模な言語モデル(LLM)を強化することを検討します。
既存の方法により、LLMは中間の手順を探索して計画を立てることができますが、これらの手順を評価するための信頼性の低い自己検証または外部検証因子に依存して、重要なデータと計算を必要とします。
ここでは、LLMSが推論時間検索をガイドし、中間状態の正確な評価を可能にするためのヒューリスティック関数を明示的に生成できるようにする新しいアプローチである、自動ヒューリスティック発見(AutoHD)を提案します。
これらのヒューリスティックな機能は、ヒューリスティックな進化プロセスを通じてさらに洗練され、堅牢性と有効性を改善します。
提案された方法では、追加のモデルトレーニングや微調整は必要ありません。LLMSによって生成されたヒューリスティック機能の明示的な定義は、推論プロセスの解釈可能性と洞察を提供します。
多様なベンチマーク全体の広範な実験は、一部のデータセットのほぼ2倍の精度を含む複数のベースラインにわたって大幅な利益を示し、複雑な計画タスクの信頼できる解釈可能なソリューションとしてのアプローチを確立します。

要約(オリジナル)

We consider enhancing large language models (LLMs) for complex planning tasks. While existing methods allow LLMs to explore intermediate steps to make plans, they either depend on unreliable self-verification or external verifiers to evaluate these steps, which demand significant data and computations. Here, we propose automated heuristics discovery (AutoHD), a novel approach that enables LLMs to explicitly generate heuristic functions to guide inference-time search, allowing accurate evaluation of intermediate states. These heuristic functions are further refined through a heuristic evolution process, improving their robustness and effectiveness. Our proposed method requires no additional model training or fine-tuning, and the explicit definition of heuristic functions generated by the LLMs provides interpretability and insights into the reasoning process. Extensive experiments across diverse benchmarks demonstrate significant gains over multiple baselines, including nearly twice the accuracy on some datasets, establishing our approach as a reliable and interpretable solution for complex planning tasks.

arxiv情報

著者 Hongyi Ling,Shubham Parashar,Sambhav Khurana,Blake Olson,Anwesha Basu,Gaurangi Sinha,Zhengzhong Tu,James Caverlee,Shuiwang Ji
発行日 2025-02-26 16:52:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Complex LLM Planning via Automated Heuristics Discovery はコメントを受け付けていません

Combining Planning and Reinforcement Learning for Solving Relational Multiagent Domains

要約

マルチエージェント補強学習(MARL)は、状態および行動空間の指数関数的な成長と多剤環境の非定常性の性質により、大きな課題をもたらします。
これにより、顕著なサンプルの非効率性が発生し、多様なタスク全体の一般化が妨げられます。
複雑さは、ドメインの知識が重要であるが、既存のMarlアルゴリズムによって十分に活用されている関係設定でさらに顕著です。
これらのハードルを克服するために、リレーショナルプランナーを中央のコントローラーとして効率的な状態抽象化と強化学習を統合することを提案します。
このアプローチは、サンプル効率であることが証明され、効果的なタスク転送と一般化を促進します。

要約(オリジナル)

Multiagent Reinforcement Learning (MARL) poses significant challenges due to the exponential growth of state and action spaces and the non-stationary nature of multiagent environments. This results in notable sample inefficiency and hinders generalization across diverse tasks. The complexity is further pronounced in relational settings, where domain knowledge is crucial but often underutilized by existing MARL algorithms. To overcome these hurdles, we propose integrating relational planners as centralized controllers with efficient state abstractions and reinforcement learning. This approach proves to be sample-efficient and facilitates effective task transfer and generalization.

arxiv情報

著者 Nikhilesh Prabhakar,Ranveer Singh,Harsha Kokel,Sriraam Natarajan,Prasad Tadepalli
発行日 2025-02-26 16:55:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.MA | Combining Planning and Reinforcement Learning for Solving Relational Multiagent Domains はコメントを受け付けていません

Associative memory and dead neurons

要約

「神経生物学と機械学習における大規模な連想記憶問題」で、ドミトリー・クロトフとジョン・ホップフィールドは、非増加エネルギーまたはリアプノフ関数を備えた神経の通常の微分方程式の体系的な構築のための一般的な手法を導入しました。
このエネルギー機能を研究し、死んだニューロンの問題に対して脆弱であることを特定します。
ニューロンが死ぬ状態空間の各ポイントは、一定のエネルギーを持つ非コンパクト領域に含まれています。
これらのフラット領域では、エネルギー関数のみがすべての自由度を完全に決定するわけではなく、その結果、安定性を分析したり、定常状態または引力の盆地を見つけるために使用することはできません。
動的システムの直接的な分析を実行し、死んだニューロンに対応する平らな方向に起因する問題を解決する方法を示します。(i)固定点での状態ベクターに関するすべての情報は、エネルギーとヘシアンマトリックス(ii)から抽出することができます。
ヘシアンマトリックスの分析は、現実的なアーキテクチャのために複雑になる可能性があるため、わずかに変化した動的システム(定常状態と同じ構造を持つ)では、死んだニューロンに対応するフラット領域を持たないリアプノフ関数の多様なファミリーを導出できることを示しています。
さらに、これらのエネルギー関数により、必ずしも明確ではないヘシアンマトリックスでラグランジュ関数を使用することができ、非対称のフィードフォワードとフィードバック接続を備えたアーキテクチャを検討することさえできます。

要約(オリジナル)

In ‘Large Associative Memory Problem in Neurobiology and Machine Learning,’ Dmitry Krotov and John Hopfield introduced a general technique for the systematic construction of neural ordinary differential equations with non-increasing energy or Lyapunov function. We study this energy function and identify that it is vulnerable to the problem of dead neurons. Each point in the state space where the neuron dies is contained in a non-compact region with constant energy. In these flat regions, energy function alone does not completely determine all degrees of freedom and, as a consequence, can not be used to analyze stability or find steady states or basins of attraction. We perform a direct analysis of the dynamical system and show how to resolve problems caused by flat directions corresponding to dead neurons: (i) all information about the state vector at a fixed point can be extracted from the energy and Hessian matrix (of Lagrange function), (ii) it is enough to analyze stability in the range of Hessian matrix, (iii) if steady state touching flat region is stable the whole flat region is the basin of attraction. The analysis of the Hessian matrix can be complicated for realistic architectures, so we show that for a slightly altered dynamical system (with the same structure of steady states), one can derive a diverse family of Lyapunov functions that do not have flat regions corresponding to dead neurons. In addition, these energy functions allow one to use Lagrange functions with Hessian matrices that are not necessarily positive definite and even consider architectures with non-symmetric feedforward and feedback connections.

arxiv情報

著者 Vladimir Fanaskov,Ivan Oseledets
発行日 2025-02-26 17:04:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.NE, q-bio.NC | Associative memory and dead neurons はコメントを受け付けていません

Corporate Fraud Detection in Rich-yet-Noisy Financial Graph

要約

企業詐欺検出は、不正な財務諸表や違法なインサイダー取引などの不法な活動を実施する企業を自動的に認識することを目的としています。
以前の学習ベースの方法は、会社ネットワークでリッチな相互作用を効果的に統合することができません。
このギャップを埋めるために、中国で18年間の財務記録を収集して、詐欺ラベルを備えた3つのグラフデータセットを形成します。
財務グラフの特性を分析し、2つの顕著な問題を強調します。(1)情報の過負荷:企業ノードに対する(騒々しい)非企業ノードの優位性は、グラフ畳み込みネットワーク(GCN)のメッセージパスプロセスを妨げます。
(2)隠された詐欺:収集されたデータに、検出されない違反の大部分が存在します。
隠された詐欺の問題は、トレーニングデータセットにノイズの多いラベルを導入し、詐欺検出の結果を妥協します。
このような課題を処理するために、堅牢な2段階学習($ {\ rm kegcn} _ {r} $)を備えた知識強化GCN、すなわち、知識グラフの埋め込みを活用して情報の過負荷を軽減し、豊富な表現を効果的に学習するという新しいグラフベースの方法、すなわち、知識が強化されたGCNを提案します。
提案されたモデルは、隠された詐欺に対する堅牢性を高めるために2段階の学習方法を採用しています。
広範な実験結果は、相互作用の重要性を確認するだけでなく、詐欺検出の有効性と堅牢性の観点から、多くの強力なベースラインにわたって$ {\ rm kegcn} _ {r} $の優位性を示しています。

要約(オリジナル)

Corporate fraud detection aims to automatically recognize companies that conduct wrongful activities such as fraudulent financial statements or illegal insider trading. Previous learning-based methods fail to effectively integrate rich interactions in the company network. To close this gap, we collect 18-year financial records in China to form three graph datasets with fraud labels. We analyze the characteristics of the financial graphs, highlighting two pronounced issues: (1) information overload: the dominance of (noisy) non-company nodes over company nodes hinders the message-passing process in Graph Convolution Networks (GCN); and (2) hidden fraud: there exists a large percentage of possible undetected violations in the collected data. The hidden fraud problem will introduce noisy labels in the training dataset and compromise fraud detection results. To handle such challenges, we propose a novel graph-based method, namely, Knowledge-enhanced GCN with Robust Two-stage Learning (${\rm KeGCN}_{R}$), which leverages Knowledge Graph Embeddings to mitigate the information overload and effectively learns rich representations. The proposed model adopts a two-stage learning method to enhance robustness against hidden frauds. Extensive experimental results not only confirm the importance of interactions but also show the superiority of ${\rm KeGCN}_{R}$ over a number of strong baselines in terms of fraud detection effectiveness and robustness.

arxiv情報

著者 Shiqi Wang,Zhibo Zhang,Libing Fang,Cam-Tu Nguyen,Wenzhon Li
発行日 2025-02-26 17:05:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, q-fin.RM, q-fin.ST | Corporate Fraud Detection in Rich-yet-Noisy Financial Graph はコメントを受け付けていません

Anomaly Detection in Complex Dynamical Systems: A Systematic Framework Using Embedding Theory and Physics-Inspired Consistency

要約

複雑な動的システムにおける異常検出は、産業およびサイバー物理インフラストラクチャの信頼性、安全性、効率を確保するために不可欠です。
予測的なメンテナンスは、デジタル化されたシステムが増大する脅威に直面しているため、サイバーセキュリティの監視が重要になっている一方で、費用のかかる障害を防ぐのに役立ちます。
これらのシステムの多くは、振動挙動と境界運動を示し、物理的な一貫性の原理を順守しながら構造化された時間依存性をキャプチャする異常検出方法を必要とします。
この作業では、古典的な埋め込み理論と物理学に触発された一貫性の原則に基づいた、異常検出へのシステム理論的アプローチを提案します。
フラクタルホイットニーの埋め込み有病率の定理を埋め込み、従来の埋め込み技術を複雑なシステムダイナミクスに拡張します。
さらに、システムの進化をキャプチャするための埋め込み戦略として、状態誘導ペアを導入します。
一時的なコヒーレンスを実施するために、潜在変数の近似誘導体を動的表現と整列させるTDCロスを組み込んだ、時間微分一貫性自動エンコーダー(TDC-AE)を開発します。
Turbofan Aeroengineの劣化のベンチマークであるC-Mapssデータセットでの方法を評価します。
TDC-AEは、MAC操作が200倍の削減を達成しながら、LSTMSとトランスを上回り、軽量エッジコンピューティングに特に適しています。
私たちの発見は、異常が安定したシステムのダイナミクスを破壊し、異常検出のための堅牢で解釈可能な信号を提供するという仮説を支持しています。

要約(オリジナル)

Anomaly detection in complex dynamical systems is essential for ensuring reliability, safety, and efficiency in industrial and cyber-physical infrastructures. Predictive maintenance helps prevent costly failures, while cybersecurity monitoring has become critical as digitized systems face growing threats. Many of these systems exhibit oscillatory behaviors and bounded motion, requiring anomaly detection methods that capture structured temporal dependencies while adhering to physical consistency principles. In this work, we propose a system-theoretic approach to anomaly detection, grounded in classical embedding theory and physics-inspired consistency principles. We build upon the Fractal Whitney Embedding Prevalence Theorem, extending traditional embedding techniques to complex system dynamics. Additionally, we introduce state-derivative pairs as an embedding strategy to capture system evolution. To enforce temporal coherence, we develop a Temporal Differential Consistency Autoencoder (TDC-AE), incorporating a TDC-Loss that aligns the approximated derivatives of latent variables with their dynamic representations. We evaluate our method on the C-MAPSS dataset, a benchmark for turbofan aeroengine degradation. TDC-AE outperforms LSTMs and Transformers while achieving a 200x reduction in MAC operations, making it particularly suited for lightweight edge computing. Our findings support the hypothesis that anomalies disrupt stable system dynamics, providing a robust, interpretable signal for anomaly detection.

arxiv情報

著者 Michael Somma,Thomas Gallien,Branka Stojanovic
発行日 2025-02-26 17:06:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Anomaly Detection in Complex Dynamical Systems: A Systematic Framework Using Embedding Theory and Physics-Inspired Consistency はコメントを受け付けていません

WOFOSTGym: A Crop Simulator for Learning Annual and Perennial Crop Management Strategies

要約

単一およびマルチファームの設定で年間および多年生作物の農業決定の決定を最適化するために、強化学習(RL)エージェントを訓練するために設計された新しい作物シミュレーション環境であるWofostGymを紹介します。
効果的な作物管理には、環境への影響を最小限に抑えながら、収量と経済的リターンを最適化する必要があります。これは、RLに適した複雑なシーケンシャルな意思決定問題です。
ただし、マルチファームコンテキストでの多年生作物のシミュレーターの不足により、このドメインのRLアプリケーションが妨げられています。
既存の作物シミュレータは、複数の年間作物もサポートしていません。
WofostGymは、23の年間作物と2つの多年生作物をサポートすることにより、これらのギャップに対処し、RLエージェントが複数年、マルチクロップ、およびマルチファーム設定で多様なアグロマネージション戦略を学ぶことができます。
私たちのシミュレーターは、部分的な観察可能性、非マルコビアのダイナミクス、および遅延フィードバックの下で学習するための一連の挑戦的なタスクを提供します。
WofostGymの標準RLインターフェイスにより、農業の専門知識のない研究者は、幅広い農業の問題を​​探ることができます。
私たちの実験は、さまざまな作物の品種や土壌タイプにわたる学習行動を示しており、農業におけるRL主導の意思決定支援を進めるためのWofostGYMの可能性を強調しています。

要約(オリジナル)

We introduce WOFOSTGym, a novel crop simulation environment designed to train reinforcement learning (RL) agents to optimize agromanagement decisions for annual and perennial crops in single and multi-farm settings. Effective crop management requires optimizing yield and economic returns while minimizing environmental impact, a complex sequential decision-making problem well suited for RL. However, the lack of simulators for perennial crops in multi-farm contexts has hindered RL applications in this domain. Existing crop simulators also do not support multiple annual crops. WOFOSTGym addresses these gaps by supporting 23 annual crops and two perennial crops, enabling RL agents to learn diverse agromanagement strategies in multi-year, multi-crop, and multi-farm settings. Our simulator offers a suite of challenging tasks for learning under partial observability, non-Markovian dynamics, and delayed feedback. WOFOSTGym’s standard RL interface allows researchers without agricultural expertise to explore a wide range of agromanagement problems. Our experiments demonstrate the learned behaviors across various crop varieties and soil types, highlighting WOFOSTGym’s potential for advancing RL-driven decision support in agriculture.

arxiv情報

著者 William Solow,Sandhya Saisubramanian,Alan Fern
発行日 2025-02-26 17:07:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | WOFOSTGym: A Crop Simulator for Learning Annual and Perennial Crop Management Strategies はコメントを受け付けていません

Faithful Logic Embeddings in HOL — A recipe to have it all: deep and shallow, automated and interactive, heavy and light, proofs and counterexamples, meta and object level

要約

古典的な高次ロジックにおける非古典的なロジックの深く浅い埋め込みは、近年、さまざまな自動化された推論ツールで調査、実装、および使用されています。
このペーパーでは、古典的な高次ロジックにおける、さまざまな形式の深い形状と浅い埋め込みの同時展開のレシピを紹介します。メタとオブジェクトレベルでの柔軟なインタラクティブで自動化された定理的発見だけでなく、論理埋め込みの間の自動化された忠実さの証拠も可能になります。
このアプローチは、論理教育、研究、応用に実り多いもので、ここでは、単純な命題モーダルロジックを使用して意図的に説明されています。
ただし、提示された作業は本質的に概念的であり、このような単純なロジックコンテキストに限定されません。

要約(オリジナル)

Deep and shallow embeddings of non-classical logics in classical higher-order logic have been explored, implemented, and used in various automated reasoning tools in recent years. This paper presents a recipe for the simultaneous deployment of different forms of deep and shallow embeddings in classical higher-order logic, enabling not only flexible interactive and automated theorem proving and counterexample finding at meta and object level, but also automated faithfulness proofs between the logic embeddings. The approach, which is fruitful for logic education, research and application, is deliberately illustrated here using simple propositional modal logic. However, the work presented is conceptual in nature and not limited to such a simple logic context.

arxiv情報

著者 Christoph Benzmüller
発行日 2025-02-26 17:08:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 03Axx, 03B15, 03Bxx, 68T15, cs.AI, cs.LO, cs.MS, I.2.3, math.LO | Faithful Logic Embeddings in HOL — A recipe to have it all: deep and shallow, automated and interactive, heavy and light, proofs and counterexamples, meta and object level はコメントを受け付けていません

FSPO: Few-Shot Preference Optimization of Synthetic Preference Data in LLMs Elicits Effective Personalization to Real Users

要約

LLMSの効果的なパーソナライズは、仮想アシスタントやコンテンツキュレーションなどの幅広いユーザーインターフェースアプリケーションにとって重要です。
LLMSの強力なコンテキスト内学習機能に触発され、Meta-Learningの問題としてモデリングに報酬を再構成する少数のショット優先最適化(FSPO)を提案します。
このフレームワークの下で、LLMは、そのユーザーからのいくつかのラベル付き設定を介してユーザーに迅速に適応することを学び、パーソナライズされた報酬機能を構築します。
さらに、現実世界の選好データは規模で収集するのが不足しており、困難なので、パーソナライズの合成選好データセットを構築するための慎重な設計選択を提案し、公開されたLLMを使用して100万以上の合成パーソナライズされた好みを生成します。
特に、合成データから実際のユーザーに正常に転送するために、データが高い多様性と一貫性のある自己整合性構造の両方を示すことが重要であると感じます。
3つのドメインにわたって最大1,500人の合成ユーザーのパーソナライズされたオープンエンド生成のFSPOを評価します。映画のレビュー、教育的背景に基づく教育学的適応、および一般的な質問応答と、対照的な人間の研究です。
全体として、FSPOは、合成ユーザーにパーソナライズされた応答と、オープンエンドの質問応答で本物の人間ユーザーと72%のウィンレートを生成する際に、平均して87%のAlpaca Eval Winrateを達成します。

要約(オリジナル)

Effective personalization of LLMs is critical for a broad range of user-interfacing applications such as virtual assistants and content curation. Inspired by the strong in-context learning capabilities of LLMs, we propose Few-Shot Preference Optimization (FSPO), which reframes reward modeling as a meta-learning problem. Under this framework, an LLM learns to quickly adapt to a user via a few labeled preferences from that user, constructing a personalized reward function for them. Additionally, since real-world preference data is scarce and challenging to collect at scale, we propose careful design choices to construct synthetic preference datasets for personalization, generating over 1M synthetic personalized preferences using publicly available LLMs. In particular, to successfully transfer from synthetic data to real users, we find it crucial for the data to exhibit both high diversity and coherent, self-consistent structure. We evaluate FSPO on personalized open-ended generation for up to 1,500 synthetic users across across three domains: movie reviews, pedagogical adaptation based on educational background, and general question answering, along with a controlled human study. Overall, FSPO achieves an 87% Alpaca Eval winrate on average in generating responses that are personalized to synthetic users and a 72% winrate with real human users in open-ended question answering.

arxiv情報

著者 Anikait Singh,Sheryl Hsu,Kyle Hsu,Eric Mitchell,Stefano Ermon,Tatsunori Hashimoto,Archit Sharma,Chelsea Finn
発行日 2025-02-26 17:08:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.HC, cs.LG, stat.ML | FSPO: Few-Shot Preference Optimization of Synthetic Preference Data in LLMs Elicits Effective Personalization to Real Users はコメントを受け付けていません

Shh, don’t say that! Domain Certification in LLMs

要約

大規模な言語モデル(LLM)は、狭いドメインを備えた制約付きタスクを実行するために展開されることがよくあります。
たとえば、カスタマーサポートボットはLLMSの上に構築でき、パフォーマンスを向上させるための幅広い言語の理解と能力に依存することができます。
ただし、これらのLLMは敵対的に感受性が高く、意図したドメインの外側の出力を潜在的に生成します。
このリスクを正式化、評価、および軽減するために、ドメイン認証を導入します。
言語モデルのドメイン外の動作を正確に特徴付ける保証。
次に、シンプルでありながら効果的なアプローチを提案します。これは、証明書として敵対的な境界を提供する有効なアプローチを提案します。
最後に、多様なデータセットのセットでメソッドを評価し、意味のある証明書を生成することを実証し、拒否行動に対して最小限のペナルティでドメイン外サンプルの確率をしっかりと結びつけます。

要約(オリジナル)

Large language models (LLMs) are often deployed to perform constrained tasks, with narrow domains. For example, customer support bots can be built on top of LLMs, relying on their broad language understanding and capabilities to enhance performance. However, these LLMs are adversarially susceptible, potentially generating outputs outside the intended domain. To formalize, assess, and mitigate this risk, we introduce domain certification; a guarantee that accurately characterizes the out-of-domain behavior of language models. We then propose a simple yet effective approach, which we call VALID that provides adversarial bounds as a certificate. Finally, we evaluate our method across a diverse set of datasets, demonstrating that it yields meaningful certificates, which bound the probability of out-of-domain samples tightly with minimum penalty to refusal behavior.

arxiv情報

著者 Cornelius Emde,Alasdair Paren,Preetham Arvind,Maxime Kayser,Tom Rainforth,Thomas Lukasiewicz,Bernard Ghanem,Philip H. S. Torr,Adel Bibi
発行日 2025-02-26 17:13:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR, cs.LG, stat.ML | Shh, don’t say that! Domain Certification in LLMs はコメントを受け付けていません

Partition Tree Weighting for Non-Stationary Stochastic Bandits

要約

このペーパーでは、相互作用データのユニバーサルソースコーディングの一般化、つまり、アクションが観測とインターリーブされるデータストリームの一般化を検討します。
私たちの目標は、ユニバーサル\ emph {および}の両方であるコーディング分布を制御ポリシーとして使用できることです。
アクションと観測を区別しない素朴なアプローチと普遍的な設定の自己妄想問題に陥るため、アクション生成が慎重に治療する必要があります。
私たちは、挑戦的な非定常確率的ベルヌーリ盗賊問題の文脈で私たちの視点を紹介します。
私たちの主な貢献は、この問題の効率的で高いパフォーマンスのアルゴリズムであり、制御設定への受動的予測のためのユニバーサルソースコーディング手法をパーティションツリーに重み付けしています。

要約(オリジナル)

This paper considers a generalisation of universal source coding for interaction data, namely data streams that have actions interleaved with observations. Our goal will be to construct a coding distribution that is both universal \emph{and} can be used as a control policy. Allowing for action generation needs careful treatment, as naive approaches which do not distinguish between actions and observations run into the self-delusion problem in universal settings. We showcase our perspective in the context of the challenging non-stationary stochastic Bernoulli bandit problem. Our main contribution is an efficient and high performing algorithm for this problem that generalises the Partition Tree Weighting universal source coding technique for passive prediction to the control setting.

arxiv情報

著者 Joel Veness,Marcus Hutter,Andras Gyorgy,Jordi Grau-Moya
発行日 2025-02-26 17:16:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Partition Tree Weighting for Non-Stationary Stochastic Bandits はコメントを受け付けていません