Using Constraints to Discover Sparse and Alternative Subgroup Descriptions

要約

サブグループの発見方法により、ユーザーはデータセット内の興味深い領域の簡単な説明を取得できます。
サブグループの発見で制約を使用すると、解釈性がさらに向上する可能性があります。
この記事では、2つのタイプの制約に焦点を当てます。まず、サブグループの説明で使用される機能の数を制限し、後者をまばらにします。
第二に、特定のサブグループとして同様のデータオブジェクトをカバーするが、異なる機能を使用する代替サブグループの説明を見つけるという新しい最適化の問題を提案します。
両方の制約タイプをヒューリスティックなサブグループの発見方法に統合する方法について説明します。
さらに、ホワイトボックスの最適化問題としてのサブグループ発見の新しい満足度モジュロ理論(SMT)の定式化を提案します。
さらに、両方の制約タイプがNPハード最適化問題につながることを証明します。
最後に、27のバイナリ分類データセットを使用して、制約のないサブグループの発見のためのアルゴリズムとソルバーベースの検索を比較します。
ヒューリスティック検索方法は、制約のあるシナリオでも、短い実行時間内に高品質のサブグループを生成することが多いことを観察します。

要約(オリジナル)

Subgroup-discovery methods allow users to obtain simple descriptions of interesting regions in a dataset. Using constraints in subgroup discovery can enhance interpretability even further. In this article, we focus on two types of constraints: First, we limit the number of features used in subgroup descriptions, making the latter sparse. Second, we propose the novel optimization problem of finding alternative subgroup descriptions, which cover a similar set of data objects as a given subgroup but use different features. We describe how to integrate both constraint types into heuristic subgroup-discovery methods. Further, we propose a novel Satisfiability Modulo Theories (SMT) formulation of subgroup discovery as a white-box optimization problem, which allows solver-based search for subgroups and is open to a variety of constraint types. Additionally, we prove that both constraint types lead to an NP-hard optimization problem. Finally, we employ 27 binary-classification datasets to compare algorithmic and solver-based search for unconstrained and constrained subgroup discovery. We observe that heuristic search methods often yield high-quality subgroups within a short runtime, also in scenarios with constraints.

arxiv情報

著者 Jakob Bach
発行日 2025-02-19 16:25:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Using Constraints to Discover Sparse and Alternative Subgroup Descriptions はコメントを受け付けていません

Faster WIND: Accelerating Iterative Best-of-$N$ Distillation for LLM Alignment

要約

大規模な言語モデルを人間の好みに合わせて最近の進歩は、ベスト・ア・ナス蒸留(債券)の重要性の高まりを裏付けています。
ただし、サンプルと計算の非効率性のため、反復結合アルゴリズムは実際には非常に高価です。
このペーパーでは、一見異なるアルゴリズムパラダイムを統一する統一された絆と自己プレイの整合性との間の統一されたゲーム理論的なつながりを明らかにすることにより、問題に対処します。
接続に基づいて、パラメーター空間の反復結合に近い正規化された勝利優位性最適化のための一連の効率的なアルゴリズムを使用して、新しいフレームワーク、勝利率の優位性(Wind)を確立します。
四角損失の目的を持つ風のバリアントの1つに対して、証明可能なサンプル効率保証を提供します。
実験結果は、アルゴリズムが計算を加速するだけでなく、既存の方法と比較して優れたサンプル効率を達成することを確認しています。

要約(オリジナル)

Recent advances in aligning large language models with human preferences have corroborated the growing importance of best-of-N distillation (BOND). However, the iterative BOND algorithm is prohibitively expensive in practice due to the sample and computation inefficiency. This paper addresses the problem by revealing a unified game-theoretic connection between iterative BOND and self-play alignment, which unifies seemingly disparate algorithmic paradigms. Based on the connection, we establish a novel framework, WIN rate Dominance (WIND), with a series of efficient algorithms for regularized win rate dominance optimization that approximates iterative BOND in the parameter space. We provides provable sample efficiency guarantee for one of the WIND variant with the square loss objective. The experimental results confirm that our algorithm not only accelerates the computation, but also achieves superior sample efficiency compared to existing methods.

arxiv情報

著者 Tong Yang,Jincheng Mei,Hanjun Dai,Zixin Wen,Shicong Cen,Dale Schuurmans,Yuejie Chi,Bo Dai
発行日 2025-02-19 16:26:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Faster WIND: Accelerating Iterative Best-of-$N$ Distillation for LLM Alignment はコメントを受け付けていません

ArrayBot: Reinforcement Learning for Generalizable Distributed Manipulation through Touch

要約

Arraybotは、触覚センサーと統合された垂直方向のスライド柱の16ドルの16ドルの配列で構成される分散操作システムであり、卓上オブジェクトを同時にサポート、知覚、操作できます。
一般化可能な分散操作に向けて、制御ポリシーの自動発見のために補強学習(RL)アルゴリズムを活用します。
非常に冗長なアクションに直面して、空間的に局所的なアクションパッチと周波数領域の低周波アクションを考慮することにより、アクション空間を再構築することを提案します。
この再形成されたアクションスペースを使用すると、触覚観測のみを介して多様なオブジェクトを再配置できるRLエージェントをトレーニングします。
驚くべきことに、発見されたポリシーは、シミュレーターの目に見えないオブジェクトの形状に一般化するだけでなく、ドメインのランダム化なしに物理ロボットに転送することもできます。
展開されたポリシーを活用して、豊富な実世界の操作タスクを提示し、分散操作のためのArraybotでのRLの大きな可能性を示しています。

要約(オリジナル)

We present ArrayBot, a distributed manipulation system consisting of a $16 \times 16$ array of vertically sliding pillars integrated with tactile sensors, which can simultaneously support, perceive, and manipulate the tabletop objects. Towards generalizable distributed manipulation, we leverage reinforcement learning (RL) algorithms for the automatic discovery of control policies. In the face of the massively redundant actions, we propose to reshape the action space by considering the spatially local action patch and the low-frequency actions in the frequency domain. With this reshaped action space, we train RL agents that can relocate diverse objects through tactile observations only. Surprisingly, we find that the discovered policy can not only generalize to unseen object shapes in the simulator but also transfer to the physical robot without any domain randomization. Leveraging the deployed policy, we present abundant real-world manipulation tasks, illustrating the vast potential of RL on ArrayBot for distributed manipulation.

arxiv情報

著者 Zhengrong Xue,Han Zhang,Jingwen Cheng,Zhengmao He,Yuanchen Ju,Changyi Lin,Gu Zhang,Huazhe Xu
発行日 2025-02-19 17:09:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | ArrayBot: Reinforcement Learning for Generalizable Distributed Manipulation through Touch はコメントを受け付けていません

Refining embeddings with fill-tuning: data-efficient generalised performance improvements for materials foundation models

要約

前処理された基礎モデルは、幅広いダウンストリームタスクに使用できる埋め込みを学びます。
これらの埋め込みは一般的なパフォーマンスを最適化し、特定のタスクで不十分に正確な場合は、パフォーマンスを改善するためにモデルを微調整できます。
現在のすべての方法論について、この操作は、すべての分散式タスクのパフォーマンスを必然的に分解します。
この作業では、特定の下流タスクに適していないが、埋め込みの貧しい領域を修正することを目指している基礎モデルの継続的な事前供与のためのデータセットを生成するための新しい方法論である「Fill-Tuning」を提示します。
粗さ分析の適用を潜在宇宙のトポロジーに提示し、埋め込みの改善に最も価値のあるデータを提案するためにそれを使用する方法を示します。
$ o(10^9)$ data Pointsでトレーニングされた一連の最先端の材料ファンデーションモデルに塗りつぶしを適用し、すべてのダウンストリームタスクでほぼ1%のモデルの改善を示し、100個のデータを追加してください。
ポイント。
この方法は、微調整の計算コストでの基礎モデルの一般的な改善へのルートを提供します。

要約(オリジナル)

Pretrained foundation models learn embeddings that can be used for a wide range of downstream tasks. These embeddings optimise general performance, and if insufficiently accurate at a specific task the model can be fine-tuned to improve performance. For all current methodologies this operation necessarily degrades performance on all out-of-distribution tasks. In this work we present ‘fill-tuning’, a novel methodology to generate datasets for continued pretraining of foundation models that are not suited to a particular downstream task, but instead aim to correct poor regions of the embedding. We present the application of roughness analysis to latent space topologies and illustrate how it can be used to propose data that will be most valuable to improving the embedding. We apply fill-tuning to a set of state-of-the-art materials foundation models trained on $O(10^9)$ data points and show model improvement of almost 1% in all downstream tasks with the addition of only 100 data points. This method provides a route to the general improvement of foundation models at the computational cost of fine-tuning.

arxiv情報

著者 Matthew P. Wilson,Edward O. Pyzer-Knapp,Nicolas Galichet,Luke Dicks
発行日 2025-02-19 17:17:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CE, cs.LG | Refining embeddings with fill-tuning: data-efficient generalised performance improvements for materials foundation models はコメントを受け付けていません

Neural Green’s Operators for Parametric Partial Differential Equations

要約

この作業では、線形部分微分方程式(PDE)のパラメトリックファミリーのソリューション演算子を学習する新しいニューラルオペレーターネットワークアーキテクチャであるNeural Greenの演算子(NGO)を紹介します。
NGOの構造は、このようなソリューション演算子のグリーンの定式化から直接導出されています。
Deep Operator Networks(DeepOnets)およびVariationAlly Mimetic Operator Networks(Varmions)と同様に、NGOは、サブネットワークから返される係数から返される基底関数の観点からPDEのソリューションの拡大を構成します。
別のサブネットワーク。
ただし、Greenの定式化に従って、NGOは、DeeponetsやVarmionsの場合のように、サンプリングされた値ではなく、入力関数の加重平均を受け入れます。
標準的な線形パラメトリックPDEへのNGOの適用は、トレーニング分布内にあるデータをテストする際にディープネット、バーミオン、フーリエ神経演算子と競合し続けているが、トレーニング分布外で生成されたより細かいデータをテストするときに堅牢に一般化することを示しています。

さらに、NGOによって返されるグリーンの関数の明示的な表現により、PDEの数値ソルバー用の効果的な前処理者の構築が可能になることを示します。

要約(オリジナル)

This work introduces neural Green’s operators (NGOs), a novel neural operator network architecture that learns the solution operator for a parametric family of linear partial differential equations (PDEs). Our construction of NGOs is derived directly from the Green’s formulation of such a solution operator. Similar to deep operator networks (DeepONets) and variationally mimetic operator networks (VarMiONs), NGOs constitutes an expansion of the solution to the PDE in terms of basis functions, that is returned from a sub-network, contracted with coefficients, that are returned from another sub-network. However, in accordance with the Green’s formulation, NGOs accept weighted averages of the input functions, rather than sampled values thereof, as is the case in DeepONets and VarMiONs. Application of NGOs to canonical linear parametric PDEs shows that, while they remain competitive with DeepONets, VarMiONs and Fourier neural operators when testing on data that lie within the training distribution, they robustly generalize when testing on finer-scale data generated outside of the training distribution. Furthermore, we show that the explicit representation of the Green’s function that is returned by NGOs enables the construction of effective preconditioners for numerical solvers for PDEs.

arxiv情報

著者 Hugo Melchers,Joost Prins,Michael Abdelmalik
発行日 2025-02-19 17:20:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T07, cs.LG, cs.NA, G.1.8, math.NA | Neural Green’s Operators for Parametric Partial Differential Equations はコメントを受け付けていません

Highly Dynamic and Flexible Spatio-Temporal Spectrum Management with AI-Driven O-RAN: A Multi-Granularity Marketplace Framework

要約

現在のスペクトル共有フレームワークは、適応性と格闘しており、多くの場合、静的または不十分な動的であることがよくあります。
彼らは主に、空間的およびスペクトルの次元を見下ろしながら、時間的共有を強調しています。
O-RANアーキテクチャ内の適応型のAI駆動型スペクトル共有フレームワークを提案し、複数のタイムスケールと空間的粒度にわたってスペクトルのニーズを予測するために、識別および生成AI(genai)を統合します。
認定Spectrum Brokerが管理する市場モデルにより、オペレーターはSpectrumを動的に取引し、静的割り当てとリアルタイム取引のバランスをとることができます。
genaiは、トラフィックの予測、スペクトル推定、および割り当てを強化し、コストを削減しながら利用率を最適化します。
このモジュールで柔軟なアプローチは、オペレーターのコラボレーションを促進し、効率と収益を最大化します。
重要な研究の課題は、既存のモデルを超えて配分の粒度と時空間ダイナミクスを改良することです。

要約(オリジナル)

Current spectrum-sharing frameworks struggle with adaptability, often being either static or insufficiently dynamic. They primarily emphasize temporal sharing while overlooking spatial and spectral dimensions. We propose an adaptive, AI-driven spectrum-sharing framework within the O-RAN architecture, integrating discriminative and generative AI (GenAI) to forecast spectrum needs across multiple timescales and spatial granularities. A marketplace model, managed by an authorized spectrum broker, enables operators to trade spectrum dynamically, balancing static assignments with real-time trading. GenAI enhances traffic prediction, spectrum estimation, and allocation, optimizing utilization while reducing costs. This modular, flexible approach fosters operator collaboration, maximizing efficiency and revenue. A key research challenge is refining allocation granularity and spatio-temporal dynamics beyond existing models.

arxiv情報

著者 Mehdi Rasti,Elaheh Ataeebojd,Shiva Kazemi Taskooh,Mehdi Monemi,Siavash Razmi,Matti Latva-aho
発行日 2025-02-19 17:21:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SY, eess.SY | Highly Dynamic and Flexible Spatio-Temporal Spectrum Management with AI-Driven O-RAN: A Multi-Granularity Marketplace Framework はコメントを受け付けていません

Mesh-based Super-Resolution of Fluid Flows with Multiscale Graph Neural Networks

要約

この作業では、グラフニューラルネットワーク(GNN)アプローチが導入されており、メッシュベースの3次元の流体フローの超解像度を可能にします。
このフレームワークでは、GNNは一度に完全なメッシュベースのフィールドではなく、要素(またはセル)の局所メッシュで直接動作するように設計されています。
スペクトル(または有限の)要素離散に類似した方法でメッシュベースのGNN表現を促進するために、ベースラインGNNレイヤー(ローカルノードプロパティを更新するメッセージの通過レイヤーと呼ばれる)を変更して、併用グラフノードの同期を考慮し、互換性をレンダリングするために修正されます
一般的に使用される要素ベースのメッシュ接続性。
アーキテクチャは本質的にマルチスケールであり、グラフ解除層で区切られた粗スケールとファインスケールの通過レイヤーシーケンス(プロセッサと呼ばれる)の組み合わせで構成されています。
粗スケールプロセッサは、クエリ要素(隣接する粗い要素のセット数と並んで)を埋め込み、要素の近隣を通過する粗スケールの同期メッセージを使用して、単一の潜在グラフ表現に埋め込み、ファインスケールプロセッサは、これに追加のメッセージの合格操作をレバレッジします
補間エラーを修正する潜在グラフ。
デモンストレーション研究は、1600および3200のレイノルズ数でのTaylor-Green Vortexおよび後方向けステップフローシミュレーションの六面体メッシュベースのデータを使用して実行されます。グローバルエラーとローカルエラーの両方の分析を通じて、結果は最終的にGNNがどのように生成できるかを示しています。
粗スケールおよびマルチスケールモデルの両方のモデル構成の両方のターゲットと比較した正確な超分解フィールド。
固定アーキテクチャの再構築誤差は、レイノルズ数に比例して増加することがわかりました。
個別のキャビティフロー構成に関するジオメトリ外蓄積研究は、超解像度戦略の有望なクロスメッシュ機能を示しています。

要約(オリジナル)

A graph neural network (GNN) approach is introduced in this work which enables mesh-based three-dimensional super-resolution of fluid flows. In this framework, the GNN is designed to operate not on the full mesh-based field at once, but on localized meshes of elements (or cells) directly. To facilitate mesh-based GNN representations in a manner similar to spectral (or finite) element discretizations, a baseline GNN layer (termed a message passing layer, which updates local node properties) is modified to account for synchronization of coincident graph nodes, rendering compatibility with commonly used element-based mesh connectivities. The architecture is multiscale in nature, and is comprised of a combination of coarse-scale and fine-scale message passing layer sequences (termed processors) separated by a graph unpooling layer. The coarse-scale processor embeds a query element (alongside a set number of neighboring coarse elements) into a single latent graph representation using coarse-scale synchronized message passing over the element neighborhood, and the fine-scale processor leverages additional message passing operations on this latent graph to correct for interpolation errors. Demonstration studies are performed using hexahedral mesh-based data from Taylor-Green Vortex and backward-facing step flow simulations at Reynolds numbers of 1600 and 3200. Through analysis of both global and local errors, the results ultimately show how the GNN is able to produce accurate super-resolved fields compared to targets in both coarse-scale and multiscale model configurations. Reconstruction errors for fixed architectures were found to increase in proportion to the Reynolds number. Geometry extrapolation studies on a separate cavity flow configuration show promising cross-mesh capabilities of the super-resolution strategy.

arxiv情報

著者 Shivam Barwey,Pinaki Pal,Saumil Patel,Riccardo Balin,Bethany Lusch,Venkatram Vishwanath,Romit Maulik,Ramesh Balakrishnan
発行日 2025-02-19 17:27:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CE, cs.LG, physics.comp-ph, physics.flu-dyn | Mesh-based Super-Resolution of Fluid Flows with Multiscale Graph Neural Networks はコメントを受け付けていません

Geometric Principles for Machine Learning of Dynamical Systems

要約

動的システムの数学的記述は、非ユークリッドの幾何学によって定義されたトポロジカル空間に深く根付いています。
このホワイトペーパーでは、モデルのないアーキテクチャに物理学バイアスを埋め込むこととは対照的に、データから物理システムをモデル化する際に構造一般化を実現するための機械学習のための構造が豊富な幾何学的空間を活用することを提案します。
モデルの一般化は、状態空間ダイナミクスからパラメーター空間までのトポロジーマッピングとして定義される、対称性、不変性、一意性の関数であると考えています。
このビューは、線形時間不変の動的システムの機械学習を通して説明します。

要約(オリジナル)

Mathematical descriptions of dynamical systems are deeply rooted in topological spaces defined by non-Euclidean geometry. This paper proposes leveraging structure-rich geometric spaces for machine learning to achieve structural generalization when modeling physical systems from data, in contrast to embedding physics bias within model-free architectures. We consider model generalization to be a function of symmetry, invariance and uniqueness, defined as a topological mapping from state space dynamics to the parameter space. We illustrate this view through the machine learning of linear time-invariant dynamical systems, whose dynamics reside on the symmetric positive definite manifold.

arxiv情報

著者 Zack Xuereb Conti,David J Wagg,Nick Pepper
発行日 2025-02-19 17:28:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Geometric Principles for Machine Learning of Dynamical Systems はコメントを受け付けていません

AI-Driven Discovery of High Performance Polymer Electrodes for Next-Generation Batteries

要約

電池での遷移グループ金属の使用には、リチウム、コバルト、ニッケルなどの重要な要素を広範囲に使用する必要があります。
これらの金属を酸化還元活性のある有機材料に置き換えると、有望な代替品が提供され、それによりバッテリーの二酸化炭素排出量が1桁減少します。
ただし、このアプローチは、適切な酸化還元活性のある有機材料の限られた利用可能性や、電子伝導率の低下、電圧、比容量、長期の安定性などの問題など、重大な障害に直面しています。
低電圧と特定の容量の制限を克服するために、機械学習(ML)駆動型のバッテリー情報フレームワークが開発および実装されています。
このフレームワークは、広範なバッテリーデータセットと高度なMLテクニックを利用して、酸化還元活性オーガニック材料の識別、最適化、設計を加速および強化します。
この寄与では、さまざまな有機負電極と電荷キャリア(正の電極材料)の組み合わせについて、バッテリー特性、電圧、および特異的容量を予測できるデータ融合ML結合メタ学習モデルを提示します。
MLモデルは、実験を加速し、バッテリー材料の逆設計を促進し、3つの広範な材料ライブラリの適切な候補を特定して、持続可能なエネルギー貯蔵技術を促進します。

要約(オリジナル)

The use of transition group metals in electric batteries requires extensive usage of critical elements like lithium, cobalt and nickel, which poses significant environmental challenges. Replacing these metals with redox-active organic materials offers a promising alternative, thereby reducing the carbon footprint of batteries by one order of magnitude. However, this approach faces critical obstacles, including the limited availability of suitable redox-active organic materials and issues such as lower electronic conductivity, voltage, specific capacity, and long-term stability. To overcome the limitations for lower voltage and specific capacity, a machine learning (ML) driven battery informatics framework is developed and implemented. This framework utilizes an extensive battery dataset and advanced ML techniques to accelerate and enhance the identification, optimization, and design of redox-active organic materials. In this contribution, a data-fusion ML coupled meta learning model capable of predicting the battery properties, voltage and specific capacity, for various organic negative electrodes and charge carriers (positive electrode materials) combinations is presented. The ML models accelerate experimentation, facilitate the inverse design of battery materials, and identify suitable candidates from three extensive material libraries to advance sustainable energy-storage technologies.

arxiv情報

著者 Subhash V. S. Ganti,Lukas Woelfel,Christopher Kuenneth
発行日 2025-02-19 17:32:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.mtrl-sci, cs.LG, physics.app-ph | AI-Driven Discovery of High Performance Polymer Electrodes for Next-Generation Batteries はコメントを受け付けていません

Optimistically Optimistic Exploration for Provably Efficient Infinite-Horizon Reinforcement and Imitation Learning

要約

Infinite-Horizo​​nの割引線形マルコフ決定プロセス(MDP)における補強学習の問題を研究し、この設定で最適に近い後悔保証を達成する最初の計算効率の高いアルゴリズムを提案します。
私たちの主なアイデアは、楽観的な探索のための2つの古典的なテクニックを組み合わせることです。報酬機能に適用される加算的探査ボーナスと、最大のリターンで吸収状態に加えられた人工遷移です。
正規化された近似ダイナミックプログラミングスキームと組み合わせて、結果のアルゴリズムは注文$ \ tilde {\ mathcal {o}}}(\ sqrt {d^3(1- \ gamma)^{ – 7 /
2} t})$、$ t $はサンプル遷移の総数、$ \ gamma \ in(0,1)$ is is
割引係数、および$ d $は機能の次元です。
結果は、敵対的な報酬シーケンスに対して引き続き保持され、最先端の結果を達成する線形MDPでの模倣学習の問題への方法の適用を可能にします。

要約(オリジナル)

We study the problem of reinforcement learning in infinite-horizon discounted linear Markov decision processes (MDPs), and propose the first computationally efficient algorithm achieving near-optimal regret guarantees in this setting. Our main idea is to combine two classic techniques for optimistic exploration: additive exploration bonuses applied to the reward function, and artificial transitions made to an absorbing state with maximal return. We show that, combined with a regularized approximate dynamic-programming scheme, the resulting algorithm achieves a regret of order $\tilde{\mathcal{O}} (\sqrt{d^3 (1 – \gamma)^{- 7 / 2} T})$, where $T$ is the total number of sample transitions, $\gamma \in (0,1)$ is the discount factor, and $d$ is the feature dimensionality. The results continue to hold against adversarial reward sequences, enabling application of our method to the problem of imitation learning in linear MDPs, where we achieve state-of-the-art results.

arxiv情報

著者 Antoine Moulin,Gergely Neu,Luca Viano
発行日 2025-02-19 17:32:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Optimistically Optimistic Exploration for Provably Efficient Infinite-Horizon Reinforcement and Imitation Learning はコメントを受け付けていません