AI-Enhanced Ethical Hacking: A Linux-Focused Experiment

要約

この技術レポートは、包括的な実験研究と概念分析を通じて、生成 AI (GenAI)、特に ChatGPT の倫理的ハッキングの実践への統合を調査します。
この調査は、制御された仮想環境で実施され、仮想ローカル エリア ネットワーク (LAN) 内で動作する Linux ベースのターゲット マシンに対する侵入テストの主要な段階 (偵察、スキャンと列挙、アクセスの取得、アクセスの維持、および
線路をカバーしています。
この調査結果は、GenAI が倫理的ハッキング プロセスを大幅に強化および合理化できることを裏付けるとともに、人間の入力を完全に置き換えるのではなく、バランスの取れた人間と AI のコラボレーションの重要性を強調しています。
このレポートでは、誤用、データのバイアス、幻覚、AI への過度の依存などの潜在的なリスクも批判的に調査しています。
この研究は、サイバーセキュリティにおける AI の倫理的使用に関する進行中の議論に貢献し、セキュリティ防御を強化するための継続的なイノベーションの必要性を浮き彫りにします。

要約(オリジナル)

This technical report investigates the integration of generative AI (GenAI), specifically ChatGPT, into the practice of ethical hacking through a comprehensive experimental study and conceptual analysis. Conducted in a controlled virtual environment, the study evaluates GenAI’s effectiveness across the key stages of penetration testing on Linux-based target machines operating within a virtual local area network (LAN), including reconnaissance, scanning and enumeration, gaining access, maintaining access, and covering tracks. The findings confirm that GenAI can significantly enhance and streamline the ethical hacking process while underscoring the importance of balanced human-AI collaboration rather than the complete replacement of human input. The report also critically examines potential risks such as misuse, data biases, hallucination, and over-reliance on AI. This research contributes to the ongoing discussion on the ethical use of AI in cybersecurity and highlights the need for continued innovation to strengthen security defences.

arxiv情報

著者 Haitham S. Al-Sinani,Chris J. Mitchell
発行日 2024-10-07 15:02:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR | コメントする

AlphaRouter: Quantum Circuit Routing with Reinforcement Learning and Tree Search

要約

量子コンピューターは、最適化や数因数分解などの重要なタスクにおいて古典的なコンピューターを上回るパフォーマンスを発揮する可能性があります。
これらは接続性が制限されていることが特徴で、量子演算を実行するにはプログラム実行中に量子ビットとして知られる計算ビットを特定の場所にルーティングする必要があります。
従来、配線オーバーヘッドを最小限に抑えるという NP ハード最適化の問題は、コスト関数設計内に組み込まれた固有の人的バイアスを伴う、次善のルールベースの配線手法によって対処されてきました。
このペーパーでは、モンテカルロ ツリー検索 (MCTS) と強化学習 (RL) を統合するソリューションを紹介します。
AlphaRouter と呼ばれる当社の RL ベースのルーターは、現在の最先端のルーティング方法よりも優れたパフォーマンスを発揮し、最大 $20\%$ 少ないルーティング オーバーヘッドで量子プログラムを生成するため、量子コンピューティングの全体的な効率と実現可能性が大幅に向上します。

要約(オリジナル)

Quantum computers have the potential to outperform classical computers in important tasks such as optimization and number factoring. They are characterized by limited connectivity, which necessitates the routing of their computational bits, known as qubits, to specific locations during program execution to carry out quantum operations. Traditionally, the NP-hard optimization problem of minimizing the routing overhead has been addressed through sub-optimal rule-based routing techniques with inherent human biases embedded within the cost function design. This paper introduces a solution that integrates Monte Carlo Tree Search (MCTS) with Reinforcement Learning (RL). Our RL-based router, called AlphaRouter, outperforms the current state-of-the-art routing methods and generates quantum programs with up to $20\%$ less routing overhead, thus significantly enhancing the overall efficiency and feasibility of quantum computing.

arxiv情報

著者 Wei Tang,Yiheng Duan,Yaroslav Kharkov,Rasool Fakoor,Eric Kessler,Yunong Shi
発行日 2024-10-07 15:10:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SY, eess.SY, quant-ph | コメントする

LayerKV: Optimizing Large Language Model Serving with Layer-wise KV Cache Management

要約

大規模言語モデル (LLM) のコンテキスト ウィンドウの拡張により、さまざまなアプリケーションの機能が大幅に強化されましたが、特に最初のトークンまでの時間 (TTFT) において、低遅延を維持する際に大きな課題も生じます。
このペーパーでは、コンテキストの長さが増加するにつれて TTFT が急激に上昇するのは、主にキュー遅延によって引き起こされていることがわかります。この遅延は、GPU キー/バリュー (KV) キャッシュ割り当てに対する需要の増大と、KV キャッシュ ブロックの限られた可用性との衝突によって引き起こされます。
この問題に対処するために、追加のハードウェアを必要とせず、出力パフォーマンスを犠牲にすることなく、既存の並列化戦略やスケジューリング技術とシームレスに統合しながら、TTFT を効果的に削減する、シンプルかつ効果的なプラグイン手法である LayerKV を提案します。
具体的には、LayerKV は、システム メモリをきめ細かく制御するためのレイヤーごとの KV ブロックの割り当て、管理、オフロードを導入し、SLO 対応スケジューラーと組み合わせて、全体的なサービス レベル目標 (SLO) を最適化します。
さまざまな GPU 構成にわたる 7B から 70B のパラメーターにわたる代表的なモデルの包括的な評価では、LayerKV が TTFT レイテンシーを最大 69 倍改善し、SLO 違反率を 28.7% 削減し、ユーザー エクスペリエンスを大幅に向上させることが実証されました。

要約(オリジナル)

The expanding context windows in large language models (LLMs) have greatly enhanced their capabilities in various applications, but they also introduce significant challenges in maintaining low latency, particularly in Time to First Token (TTFT). This paper identifies that the sharp rise in TTFT as context length increases is predominantly driven by queuing delays, which are caused by the growing demands for GPU Key-Value (KV) cache allocation clashing with the limited availability of KV cache blocks. To address this issue, we propose LayerKV, a simple yet effective plug-in method that effectively reduces TTFT without requiring additional hardware or compromising output performance, while seamlessly integrating with existing parallelism strategies and scheduling techniques. Specifically, LayerKV introduces layer-wise KV block allocation, management, and offloading for fine-grained control over system memory, coupled with an SLO-aware scheduler to optimize overall Service Level Objectives (SLOs). Comprehensive evaluations on representative models, ranging from 7B to 70B parameters, across various GPU configurations, demonstrate that LayerKV improves TTFT latency up to 69x and reduces SLO violation rates by 28.7%, significantly enhancing the user experience.

arxiv情報

著者 Yi Xiong,Hao Wu,Changxu Shao,Ziqing Wang,Rui Zhang,Yuhong Guo,Junping Zhao,Ke Zhang,Zhenxuan Pan
発行日 2024-10-07 15:24:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: C.4, cs.AI, cs.DC, cs.LG | コメントする

Last Iterate Convergence in Monotone Mean Field Games

要約

Mean Field Game (MFG) は、多数のエージェントの動作をモデル化して近似するために利用されるフレームワークであり、MFG における均衡の計算は関心の対象となっています。
均衡を近似する方法が提案されているにもかかわらず、更新されたポリシーのシーケンスが均衡に収束するアルゴリズム、特に最後の反復収束を示すアルゴリズムは限られています。
MFG の平衡を計算するために、単純な近位点タイプのアルゴリズムの使用を提案します。
続いて、Lasry-Lions 型の単調性条件の下で最初の最終反復収束保証を提供します。
さらに、正規化された MFG に対してミラー降下アルゴリズムを使用して、MFG の近接点法の更新ルールを効率的に近似します。
$\mathcal{O}({\log(1/\varepsilon)})$ 回の反復後にアルゴリズムが $\varepsilon$ の精度で近似できることを示します。
この研究は、大規模かつ人口の多いゲームに対する扱いやすいアプローチを提供します。

要約(オリジナル)

Mean Field Game (MFG) is a framework utilized to model and approximate the behavior of a large number of agents, and the computation of equilibria in MFG has been a subject of interest. Despite the proposal of methods to approximate the equilibria, algorithms where the sequence of updated policy converges to equilibrium, specifically those exhibiting last-iterate convergence, have been limited. We propose the use of a simple, proximal-point-type algorithm to compute equilibria for MFGs. Subsequently, we provide the first last-iterate convergence guarantee under the Lasry–Lions-type monotonicity condition. We further employ the Mirror Descent algorithm for the regularized MFG to efficiently approximate the update rules of the proximal point method for MFGs. We demonstrate that the algorithm can approximate with an accuracy of $\varepsilon$ after $\mathcal{O}({\log(1/\varepsilon)})$ iterations. This research offers a tractable approach for large-scale and large-population games.

arxiv情報

著者 Noboru Isobe,Kenshi Abe,Kaito Ariu
発行日 2024-10-07 15:28:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 91A16, cs.AI, cs.GT | コメントする

Memory-Enhanced Neural Solvers for Efficient Adaptation in Combinatorial Optimization

要約

組み合わせ最適化は、現実世界の多くのアプリケーションにとって重要ですが、その (NP) 困難な性質により依然として課題が存在します。
既存のアプローチの中でも、ヒューリスティックは品質とスケーラビリティの間で最適なトレードオフを提供することが多く、産業用途に適しています。
強化学習 (RL) はヒューリスティックを設計するための柔軟なフレームワークを提供しますが、産業用ソルバー内では手作りヒューリスティックに対するその導入はまだ不完全です。
既存の学習された手法には、特定のインスタンスに適応し、利用可能な計算予算を最大限に活用する能力がまだ不足しています。
現在の最良の方法は、事前トレーニングされたポリシーのコレクション、またはデータ非効率な微調整に依存しています。
そのため、予算の制約内で新たに入手可能な情報を十分に活用できていないのです。
これに応えて、メモリを活用して推論時のニューラル ソルバーの適応を改善するアプローチである MEMENTO を紹介します。
MEMENTO を使用すると、以前の決定の結果に基づいてアクションの分布を動的に更新できます。
ベンチマーク問題、特に巡回セールスマンとキャパシテッド・ビークル・ルーティングに対する有効性を検証し、ツリー検索やポリシー勾配の微調整よりも優れていることを実証します。
そして、ダイバーシティベースのソルバーと組み合わせてゼロショットできることを示しています。
すべての RL 自己回帰ソルバーを大規模なインスタンスでトレーニングすることに成功し、MEMENTO が拡張可能でデータ効率が高いことを示しました。
全体として、MEMENTO は 12 の評価タスクのうち 11 で最先端の技術を導入することができます。

要約(オリジナル)

Combinatorial Optimization is crucial to numerous real-world applications, yet still presents challenges due to its (NP-)hard nature. Amongst existing approaches, heuristics often offer the best trade-off between quality and scalability, making them suitable for industrial use. While Reinforcement Learning (RL) offers a flexible framework for designing heuristics, its adoption over handcrafted heuristics remains incomplete within industrial solvers. Existing learned methods still lack the ability to adapt to specific instances and fully leverage the available computational budget. The current best methods either rely on a collection of pre-trained policies, or on data-inefficient fine-tuning; hence failing to fully utilize newly available information within the constraints of the budget. In response, we present MEMENTO, an approach that leverages memory to improve the adaptation of neural solvers at inference time. MEMENTO enables updating the action distribution dynamically based on the outcome of previous decisions. We validate its effectiveness on benchmark problems, in particular Traveling Salesman and Capacitated Vehicle Routing, demonstrating its superiority over tree-search and policy-gradient fine-tuning; and showing it can be zero-shot combined with diversity-based solvers. We successfully train all RL auto-regressive solvers on large instances, and show that MEMENTO can scale and is data-efficient. Overall, MEMENTO enables to push the state-of-the-art on 11 out of 12 evaluated tasks.

arxiv情報

著者 Felix Chalumeau,Refiloe Shabe,Noah De Nicola,Arnu Pretorius,Thomas D. Barrett,Nathan Grinsztajn
発行日 2024-10-07 15:33:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | コメントする

Scalable and Accurate Graph Reasoning with LLM-based Multi-Agents

要約

最近の研究では、複雑なグラフ推論タスクに取り組むための大規模言語モデル (LLM) の使用が検討されています。
ただし、グラフ構造の複雑さと長いテキストの処理における LLM の固有の制限により、現在のアプローチでは、小規模なグラフや単純なタスクであっても満足のいく精度を実現できないことがよくあります。
これらの課題に対処するために、明示的かつ正確なグラフ推論のためのマルチエージェント コラボレーション戦略を利用する、微調整不要のフレームワークである GraphAgent-Reasoner を導入します。
分散グラフ計算理論にインスピレーションを得た私たちのフレームワークは、グラフの問題を複数のエージェントに分散されるより小さなノード中心のタスクに分解します。
エージェントは協力して全体的な問題を解決し、単一の LLM で処理される情報量と複雑さを大幅に削減し、グラフ推論の精度を高めます。
エージェントの数を増やすだけで、GraphAgent-Reasoner は 1,000 ノードを超える大きなグラフに対応できるように効率的に拡張できます。
GraphInstruct データセットで評価された私たちのフレームワークは、多項式時間グラフ推論タスクでほぼ完璧な精度を示し、クローズドソースと微調整されたオープンソースの両方の利用可能な最良のモデルを大幅に上回ります。
私たちのフレームワークは、Web ページの重要性分析などの現実世界のグラフ推論アプリケーションを処理する機能も示しています。

要約(オリジナル)

Recent research has explored the use of Large Language Models (LLMs) for tackling complex graph reasoning tasks. However, due to the intricacies of graph structures and the inherent limitations of LLMs in handling long text, current approaches often fail to deliver satisfactory accuracy, even on small-scale graphs and simple tasks. To address these challenges, we introduce GraphAgent-Reasoner, a fine-tuning-free framework that utilizes a multi-agent collaboration strategy for explicit and precise graph reasoning. Inspired by distributed graph computation theory, our framework decomposes graph problems into smaller, node-centric tasks that are distributed among multiple agents. The agents collaborate to solve the overall problem, significantly reducing the amount of information and complexity handled by a single LLM, thus enhancing the accuracy of graph reasoning. By simply increasing the number of agents, GraphAgent-Reasoner can efficiently scale to accommodate larger graphs with over 1,000 nodes. Evaluated on the GraphInstruct dataset, our framework demonstrates near-perfect accuracy on polynomial-time graph reasoning tasks, significantly outperforming the best available models, both closed-source and fine-tuned open-source variants. Our framework also demonstrates the capability to handle real-world graph reasoning applications such as webpage importance analysis.

arxiv情報

著者 Yuwei Hu,Runlin Lei,Xinyi Huang,Zhewei Wei,Yongchao Liu
発行日 2024-10-07 15:34:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | コメントする

Preventing Collapse in Contrastive Learning with Orthonormal Prototypes (CLOP)

要約

対照学習は深層学習の強力な方法として登場し、異なる分布からのサンプルを対照することによって効果的な表現を学習することに優れています。
ただし、埋め込みが低次元の空間に収束するニューラル崩壊は、特に半教師ありおよび自己教師ありの設定において、重大な課題を引き起こします。
この論文では、まず、コサイン類似度メトリックのみに依存する対比損失に対する大きな学習率の影響を理論的に分析し、この崩壊を緩和するための理論的限界を導き出します。
{これらの洞察に基づいて、クラス埋め込み間の直交線形部分空間の形成を促進することで神経崩壊を防ぐように設計された新しい半教師あり損失関数である CLOP を提案します。} シンプレックス ETF 構造を強制する以前のアプローチとは異なり、CLOP は部分空間の分離に焦点を当てています。
、より識別可能な埋め込みにつながります。
実際のデータセットと合成データセットに対する広範な実験を通じて、CLOP がパフォーマンスを向上させ、さまざまな学習率やバッチ サイズにわたって安定性が向上することを実証しました。

要約(オリジナル)

Contrastive learning has emerged as a powerful method in deep learning, excelling at learning effective representations through contrasting samples from different distributions. However, neural collapse, where embeddings converge into a lower-dimensional space, poses a significant challenge, especially in semi-supervised and self-supervised setups. In this paper, we first theoretically analyze the effect of large learning rates on contrastive losses that solely rely on the cosine similarity metric, and derive a theoretical bound to mitigate this collapse. {Building on these insights, we propose CLOP, a novel semi-supervised loss function designed to prevent neural collapse by promoting the formation of orthogonal linear subspaces among class embeddings.} Unlike prior approaches that enforce a simplex ETF structure, CLOP focuses on subspace separation, leading to more distinguishable embeddings. Through extensive experiments on real and synthetic datasets, we demonstrate that CLOP enhances performance, providing greater stability across different learning rates and batch sizes.

arxiv情報

著者 Huanran Li,Manh Nguyen,Daniel Pimentel-Alarcón
発行日 2024-10-07 16:07:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | コメントする

Presto! Distilling Steps and Layers for Accelerating Music Generation

要約

拡散ベースのテキスト音楽変換 (TTM) 手法は進歩していますが、効率的で高品質な生成は依然として課題です。
サンプリング ステップとステップあたりのコストの両方を削減することで、スコアベースの拡散変換器の推論を高速化するアプローチである Presto! を紹介します。
ステップを削減するために、EDM ファミリーの拡散モデル用の新しいスコアベースの分布一致蒸留 (DMD) メソッドを開発しました。これは、TTM 用の初の GAN ベースの蒸留メソッドです。
ステップあたりのコストを削減するために、隠れ状態の分散をより良く保存することで学習を改善する、最近の層蒸留法に対するシンプルだが強力な改良を開発しました。
最後に、段階蒸留法と層蒸留法を組み合わせて、二面的なアプローチを実現します。
当社は段階蒸留法と層蒸留法を個別に評価し、それぞれの収量がクラス最高のパフォーマンスを示しています。
当社の複合蒸留方法は、ダイバーシティが向上した高品質の出力を生成することができ、ベースモデルを 10 ~ 18 倍高速化できます (32 秒のモノラル/ステレオ 44.1kHz で 230/435 ミリ秒の遅延、同等の SOTA より 15 倍高速)。これは最速の高品質 TTM です。
私たちの知る限りでは。
サウンドのサンプルは https://presto-music.github.io/web/ にあります。

要約(オリジナル)

Despite advances in diffusion-based text-to-music (TTM) methods, efficient, high-quality generation remains a challenge. We introduce Presto!, an approach to inference acceleration for score-based diffusion transformers via reducing both sampling steps and cost per step. To reduce steps, we develop a new score-based distribution matching distillation (DMD) method for the EDM-family of diffusion models, the first GAN-based distillation method for TTM. To reduce the cost per step, we develop a simple, but powerful improvement to a recent layer distillation method that improves learning via better preserving hidden state variance. Finally, we combine our step and layer distillation methods together for a dual-faceted approach. We evaluate our step and layer distillation methods independently and show each yield best-in-class performance. Our combined distillation method can generate high-quality outputs with improved diversity, accelerating our base model by 10-18x (230/435ms latency for 32 second mono/stereo 44.1kHz, 15x faster than comparable SOTA) — the fastest high-quality TTM to our knowledge. Sound examples can be found at https://presto-music.github.io/web/.

arxiv情報

著者 Zachary Novack,Ge Zhu,Jonah Casebeer,Julian McAuley,Taylor Berg-Kirkpatrick,Nicholas J. Bryan
発行日 2024-10-07 16:24:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | コメントする

Deep Fusion: Capturing Dependencies in Contrastive Learning via Transformer Projection Heads

要約

対照学習 (CL) は、ラベルなしのデータを使用して特徴抽出モデルをトレーニングするための強力な方法として登場しました。
最近の研究では、線形投影ヘッドのポストバックボーンを組み込むとモデルのパフォーマンスが大幅に向上することが示唆されています。
この研究では、CL フレームワーク内のプロジェクション ヘッドとしてトランス モデルの使用を調査し、エンベディング間の長距離依存関係をキャプチャするトランスの能力を活用してパフォーマンスをさらに向上させることを目的としています。
私たちの主な貢献は 4 つあります。まず、対比学習のためのプロジェクション ヘッドの役割におけるトランスフォーマーの新しいアプリケーションを導入し、この種の最初の試みを示します。
第 2 に、私たちの実験は、注意メカニズムがより深い層にある同じクラスのサンプル間の正しい関係依存関係を徐々に捕捉する、魅力的な「ディープ フュージョン」現象を明らかにしました。
第三に、この「ディープフュージョン」動作を説明しサポートする理論的フレームワークを提供します。
最後に、実験結果を通じて、フィードフォワード層を使用する既存のアプローチと比較して、モデルが優れたパフォーマンスを達成することを実証します。

要約(オリジナル)

Contrastive Learning (CL) has emerged as a powerful method for training feature extraction models using unlabeled data. Recent studies suggest that incorporating a linear projection head post-backbone significantly enhances model performance. In this work, we investigate the use of a transformer model as a projection head within the CL framework, aiming to exploit the transformer’s capacity for capturing long-range dependencies across embeddings to further improve performance. Our key contributions are fourfold: First, we introduce a novel application of transformers in the projection head role for contrastive learning, marking the first endeavor of its kind. Second, our experiments reveal a compelling ‘Deep Fusion’ phenomenon where the attention mechanism progressively captures the correct relational dependencies among samples from the same class in deeper layers. Third, we provide a theoretical framework that explains and supports this ‘Deep Fusion’ behavior. Finally, we demonstrate through experimental results that our model achieves superior performance compared to the existing approach of using a feed-forward layer.

arxiv情報

著者 Huanran Li,Daniel Pimentel-Alarcón
発行日 2024-10-07 16:25:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | コメントする

Learning to Steer Markovian Agents under Model Uncertainty

要約

適応する人口に対するインセンティブを設計することは、さまざまな経済用途やその他の分野で普遍的な問題です。
この研究では、エージェントの基礎となる学習ダイナミクスについての事前知識を持たずに、マルチエージェント システムを望ましいポリシーに向けて誘導するための追加の報酬を設計する方法を研究します。
既存の研究の制限を動機として、\emph{マルコフエージェント}と呼ばれる学習ダイナミクスの新しい一般的なカテゴリを検討します。
ステアリング問題に対して、モデルベースの非エピソード強化学習 (RL) 定式化を導入します。
重要なのは、エージェントの学習ダイナミクスに関するモデル固有の不確実性を処理する \emph{履歴依存} ステアリング戦略の学習に焦点を当てていることです。
妥当なコストで良好なステアリング結果を達成するという要望をコード化する新しい目的関数を導入します。
理論的には、エージェントを望ましいポリシーに導くためのステアリング戦略が存在する条件を特定します。
私たちの理論的貢献を補完するために、私たちは目的を近似的に解決するための経験的アルゴリズムを提供し、歴史に依存した戦略を学習する際の課題に効果的に取り組みます。
私たちは経験的評価を通じてアルゴリズムの有効性を実証します。

要約(オリジナル)

Designing incentives for an adapting population is a ubiquitous problem in a wide array of economic applications and beyond. In this work, we study how to design additional rewards to steer multi-agent systems towards desired policies \emph{without} prior knowledge of the agents’ underlying learning dynamics. Motivated by the limitation of existing works, we consider a new and general category of learning dynamics called \emph{Markovian agents}. We introduce a model-based non-episodic Reinforcement Learning (RL) formulation for our steering problem. Importantly, we focus on learning a \emph{history-dependent} steering strategy to handle the inherent model uncertainty about the agents’ learning dynamics. We introduce a novel objective function to encode the desiderata of achieving a good steering outcome with reasonable cost. Theoretically, we identify conditions for the existence of steering strategies to guide agents to the desired policies. Complementing our theoretical contributions, we provide empirical algorithms to approximately solve our objective, which effectively tackles the challenge in learning history-dependent strategies. We demonstrate the efficacy of our algorithms through empirical evaluations.

arxiv情報

著者 Jiawei Huang,Vinzenz Thoma,Zebang Shen,Heinrich H. Nax,Niao He
発行日 2024-10-07 16:25:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.MA, stat.ML | コメントする