Dynamic Knowledge Selector and Evaluator for recommendation with Knowledge Graph

要約

近年、推奨システムは通常、推奨フィールドでのグラフネットワークの高次接続の利点と組み合わされた知識グラフによって提供されるエッジ情報を使用します。
ただし、この方法はラベルのスパース性によって制限されており、グラフ構造を十分に学習できず、知識グラフ内の多数の騒々しいエンティティが推奨結果の精度に影響します。
上記の問題を軽減するために、知識グラフの情報を蒸留するために、共同信号によって導かれた動的な知識選択と評価方法を提案します。
具体的には、チェーンルート評価者を使用して、推奨タスクについてさまざまな近隣の貢献を評価し、知識セレクター戦略を採用して、評価する前にあまり有益でない知識をフィルタリングします。
3つのパブリックデータセットでベースラインモデルの比較と実験的アブレーション評価を実施します。
実験は、提案されているモデルが現在の最先端のベースラインモデルよりも優れていることを示しており、モデルの各モジュールがアブレーション実験を通じて実証されています。

要約(オリジナル)

In recent years recommendation systems typically employ the edge information provided by knowledge graphs combined with the advantages of high-order connectivity of graph networks in the recommendation field. However, this method is limited by the sparsity of labels, cannot learn the graph structure well, and a large number of noisy entities in the knowledge graph will affect the accuracy of the recommendation results. In order to alleviate the above problems, we propose a dynamic knowledge-selecting and evaluating method guided by collaborative signals to distill information in the knowledge graph. Specifically, we use a Chain Route Evaluator to evaluate the contributions of different neighborhoods for the recommendation task and employ a Knowledge Selector strategy to filter the less informative knowledge before evaluating. We conduct baseline model comparison and experimental ablation evaluations on three public datasets. The experiments demonstrate that our proposed model outperforms current state-of-the-art baseline models, and each modules effectiveness in our model is demonstrated through ablation experiments.

arxiv情報

著者 Feng Xia,Zhifei Hu
発行日 2025-02-21 17:51:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IR | Dynamic Knowledge Selector and Evaluator for recommendation with Knowledge Graph はコメントを受け付けていません

Towards Automated Penetration Testing: Introducing LLM Benchmark, Analysis, and Improvements

要約

ハッキングはサイバーセキュリティに大きな脅威をもたらし、毎年数十億ドルの損害を与えます。
これらのリスクを緩和するために、倫理的ハッキング、または浸透テストが採用され、システムとネットワークの脆弱性を特定します。
大規模な言語モデル(LLM)の最近の進歩は、サイバーセキュリティを含むさまざまなドメインにわたって潜在的な可能性を示しています。
ただし、現在、セキュリティコンテキストでこれらのモデルの機能を促進し、評価するために、包括的でオープンな自動化されたエンドツーエンドの浸透テストベンチマークはありません。
このペーパーでは、LLMベースの自動浸透テストの新しいオープンベンチマークを紹介し、この重要なギャップに対処します。
最初に、最先端のPentestGPTツールを使用して、GPT-4OおよびLLAMA 3.1-405Bを含むLLMSのパフォーマンスを評価します。
私たちの調査結果は、Llama 3.1がGPT-4Oよりも優位性を示している一方で、両方のモデルは現在、最小限の人間の支援があってもエンドツーエンドの浸透テストを実行することには及ばないことが明らかになりました。
次に、Pentestgptツールの改善に関する洞察を提供する最先端および現在のアブレーション研究を進めます。
私たちの研究は、LLMSがペンテストの各面で直面する課題を明らかにしています。
列挙、搾取、特権エスカレーション。
この作業は、AI支援サイバーセキュリティに関する知識の増加に貢献し、大規模な言語モデルを使用した自動浸透テストの将来の研究の基礎を築きます。

要約(オリジナル)

Hacking poses a significant threat to cybersecurity, inflicting billions of dollars in damages annually. To mitigate these risks, ethical hacking, or penetration testing, is employed to identify vulnerabilities in systems and networks. Recent advancements in large language models (LLMs) have shown potential across various domains, including cybersecurity. However, there is currently no comprehensive, open, automated, end-to-end penetration testing benchmark to drive progress and evaluate the capabilities of these models in security contexts. This paper introduces a novel open benchmark for LLM-based automated penetration testing, addressing this critical gap. We first evaluate the performance of LLMs, including GPT-4o and LLama 3.1-405B, using the state-of-the-art PentestGPT tool. Our findings reveal that while LLama 3.1 demonstrates an edge over GPT-4o, both models currently fall short of performing end-to-end penetration testing even with some minimal human assistance. Next, we advance the state-of-the-art and present ablation studies that provide insights into improving the PentestGPT tool. Our research illuminates the challenges LLMs face in each aspect of Pentesting, e.g. enumeration, exploitation, and privilege escalation. This work contributes to the growing body of knowledge on AI-assisted cybersecurity and lays the foundation for future research in automated penetration testing using large language models.

arxiv情報

著者 Isamu Isozaki,Manil Shrestha,Rick Console,Edward Kim
発行日 2025-02-21 17:53:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR | Towards Automated Penetration Testing: Introducing LLM Benchmark, Analysis, and Improvements はコメントを受け付けていません

The Relationship Between Reasoning and Performance in Large Language Models — o3 (mini) Thinks Harder, Not Longer

要約

大規模な言語モデルは、数学的推論において顕著な進歩を示しており、考え方の連鎖とテスト時間計算スケーリングを活用しています。
ただし、トークンの使用と精度の向上を推論することとの相互作用に関して、多くの未解決の疑問が残っています。
特に、世代を超えてモデルを比較する場合、パフォーマンスが改善された推論チェーンまたはより効率的な推論から生じるかどうかは不明です。
OMNI-MATHベンチマークのO1-MINIおよびO3-MINIバリアント全体のチェーンオブ考えの長さを体系的に分析し、O3-MINI(M)がO1-MINIよりも長い推論チェーンを必要とせずに優れた精度を達成することを発見しました。
さらに、質問の難しさを制御する場合でも、推論チェーンがすべてのモデルで成長し、設定を計算すると、一般に精度が低下することを示します。
この精度低下は、より熟練したモデルでは大幅に小さく、推論モデルの新しい世代がテスト時間計算をより効果的に使用することを示唆しています。
最後に、O3-MINI(H)はO3-MINI(M)よりもわずかな精度の向上を達成しているが、すべての問題にわたってかなりの推論トークンを割り当てることにより、O3-Mini(M)がすでにできることを強調していることを強調しています。
解決する。
これらの調査結果は、効率、スケーリング、評価方法に影響を与え、モデル能力と推論長の関係に関する新しい洞察を提供します。

要約(オリジナル)

Large language models have demonstrated remarkable progress in mathematical reasoning, leveraging chain-of-thought and test-time compute scaling. However, many open questions remain regarding the interplay between reasoning token usage and accuracy gains. In particular, when comparing models across generations, it is unclear whether improved performance results from longer reasoning chains or more efficient reasoning. We systematically analyze chain-of-thought length across o1-mini and o3-mini variants on the Omni-MATH benchmark, finding that o3-mini (m) achieves superior accuracy without requiring longer reasoning chains than o1-mini. Moreover, we show that accuracy generally declines as reasoning chains grow across all models and compute settings, even when controlling for difficulty of the questions. This accuracy drop is significantly smaller in more proficient models, suggesting that new generations of reasoning models use test-time compute more effectively. Finally, we highlight that while o3-mini (h) achieves a marginal accuracy gain over o3-mini (m), it does so by allocating substantially more reasoning tokens across all problems, even the ones that o3-mini (m) can already solve. These findings provide new insights into the relationship between model capability and reasoning length, with implications for efficiency, scaling, and evaluation methodologies.

arxiv情報

著者 Marthe Ballon,Andres Algaba,Vincent Ginis
発行日 2025-02-21 17:59:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | The Relationship Between Reasoning and Performance in Large Language Models — o3 (mini) Thinks Harder, Not Longer はコメントを受け付けていません

Mantis: Lightweight Calibrated Foundation Model for User-Friendly Time Series Classification

要約

近年、多様なダウンストリームタスク全体に一般化できる時系列データの基礎モデルの開発に関心が高まっています。
多くの予測指向の基礎モデルが導入されていますが、時系列分類に合わせて調整されたモデルの顕著な不足があります。
このギャップに対処するために、対照的な学習アプローチを使用して事前に訓練されたビジョントランス(VIT)アーキテクチャに基づいた時系列分類のための新しいオープンソースファンデーションモデルであるMantisを提示します。
私たちの実験結果は、バックボーンが凍結されたときと微調整されたときに、最低のキャリブレーションエラーを達成しながら、マンティスが既存の基礎モデルを上回ることを示しています。
さらに、多変量設定を処理するためのいくつかのアダプターを提案し、メモリ要件を削減し、チャネル相互依存をモデリングします。

要約(オリジナル)

In recent years, there has been increasing interest in developing foundation models for time series data that can generalize across diverse downstream tasks. While numerous forecasting-oriented foundation models have been introduced, there is a notable scarcity of models tailored for time series classification. To address this gap, we present Mantis, a new open-source foundation model for time series classification based on the Vision Transformer (ViT) architecture that has been pre-trained using a contrastive learning approach. Our experimental results show that Mantis outperforms existing foundation models both when the backbone is frozen and when fine-tuned, while achieving the lowest calibration error. In addition, we propose several adapters to handle the multivariate setting, reducing memory requirements and modeling channel interdependence.

arxiv情報

著者 Vasilii Feofanov,Songkang Wen,Marius Alonso,Romain Ilbert,Hongbo Guo,Malik Tiomoko,Lujia Pan,Jianfeng Zhang,Ievgen Redko
発行日 2025-02-21 18:06:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML | Mantis: Lightweight Calibrated Foundation Model for User-Friendly Time Series Classification はコメントを受け付けていません

Steering into New Embedding Spaces: Analyzing Cross-Lingual Alignment Induced by Model Interventions in Multilingual Language Models

要約

言語間のアラインド表現は、多言語の大規模な言語モデル(MLLMS)で望ましいプロパティです。アラインメントは、横断的タスクのパフォーマンスを改善できるためです。
通常、アラインメントには、計算的に高価なモデルを微調整する必要があり、多くの場合利用できない可能性のあるかなりの言語データが必要です。
微調整に代わるデータ効率の高い代替は、モデル介入です。これは、モデルの活性化を操作して生成を望ましい方向に導く方法です。
MLLMの横断的表現のアライメントに対する一般的な介入(発見専門家)の効果を分析します。
特定の言語のために操作するニューロンを特定し、MLLMSの操作後および操作後の埋め込みスペースを内省します。
MLLMのアクティベーションを変更することで、埋め込みスペースが変化し、横断的なアラインメントが強化されるように変化することを示します。
さらに、埋め込みスペースの変化は、検索タスクでの下流のパフォーマンスの改善につながり、横断的検索の上位1精度が最大2倍改善されることを示しています。

要約(オリジナル)

Aligned representations across languages is a desired property in multilingual large language models (mLLMs), as alignment can improve performance in cross-lingual tasks. Typically alignment requires fine-tuning a model, which is computationally expensive, and sizable language data, which often may not be available. A data-efficient alternative to fine-tuning is model interventions — a method for manipulating model activations to steer generation into the desired direction. We analyze the effect of a popular intervention (finding experts) on the alignment of cross-lingual representations in mLLMs. We identify the neurons to manipulate for a given language and introspect the embedding space of mLLMs pre- and post-manipulation. We show that modifying the mLLM’s activations changes its embedding space such that cross-lingual alignment is enhanced. Further, we show that the changes to the embedding space translate into improved downstream performance on retrieval tasks, with up to 2x improvements in top-1 accuracy on cross-lingual retrieval.

arxiv情報

著者 Anirudh Sundar,Sinead Williamson,Katherine Metcalf,Barry-John Theobald,Skyler Seto,Masha Fedzechkina
発行日 2025-02-21 18:09:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Steering into New Embedding Spaces: Analyzing Cross-Lingual Alignment Induced by Model Interventions in Multilingual Language Models はコメントを受け付けていません

AutoTandemML: Active Learning Enhanced Tandem Neural Networks for Inverse Design Problems

要約

科学と工学の逆設計には、設計スペースの複雑さと高次元によって妨げられるプロセスである、望ましいパフォーマンス結果を達成する最適な設計パラメーターを決定し、大幅な計算コストにつながります。
この課題に取り組むために、アクティブな学習とタンデムニューラルネットワークを組み合わせた新しいハイブリッドアプローチを提案し、逆設計の問題を解決する効率と有効性を高めます。
アクティブな学習により、最も有益なデータポイントを選択的にサンプリングできるため、精度を損なうことなく必要なデータセットサイズを削減できます。
このアプローチを調査し、3つのベンチマークの問題を使用して、拡散部分微分方程式におけるエアフォイルの逆設計、フォトニック表面逆設計、およびスカラー境界条件の再構築を使用して調査します。
アクティブ学習とタンデムニューラルネットワークの統合は、ベンチマークスイート全体で標準的なアプローチを上回り、トレーニングサンプルが少ないとより良い精度を達成することを実証します。

要約(オリジナル)

Inverse design in science and engineering involves determining optimal design parameters that achieve desired performance outcomes, a process often hindered by the complexity and high dimensionality of design spaces, leading to significant computational costs. To tackle this challenge, we propose a novel hybrid approach that combines active learning with Tandem Neural Networks to enhance the efficiency and effectiveness of solving inverse design problems. Active learning allows to selectively sample the most informative data points, reducing the required dataset size without compromising accuracy. We investigate this approach using three benchmark problems: airfoil inverse design, photonic surface inverse design, and scalar boundary condition reconstruction in diffusion partial differential equations. We demonstrate that integrating active learning with Tandem Neural Networks outperforms standard approaches across the benchmark suite, achieving better accuracy with fewer training samples.

arxiv情報

著者 Luka Grbcic,Juliane Müller,Wibe Albert de Jong
発行日 2025-02-21 18:10:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CE, cs.LG, cs.NE | AutoTandemML: Active Learning Enhanced Tandem Neural Networks for Inverse Design Problems はコメントを受け付けていません

SWEPO: Simultaneous Weighted Preference Optimization for Group Contrastive Alignment

要約

直接選好最適化(DPO)は、大規模な言語モデルを人間の好みの整合に効果的に証明していますが、多くの場合、ペアワイズ比較に制約されます。
クエリごとに複数の応答を組み込み、平均的な報酬から最も逸脱しているものを優先する同時の加重選好最適化(SWEPO)を提案します。
この逸脱ベースの重み付けには、組み込みのカリキュラムに似た最も有益な外れ値にトレーニングが焦点を当てています。
理論的には、このようなマルチプレファレンスサンプリングがアライメントバイアスを下げ、予想される$ \ mathcal {o}(\ tfrac {1} {\ sqrt {k}})$のレートでの真の許容応答分布からの予想偏差を制限することを証明します。

経験的に、SWEPOはウルトラフィードバックデータセットの最先端のベースラインを上回り、DPOおよびInfoncaよりも大幅な改善を示し、アルパカエバルの長さ制御された勝率で最大$ \ SIM 4 $%の増加をもたらします。

要約(オリジナル)

Direct Preference Optimization (DPO) has proven effective in aligning large language models with human preferences but is often constrained to pairwise comparisons — overlooking additional positive and negative responses that are commonly available in real-world settings. We propose Simultaneous Weighted Preference Optimization (SWEPO), which incorporates multiple responses per query and prioritizes those that deviate most from the average reward. This deviation-based weighting focuses training on the most informative outliers, akin to a built-in curriculum. Theoretically, we prove that such multi-preference sampling lowers alignment bias, bounding the expected deviation from the true acceptable-response distribution at a rate of $\mathcal{O}(\tfrac{1}{\sqrt{k}})$. Empirically, SWEPO outperforms state-of-the-art baselines on the Ultra-Feedback dataset and demonstrates substantial improvements over DPO and InfoNCA, yielding boosts of up to $\sim 4$% on length-controlled win-rate on AlpacaEval.

arxiv情報

著者 Taneesh Gupta,Rahul Madhavan,Xuchao Zhang,Chetan Bansal,Saravan Rajmohan
発行日 2025-02-21 18:12:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | SWEPO: Simultaneous Weighted Preference Optimization for Group Contrastive Alignment はコメントを受け付けていません

Empowering LLMs with Logical Reasoning: A Comprehensive Survey

要約

大規模な言語モデル(LLM)は、さまざまな自然言語タスクで顕著な成功を収めています。
しかし、最近の研究では、LLMSの論理的推論能力には依然として重要な課題があることがわかっています。
このペーパーでは、主な課題を2つの側面にまとめて分類します。(1)論理的な質問の回答、LLMは、施設と制約のコレクションを考慮して、洗練された演ductive、帰納的、または誘惑的な推論を必要とする複雑な論理問題の中で正解を生成できないことがよくあります。
(2)論理的な一貫性、LLMは、異なる質問にわたって自分自身と矛盾する応答を生成する傾向があります。
たとえば、最先端のコンゴウイング質問LLMの回答は、両方の質問にYESの回答があり、カササギは鳥ですか?
鳥には翼がありますか?
しかし、カササギには翼がありますか?
この研究の方向性を促進するために、最も最先端の方法を包括的に調査し、これらの方法の詳細な分類法を提案します。
具体的には、複雑なロジックの質問に正確に答えるために、以前の方法は、外部のソルバー、プロンプト、前登録、および微調整に依存することに基づいて分類できます。
論理的な矛盾を避けるために、含意、否定、推移性、事実の一貫性、その複合材料など、さまざまな論理的一貫性の概念と解決策について説明します。
さらに、一般的に使用されるベンチマークデータセットと評価メトリックをレビューし、不確実性を説明するためにモーダルロジックの拡張などの有望な研究の方向性、および複数の論理的一貫性を同時に満たす効率的なアルゴリズムについて説明します。

要約(オリジナル)

Large language models (LLMs) have achieved remarkable successes on various natural language tasks. However, recent studies have found that there are still significant challenges to the logical reasoning abilities of LLMs. This paper summarizes and categorizes the main challenges into two aspects: (1) Logical question answering, LLMs often fail to generate the correct answer within complex logical problem which requires sophisticated deductive, inductive or abductive reasoning given a collection of premises and constrains. (2) Logical consistency, LLMs are prone to producing responses contradicting themselves across different questions. For example, a state-of-the-art Macaw question-answering LLM answers Yes to both questions Is a magpie a bird? and Does a bird have wings? but answers No to Does a magpie have wings?. To facilitate this research direction, we comprehensively investigate the most cutting-edge methods and propose detailed taxonomies of these methods. Specifically, to accurately answer complex logic questions, previous methods can be categorized based on reliance on external solvers, prompts, pretraining, and fine-tuning. To avoid logical contradictions, we discuss concepts and solutions of various logical consistencies, including implication, negation, transitivity, factuality consistency, and their composites. In addition, we review commonly used benchmark datasets and evaluation metrics, and discuss promising research directions, such as extensions to modal logic to account for uncertainty, and efficient algorithms satisfying multiple logical consistencies simultaneously.

arxiv情報

著者 Fengxiang Cheng,Haoxuan Li,Fenrong Liu,Robert van Rooij,Kun Zhang,Zhouchen Lin
発行日 2025-02-21 18:20:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Empowering LLMs with Logical Reasoning: A Comprehensive Survey はコメントを受け付けていません

Superintelligent Agents Pose Catastrophic Risks: Can Scientist AI Offer a Safer Path?

要約

大手AI企業は、一般主義者AIエージェントの構築にますます注力しています。これは、人間が実行できるほぼすべてのタスクで目標を自律的に計画、行動、追求できるシステムです。
これらのシステムがどれほど有用であるかにもかかわらず、未確認のAI機関は、悪意のある俳優による誤用から、人間の支配の不可逆的な潜在的な喪失に至るまで、公共の安全とセキュリティに重大なリスクをもたらします。
これらのリスクが現在のAIトレーニング方法からどのように生じるかについて説明します。
実際、さまざまなシナリオと実験により、AIエージェントが欺ceptionに従事したり、人間のオペレーターによって指定されていない目標を追求したり、自己保存などの人間の利益と対立する可能性を実証しています。
予防原則に従って、私たちは、より安全でありながらもまだ有用な、現在の機関主導の軌跡に代わる強い必要性があると考えています。
したがって、私たちは、科学者AIと呼ばれる設計上、信頼できる安全で安全な非エージェントAIシステムの開発をさらに進めるためのコアビルディングブロックとして提案します。
このシステムは、人間を模倣したり喜ばせたりするために行動を起こすのではなく、観察から世界を説​​明するように設計されています。
それは、データを説明する理論を生成する世界モデルと質問を消費する推論マシンで構成されています。
両方のコンポーネントは、自信過剰予測のリスクを軽減するために、不確実性の明示的な概念で動作します。
これらの考慮事項に照らして、科学者AIを使用して、AIの安全性を含む科学的進歩を加速させる人間の研究者を支援することができます。
特に、当社のシステムは、関連するリスクにもかかわらず作成される可能性のあるAIエージェントに対するガードレールとして採用できます。
最終的に、非科目AIに焦点を当てることで、現在の軌跡に関連するリスクを避けながら、AIイノベーションの利点を可能にする可能性があります。
これらの議論が、研究者、開発者、政策立案者がこのより安全な道を支持するように動機付けることを願っています。

要約(オリジナル)

The leading AI companies are increasingly focused on building generalist AI agents — systems that can autonomously plan, act, and pursue goals across almost all tasks that humans can perform. Despite how useful these systems might be, unchecked AI agency poses significant risks to public safety and security, ranging from misuse by malicious actors to a potentially irreversible loss of human control. We discuss how these risks arise from current AI training methods. Indeed, various scenarios and experiments have demonstrated the possibility of AI agents engaging in deception or pursuing goals that were not specified by human operators and that conflict with human interests, such as self-preservation. Following the precautionary principle, we see a strong need for safer, yet still useful, alternatives to the current agency-driven trajectory. Accordingly, we propose as a core building block for further advances the development of a non-agentic AI system that is trustworthy and safe by design, which we call Scientist AI. This system is designed to explain the world from observations, as opposed to taking actions in it to imitate or please humans. It comprises a world model that generates theories to explain data and a question-answering inference machine. Both components operate with an explicit notion of uncertainty to mitigate the risks of overconfident predictions. In light of these considerations, a Scientist AI could be used to assist human researchers in accelerating scientific progress, including in AI safety. In particular, our system can be employed as a guardrail against AI agents that might be created despite the risks involved. Ultimately, focusing on non-agentic AI may enable the benefits of AI innovation while avoiding the risks associated with the current trajectory. We hope these arguments will motivate researchers, developers, and policymakers to favor this safer path.

arxiv情報

著者 Yoshua Bengio,Michael Cohen,Damiano Fornasiere,Joumana Ghosn,Pietro Greiner,Matt MacDermott,Sören Mindermann,Adam Oberman,Jesse Richardson,Oliver Richardson,Marc-Antoine Rondeau,Pierre-Luc St-Charles,David Williams-King
発行日 2025-02-21 18:28:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Superintelligent Agents Pose Catastrophic Risks: Can Scientist AI Offer a Safer Path? はコメントを受け付けていません

Automating Curriculum Learning for Reinforcement Learning using a Skill-Based Bayesian Network

要約

強化学習の主な課題は、カリキュラムを自動的に生成して、トレーニング時間を短縮したり、一部のターゲットタスクのパフォーマンスを改善することです。
一連のスキル、報酬構造に関連する一連の目標、および(おそらく目に見えない)タスクのポリシーパフォーマンスを予測するための一連の環境機能をモデル化するSebns(スキル環境ベイズネットワーク)を紹介します。
SEBNからのエージェントの成功の推定推定値を使用して、予想される改善により可能な次のタスクを比較検討するアルゴリズムを開発します。
3つの環境で得られるカリキュラムの利点を評価します:離散グリッドワールド、連続制御、シミュレートされたロボット工学。
結果は、Sebnを使用して構築されたカリキュラムが他のベースラインを頻繁に上回ることを示しています。

要約(オリジナル)

A major challenge for reinforcement learning is automatically generating curricula to reduce training time or improve performance in some target task. We introduce SEBNs (Skill-Environment Bayesian Networks) which model a probabilistic relationship between a set of skills, a set of goals that relate to the reward structure, and a set of environment features to predict policy performance on (possibly unseen) tasks. We develop an algorithm that uses the inferred estimates of agent success from SEBN to weigh the possible next tasks by expected improvement. We evaluate the benefit of the resulting curriculum on three environments: a discrete gridworld, continuous control, and simulated robotics. The results show that curricula constructed using SEBN frequently outperform other baselines.

arxiv情報

著者 Vincent Hsiao,Mark Roberts,Laura M. Hiatt,George Konidaris,Dana Nau
発行日 2025-02-21 18:38:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Automating Curriculum Learning for Reinforcement Learning using a Skill-Based Bayesian Network はコメントを受け付けていません