SMARLA: A Safety Monitoring Approach for Deep Reinforcement Learning Agents

要約

深層強化学習 (DRL) は、エージェントが環境との対話を通じて最適なポリシーを学習できるようにすることで、自動運転、ヘルスケア、ロボティクスなどのさまざまな分野で大きな進歩をもたらしました。
ただし、セーフティ クリティカルな領域での DRL の適用には、特に学習されたポリシーの安全性に関して課題があります。
報酬の最大化に重点を置く DRL エージェントは、安全でない行動を選択し、安全違反につながる可能性があります。
したがって、実行時の安全性監視は、特に予測不可能で動的な環境において、これらのエージェントの安全な動作を保証するために不可欠です。
このペーパーでは、DRL エージェント向けに特別に設計されたブラックボックス安全監視アプローチである SMARLA を紹介します。
SMARLA は機械学習を利用して、実行中のエージェントの動作を観察することで安全違反を予測します。
このアプローチは、特定の状態でアクションを実行することで期待される報酬を反映する Q 値に基づいています。
SMARLA は状態抽象化を採用して状態空間の複雑さを軽減し、監視モデルの予測機能を強化します。
このような抽象化により、危険な状態を早期に検出できるようになり、インシデントが発生する前に修正および予防措置を実行できるようになります。
私たちは、DRL 研究で広く使用されている 3 つのよく知られたケーススタディに基づいて SMARLA を定量的および定性的に検証しました。
実証結果によると、SMARLA は誤検知率が低く、安全性違反を正確に予測し、違反が発生する前の早い段階、つまりエージェントの実行の約半分で違反を予測できることが明らかになりました。
また、早期検出と低い誤検知率の間のトレードオフを目的とした安全メカニズムをトリガーするための、予測された違反確率の信頼区間に基づくさまざまな決定基準についても説明します。

要約(オリジナル)

Deep Reinforcement Learning (DRL) has made significant advancements in various fields, such as autonomous driving, healthcare, and robotics, by enabling agents to learn optimal policies through interactions with their environments. However, the application of DRL in safety-critical domains presents challenges, particularly concerning the safety of the learned policies. DRL agents, which are focused on maximizing rewards, may select unsafe actions, leading to safety violations. Runtime safety monitoring is thus essential to ensure the safe operation of these agents, especially in unpredictable and dynamic environments. This paper introduces SMARLA, a black-box safety monitoring approach specifically designed for DRL agents. SMARLA utilizes machine learning to predict safety violations by observing the agent’s behavior during execution. The approach is based on Q-values, which reflect the expected reward for taking actions in specific states. SMARLA employs state abstraction to reduce the complexity of the state space, enhancing the predictive capabilities of the monitoring model. Such abstraction enables the early detection of unsafe states, allowing for the implementation of corrective and preventive measures before incidents occur. We quantitatively and qualitatively validated SMARLA on three well-known case studies widely used in DRL research. Empirical results reveal that SMARLA is accurate at predicting safety violations, with a low false positive rate, and can predict violations at an early stage, approximately halfway through the execution of the agent, before violations occur. We also discuss different decision criteria, based on confidence intervals of the predicted violation probabilities, to trigger safety mechanisms aiming at a trade-off between early detection and low false positive rates.

arxiv情報

著者 Amirhossein Zolfagharian,Manel Abdellatif,Lionel C. Briand,Ramesh S
発行日 2024-10-22 17:29:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.SE | SMARLA: A Safety Monitoring Approach for Deep Reinforcement Learning Agents はコメントを受け付けていません

Exploring Possibilities of AI-Powered Legal Assistance in Bangladesh through Large Language Modeling

要約

目的: バングラデシュの法制度は、遅れ、複雑さ、高額な費用、数百万件の未解決事件などの大きな課題に直面しており、多くの人が知識不足や財政的制約のために訴訟を起こすことを思いとどまっている。
この研究は、バングラデシュの法制度を支援するための特殊な大規模言語モデル (LLM) の開発を目的としています。
方法: さまざまな法的行為に関するデータを収集および収集することにより、バングラデシュの法的文書の英語コーパスである UKIL-DB-EN を作成しました。
私たちはこのデータセットに基づいて GPT-2 モデルを微調整し、英語で法的支援を提供することに重点を置いた LLM である GPT2-UKIL-EN を開発しました。
結果: モデルは、専門家の意見に裏付けられたケーススタディを含む、意味論的評価を使用して厳密に評価されました。
この評価では有望な結果が得られ、このモデルがバングラデシュ国内の法的問題に役立つ可能性があることが実証されました。
結論: 私たちの取り組みは、バングラデシュ向けの AI ベースの法律アシスタントの構築に向けた最初の構造化された取り組みを表しています。
結果は有望ですが、モデルの精度、信頼性、安全性を向上させるにはさらなる改良が必要です。
これは、1 億 8,000 万人の人口のニーズに応えることができる法律 AI の開発に向けた重要な一歩です。

要約(オリジナル)

Purpose: Bangladesh’s legal system struggles with major challenges like delays, complexity, high costs, and millions of unresolved cases, which deter many from pursuing legal action due to lack of knowledge or financial constraints. This research seeks to develop a specialized Large Language Model (LLM) to assist in the Bangladeshi legal system. Methods: We created UKIL-DB-EN, an English corpus of Bangladeshi legal documents, by collecting and scraping data on various legal acts. We fine-tuned the GPT-2 model on this dataset to develop GPT2-UKIL-EN, an LLM focused on providing legal assistance in English. Results: The model was rigorously evaluated using semantic assessments, including case studies supported by expert opinions. The evaluation provided promising results, demonstrating the potential for the model to assist in legal matters within Bangladesh. Conclusion: Our work represents the first structured effort toward building an AI-based legal assistant for Bangladesh. While the results are encouraging, further refinements are necessary to improve the model’s accuracy, credibility, and safety. This is a significant step toward creating a legal AI capable of serving the needs of a population of 180 million.

arxiv情報

著者 Azmine Toushik Wasi,Wahid Faisal,Mst Rafia Islam,Mahathir Mohammad Bappy
発行日 2024-10-22 17:34:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY | Exploring Possibilities of AI-Powered Legal Assistance in Bangladesh through Large Language Modeling はコメントを受け付けていません

Neuroevolution Neural Architecture Search for Evolving RNNs in Stock Return Prediction and Portfolio Trading

要約

株式収益予測は、数多くの財務アプリケーションの主要なコンポーネントです。
株式の予測収益をポートフォリオ取引アルゴリズムに組み込んで、情報に基づいて売買の意思決定を行い、収益を最適化することができます。
このようなポートフォリオ取引アプリケーションでは、時系列予測モデルの予測パフォーマンスが重要です。
この研究では、株式収益予測のために漸進的にリカレント ニューラル ネットワーク (RNN) を進化させるための進化的メモリ拡張モデル (EXAMM) アルゴリズムの使用を提案します。
RNN は銘柄ごとに独立して進化し、ポートフォリオ取引の決定は予測される株式リターンに基づいて行われます。
テストに使用されるポートフォリオは、ダウ ジョーンズ指数 (DJI) の 30 社で構成され、各銘柄のウェイトは同じです。
結果は、これらの進化した RNN とシンプルな毎日のロングショート戦略を使用すると、2022 年 (弱気市場) と 2023 年 (強気市場) の両方で、DJI 指数と S&P 500 指数の両方よりも高いリターンを生み出すことができることを示しています。

要約(オリジナル)

Stock return forecasting is a major component of numerous finance applications. Predicted stock returns can be incorporated into portfolio trading algorithms to make informed buy or sell decisions which can optimize returns. In such portfolio trading applications, the predictive performance of a time series forecasting model is crucial. In this work, we propose the use of the Evolutionary eXploration of Augmenting Memory Models (EXAMM) algorithm to progressively evolve recurrent neural networks (RNNs) for stock return predictions. RNNs are evolved independently for each stocks and portfolio trading decisions are made based on the predicted stock returns. The portfolio used for testing consists of the 30 companies in the Dow-Jones Index (DJI) with each stock have the same weight. Results show that using these evolved RNNs and a simple daily long-short strategy can generate higher returns than both the DJI index and the S&P 500 Index for both 2022 (bear market) and 2023 (bull market).

arxiv情報

著者 Zimeng Lyu,Amulya Saxena,Rohaan Nadeem,Hao Zhang,Travis Desell
発行日 2024-10-22 17:37:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CE, cs.LG, q-fin.PM | Neuroevolution Neural Architecture Search for Evolving RNNs in Stock Return Prediction and Portfolio Trading はコメントを受け付けていません

Creativity in AI: Progresses and Challenges

要約

創造性とは、斬新で有用かつ驚くべきアイデアを生み出す能力であり、人間の認知の重要な側面として広く研究されてきました。
一方、機械の創造性は長年の課題です。
高度な生成 AI の台頭により、AI の創造的な能力について新たな関心と議論が行われています。
したがって、AI における創造性の状態を再検討し、主要な進歩と残された課題を特定することが不可欠です。
この研究では、創造的な問題解決、言語的、芸術的、科学的な創造性に焦点を当て、AI システムの創造的能力を研究する主要な研究を調査します。
私たちのレビューによると、最新の AI モデルは、詩、画像、音楽作品など、言語的および芸術的に創造的な出力を生成できるものの、創造的な問題解決、抽象的思考、構成力を必要とするタスクには苦労しており、その世代は問題に苦しんでいます。
多様性、独創性の欠如、長距離にわたる一貫性の欠如、幻覚。
また、生成モデルに関する著作権と著作権の問題に関する重要な問題についても説明します。
さらに、プロセス主導型であり、創造性のさまざまな側面を考慮した創造性の包括的な評価の必要性を強調します。
最後に、認知科学と心理学からインスピレーションを得て、AI 出力の創造性を向上させるための将来の研究の方向性を提案します。

要約(オリジナル)

Creativity is the ability to produce novel, useful, and surprising ideas, and has been widely studied as a crucial aspect of human cognition. Machine creativity on the other hand has been a long-standing challenge. With the rise of advanced generative AI, there has been renewed interest and debate regarding AI’s creative capabilities. Therefore, it is imperative to revisit the state of creativity in AI and identify key progresses and remaining challenges. In this work, we survey leading works studying the creative capabilities of AI systems, focusing on creative problem-solving, linguistic, artistic, and scientific creativity. Our review suggests that while the latest AI models are largely capable of producing linguistically and artistically creative outputs such as poems, images, and musical pieces, they struggle with tasks that require creative problem-solving, abstract thinking and compositionality and their generations suffer from a lack of diversity, originality, long-range incoherence and hallucinations. We also discuss key questions concerning copyright and authorship issues with generative models. Furthermore, we highlight the need for a comprehensive evaluation of creativity that is process-driven and considers several dimensions of creativity. Finally, we propose future research directions to improve the creativity of AI outputs, drawing inspiration from cognitive science and psychology.

arxiv情報

著者 Mete Ismayilzada,Debjit Paul,Antoine Bosselut,Lonneke van der Plas
発行日 2024-10-22 17:43:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Creativity in AI: Progresses and Challenges はコメントを受け付けていません

The Persian Rug: solving toy models of superposition using large-scale symmetries

要約

大きな入力次元の制限内で最小の非線形スパース データ オートエンコーダによって学習されるアルゴリズムの完全なメカニズムの説明を示します。
このモデルは、もともと arXiv:2209.10652 で提示されたもので、線形層を通じてスパース データ ベクトルを圧縮し、別の線形層を使用して解凍し、続いて ReLU アクティベーションを実行します。
データが順列対称である (入力特徴に特権がない) 場合、大規模モデルは大規模な統計を通じてのみ、個々の重みに敏感なアルゴリズムを確実に学習することがわかります。
これらのモデルの場合、損失関数は解析的に扱いやすくなります。
この理解を使用して、高いスパース性での損失の明示的なスケーリングを与え、このモデルが最近提案されたアーキテクチャの中で最適に近いことを示します。
特に、要素ごとの操作またはフィルタリング操作を活性化関数に変更または追加すると、モデルのパフォーマンスはせいぜい一定の係数で向上します。
最後に、必要な対称性を備えたモデルをフォワード エンジニアリングし、その損失がトレーニング済みモデルの損失と正確に一致することを示します。
トレーニングされたモデルの重みとは異なり、人工重みのランダム性が低いため、ペルシャ絨毯に似た奇跡的なフラクタル構造が生成されますが、アルゴリズムはそれを認識しません。
私たちの研究は、オートエンコーダーの構造を理解するための技術を導入することにより、ニューラル ネットワークの解釈可能性に貢献しています。
結果を再現するコードは https://github.com/KfirD/PersianRug にあります。

要約(オリジナル)

We present a complete mechanistic description of the algorithm learned by a minimal non-linear sparse data autoencoder in the limit of large input dimension. The model, originally presented in arXiv:2209.10652, compresses sparse data vectors through a linear layer and decompresses using another linear layer followed by a ReLU activation. We notice that when the data is permutation symmetric (no input feature is privileged) large models reliably learn an algorithm that is sensitive to individual weights only through their large-scale statistics. For these models, the loss function becomes analytically tractable. Using this understanding, we give the explicit scalings of the loss at high sparsity, and show that the model is near-optimal among recently proposed architectures. In particular, changing or adding to the activation function any elementwise or filtering operation can at best improve the model’s performance by a constant factor. Finally, we forward-engineer a model with the requisite symmetries and show that its loss precisely matches that of the trained models. Unlike the trained model weights, the low randomness in the artificial weights results in miraculous fractal structures resembling a Persian rug, to which the algorithm is oblivious. Our work contributes to neural network interpretability by introducing techniques for understanding the structure of autoencoders. Code to reproduce our results can be found at https://github.com/KfirD/PersianRug .

arxiv情報

著者 Aditya Cowsik,Kfir Dolev,Alex Infanger
発行日 2024-10-22 17:48:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.dis-nn, cs.AI, cs.LG | The Persian Rug: solving toy models of superposition using large-scale symmetries はコメントを受け付けていません

BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval

要約

既存の検索ベンチマークは主に情報を求めるクエリ (検索エンジンからの集約された質問など) で構成されており、通常はキーワードまたはセマンティックベースの検索で十分です。
ただし、実際の複雑なクエリの多くは、表面的な形式の一致を超えて、関連するドキュメントを特定するための詳細な推論を必要とします。
たとえば、コーディングに関する質問のドキュメントを見つけるには、関連する関数のロジックと構文を理解する必要があります。
このような困難なクエリに対するベンチマーク検索を改善するために、関連するドキュメントを取得するために集中的な推論を必要とする初のテキスト検索ベンチマークである BRIGHT を導入します。
私たちのデータセットは、経済学、心理学、数学、コーディングなどのさまざまな領域にわたる 1,384 の実世界のクエリで構成されています。
これらのクエリは、自然に発生し、慎重に厳選された人間のデータから抽出されます。
広範な評価により、最先端の検索モデルでさえ BRIGHT ではパフォーマンスが低いことが明らかになりました。
MTEB リーダーボードの主要モデル (Muennighoff et al., 2023) は、59.0 nDCG@10 のスコアを達成しており、BRIGHT では 18.3 の nDCG@10 スコアを生成します。
クエリに関する明示的な推論を組み込むと、検索パフォーマンスが最大 12.2 ポイント向上することがわかります。
さらに、トップパフォーマンスの取得者から取得したドキュメントを組み込むと、質問応答パフォーマンスが 6.6 ポイント以上向上します。
私たちは、BRIGHT がより現実的で挑戦的な設定における検索システムの将来の研究への道を開くと信じています。

要約(オリジナル)

Existing retrieval benchmarks primarily consist of information-seeking queries (e.g., aggregated questions from search engines) where keyword or semantic-based retrieval is usually sufficient. However, many complex real-world queries require in-depth reasoning to identify relevant documents that go beyond surface form matching. For example, finding documentation for a coding question requires understanding the logic and syntax of the functions involved. To better benchmark retrieval on such challenging queries, we introduce BRIGHT, the first text retrieval benchmark that requires intensive reasoning to retrieve relevant documents. Our dataset consists of 1,384 real-world queries spanning diverse domains, such as economics, psychology, mathematics, and coding. These queries are drawn from naturally occurring and carefully curated human data. Extensive evaluation reveals that even state-of-the-art retrieval models perform poorly on BRIGHT. The leading model on the MTEB leaderboard (Muennighoff et al., 2023), which achieves a score of 59.0 nDCG@10, produces a score of nDCG@10 of 18.3 on BRIGHT. We show that incorporating explicit reasoning about the query improves retrieval performance by up to 12.2 points. Moreover, incorporating retrieved documents from the top-performing retriever boosts question-answering performance by over 6.6 points. We believe that BRIGHT paves the way for future research on retrieval systems in more realistic and challenging settings.

arxiv情報

著者 Hongjin Su,Howard Yen,Mengzhou Xia,Weijia Shi,Niklas Muennighoff,Han-yu Wang,Haisu Liu,Quan Shi,Zachary S. Siegel,Michael Tang,Ruoxi Sun,Jinsung Yoon,Sercan O. Arik,Danqi Chen,Tao Yu
発行日 2024-10-22 17:49:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR | BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval はコメントを受け付けていません

Responsibility in a Multi-Value Strategic Setting

要約

責任は、マルチエージェント システムや、安全で信頼性が高く倫理的な AI を作成する際の重要な概念です。
しかし、責任に関するこれまでの研究のほとんどは、単一の結果に対する責任のみを考慮していました。
この論文では、複数のエージェント、複数の値の設定における責任帰属のモデルを紹介します。
また、責任の予測をカバーするようにモデルを拡張し、責任を考慮することがエージェントがその価値観に沿った戦略を選択するのにどのように役立つかを示します。
特に、非支配的な後悔最小化戦略が、エージェントの予想される責任の程度を確実に最小化することを示します。

要約(オリジナル)

Responsibility is a key notion in multi-agent systems and in creating safe, reliable and ethical AI. However, most previous work on responsibility has only considered responsibility for single outcomes. In this paper we present a model for responsibility attribution in a multi-agent, multi-value setting. We also expand our model to cover responsibility anticipation, demonstrating how considerations of responsibility can help an agent to select strategies that are in line with its values. In particular we show that non-dominated regret-minimising strategies reliably minimise an agent’s expected degree of responsibility.

arxiv情報

著者 Timothy Parker,Umberto Grandi,Emiliano Lorini
発行日 2024-10-22 17:51:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Responsibility in a Multi-Value Strategic Setting はコメントを受け付けていません

Few-shot In-Context Preference Learning Using Large Language Models

要約

報酬関数の設計は強化学習の中核コンポーネントですが、本当に複雑な動作の場合は困難な場合があります。
ヒューマン フィードバックからの強化学習 (RLHF) は、手動でコード化された報酬関数を好みから学習した報酬関数に置き換えることで、この課題を軽減するために使用されています。
ただし、これらの報酬はタブララサで学習されることが多いため、学習するのは非常に非効率的である可能性があります。
私たちは、大規模言語モデル (LLM) が人間の一連の反復的な好みを報酬を表すコードに変換することによって、このクエリの非効率性を削減できるかどうかを調査します。
我々は、LLM の基礎を使用して好みから報酬関数の学習を加速する方法である、コンテキスト内好み学習 (ICPL) を提案します。
ICPL は環境コンテキストとタスクの説明を取得し、一連の報酬関数を合成し、結果として得られるポリシーのビデオに対する人間によるランキングを使用して報酬関数を繰り返し更新します。
合成選好を使用して、ICPL が RLHF よりも桁違いに効率的であり、選好の代わりにグラウンドトゥルースの報酬関数を使用する方法とさえ競合できることを示します。
最後に、一連の人間の好みの学習トライアルを実行し、ICPL が合成設定を超えて拡張され、人間との対話で効果的に機能できることを観察しました。
追加情報とビデオは、https://sites.google.com/view/few-shot-icpl/home で提供されます。

要約(オリジナル)

Designing reward functions is a core component of reinforcement learning but can be challenging for truly complex behavior. Reinforcement Learning from Human Feedback (RLHF) has been used to alleviate this challenge by replacing a hand-coded reward function with a reward function learned from preferences. However, it can be exceedingly inefficient to learn these rewards as they are often learned tabula rasa. We investigate whether Large Language Models (LLMs) can reduce this query inefficiency by converting an iterative series of human preferences into code representing the rewards. We propose In-Context Preference Learning (ICPL), a method that uses the grounding of an LLM to accelerate learning reward functions from preferences. ICPL takes the environment context and task description, synthesizes a set of reward functions, and then repeatedly updates the reward functions using human rankings of videos of the resultant policies. Using synthetic preferences, we demonstrate that ICPL is orders of magnitude more efficient than RLHF and is even competitive with methods that use ground-truth reward functions instead of preferences. Finally, we perform a series of human preference-learning trials and observe that ICPL extends beyond synthetic settings and can work effectively with humans-in-the-loop. Additional information and videos are provided at https://sites.google.com/view/few-shot-icpl/home.

arxiv情報

著者 Chao Yu,Hong Lu,Jiaxuan Gao,Qixin Tan,Xinting Yang,Yu Wang,Yi Wu,Eugene Vinitsky
発行日 2024-10-22 17:53:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Few-shot In-Context Preference Learning Using Large Language Models はコメントを受け付けていません

Large Language Models Empowered Personalized Web Agents

要約

Web エージェントは、ユーザーの指示に基づいて Web タスクの完了を自動化し、ユーザー エクスペリエンスを大幅に向上させる有望な方向性として浮上しています。
最近、Web エージェントは従来のエージェントから大規模言語モデル (LLM) ベースの Web エージェントに進化しました。
既存の LLM ベースの Web エージェントは、成功にもかかわらず、ユーザーの個人化された指示の理解を支援し、カスタマイズされたアクションを実行する際の個人化されたデータ (ユーザー プロファイルや履歴 Web 行動など) の重要性を見落としています。
この制限を克服するために、まず、LLM を活用したパーソナライズされた Web エージェントのタスクを定式化します。このエージェントは、パーソナライズされたデータとユーザー指示を統合して、指示の理解とアクションの実行をパーソナライズします。
包括的な評価ベンチマークの欠如に対処するために、ユーザー指示、パーソナライズされたユーザー データ、Web 機能、および 3 つのパーソナライズされた Web タスクにわたる 2 つの評価パラダイムを特徴とするパーソナライズされた Web エージェント ベンチマーク (PersonalWAB) を構築します。
さらに、LLM をパーソナライズされた Web エージェントのタスクに適応させるための Personalized User Memory-enhanced Alignment (PUMA) フレームワークを提案します。
PUMA は、タスク固有の取得戦略を備えたメモリ バンクを利用して、関連する過去の Web 動作をフィルタリングします。
次に、PUMA は、行動に基づいて、微調整と直接的な設定の最適化を通じて、パーソナライズされたアクションを実行できるように LLM を調整します。
広範な実験により、PersonalWAB 上の既存の Web エージェントに対する PUMA の優位性が検証されています。

要約(オリジナル)

Web agents have emerged as a promising direction to automate Web task completion based on user instructions, significantly enhancing user experience. Recently, Web agents have evolved from traditional agents to Large Language Models (LLMs)-based Web agents. Despite their success, existing LLM-based Web agents overlook the importance of personalized data (e.g., user profiles and historical Web behaviors) in assisting the understanding of users’ personalized instructions and executing customized actions. To overcome the limitation, we first formulate the task of LLM-empowered personalized Web agents, which integrate personalized data and user instructions to personalize instruction comprehension and action execution. To address the absence of a comprehensive evaluation benchmark, we construct a Personalized Web Agent Benchmark (PersonalWAB), featuring user instructions, personalized user data, Web functions, and two evaluation paradigms across three personalized Web tasks. Moreover, we propose a Personalized User Memory-enhanced Alignment (PUMA) framework to adapt LLMs to the personalized Web agent task. PUMA utilizes a memory bank with a task-specific retrieval strategy to filter relevant historical Web behaviors. Based on the behaviors, PUMA then aligns LLMs for personalized action execution through fine-tuning and direct preference optimization. Extensive experiments validate the superiority of PUMA over existing Web agents on PersonalWAB.

arxiv情報

著者 Hongru Cai,Yongqi Li,Wenjie Wang,Fengbin Zhu,Xiaoyu Shen,Wenjie Li,Tat-Seng Chua
発行日 2024-10-22 17:54:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR | Large Language Models Empowered Personalized Web Agents はコメントを受け付けていません

SELA: Tree-Search Enhanced LLM Agents for Automated Machine Learning

要約

自動機械学習 (AutoML) のアプローチには、モデルの選択とアンサンブルのために固定パイプラインを最適化する従来の手法に加え、パイプラインを自律的に構築する新しい LLM ベースのフレームワークが含まれます。
LLM ベースのエージェントは機械学習タスクの自動化に有望ですが、複数の反復を行った後でも、多様性が低く、次善のコードを生成することがよくあります。
これらの制限を克服するために、Monte Carlo Tree Search (MCTS) を活用して AutoML プロセスを最適化する革新的なエージェント ベースのシステムである Tree-Search Enhanced LLM Agents (SELA) を導入します。
パイプライン構成をツリーとして表すことで、当社のフレームワークを使用すると、エージェントは実験をインテリジェントに実施し、戦略を反復的に洗練させることができ、機械学習ソリューション空間のより効果的な探索が容易になります。
この新しいアプローチにより、SELA は実験的なフィードバックに基づいて最適な経路を発見し、ソリューションの全体的な品質を向上させることができます。
20 の機械学習データセットにわたる広範な評価で、従来の AutoML 手法とエージェントベースの AutoML 手法のパフォーマンスを比較し、SELA がすべてのデータセットの各ベースラインに対して 65% ~ 80% の勝率を達成していることを実証しました。
これらの結果は、AutoML におけるエージェントベースの戦略の大きな可能性を強調し、複雑な機械学習の課題に取り組む上で新たな視点を提供します。

要約(オリジナル)

Automated Machine Learning (AutoML) approaches encompass traditional methods that optimize fixed pipelines for model selection and ensembling, as well as newer LLM-based frameworks that autonomously build pipelines. While LLM-based agents have shown promise in automating machine learning tasks, they often generate low-diversity and suboptimal code, even after multiple iterations. To overcome these limitations, we introduce Tree-Search Enhanced LLM Agents (SELA), an innovative agent-based system that leverages Monte Carlo Tree Search (MCTS) to optimize the AutoML process. By representing pipeline configurations as trees, our framework enables agents to conduct experiments intelligently and iteratively refine their strategies, facilitating a more effective exploration of the machine learning solution space. This novel approach allows SELA to discover optimal pathways based on experimental feedback, improving the overall quality of the solutions. In an extensive evaluation across 20 machine learning datasets, we compare the performance of traditional and agent-based AutoML methods, demonstrating that SELA achieves a win rate of 65% to 80% against each baseline across all datasets. These results underscore the significant potential of agent-based strategies in AutoML, offering a fresh perspective on tackling complex machine learning challenges.

arxiv情報

著者 Yizhou Chi,Yizhang Lin,Sirui Hong,Duyi Pan,Yaying Fei,Guanghao Mei,Bangbang Liu,Tianqi Pang,Jacky Kwok,Ceyao Zhang,Bang Liu,Chenglin Wu
発行日 2024-10-22 17:56:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SE | SELA: Tree-Search Enhanced LLM Agents for Automated Machine Learning はコメントを受け付けていません