LEAD: Large Foundation Model for EEG-Based Alzheimer’s Disease Detection

要約

脳波(EEG)は、アルツハイマー病(AD)検出に対して、非侵襲的で非常にアクセスしやすく、費用対効果の高いソリューションを提供します。
ただし、既存の方法は、手動機能の抽出であろうと深い学習に基づいていても、2つの主要な課題に直面しています。これは、堅牢な機能学習と評価のための大規模なデータセットの欠如と、被験者間の変動による検出パフォーマンスの低下です。
これらの課題に対処するために、813人の被験者を含むEEG-ADコーパスをキュレートします。
この一意のデータセットを使用して、EEGベースの広告検出の最初の大きな基礎モデルであるLeadを提案します。
私たちの方法には、データの選択や前処理から、自己監視の対照的な前提、微調整、および主題に依存しない評価、主題レベルの検出の多数票などの主要なセットアップまで、パイプライン全体が含まれます。
11のEEGデータセットでモデルを事前にトレーニングし、5つの広告データセットで微調整しました。
私たちの自己監督の事前トレーニングデザインには、有用な一般的なEEG機能を抽出するためのサンプルレベルと主題レベルの対照が含まれています。
微調整は、5つのチャネルに配置されたデータセットで一緒に実行されます。
バックボーンエンコーダーには、時間的およびチャネル埋め込みが組み込まれており、時間的および空間的寸法の両方にわたって機能をキャプチャします。
私たちの方法は、優れた広告検出パフォーマンスを示しており、最先端の方法と比較して、サンプルレベルでF1スコアが最大9.86%増加し、主題レベルで最大9.31%増加します。
私たちのモデルの結果は、被験者間変動に対処するための対照的なプリトレーニングおよびチャネル整列の統一された微調整の有効性を強く確認しています。
ソースコードはhttps://github.com/dl4mhealth/leadにあります。

要約(オリジナル)

Electroencephalogram (EEG) provides a non-invasive, highly accessible, and cost-effective solution for Alzheimer’s Disease (AD) detection. However, existing methods, whether based on manual feature extraction or deep learning, face two major challenges: the lack of large-scale datasets for robust feature learning and evaluation, and poor detection performance due to inter-subject variations. To address these challenges, we curate an EEG-AD corpus containing 813 subjects, which forms the world’s largest EEG-AD dataset to the best of our knowledge. Using this unique dataset, we propose LEAD, the first large foundation model for EEG-based AD detection. Our method encompasses an entire pipeline, from data selection and preprocessing to self-supervised contrastive pretraining, fine-tuning, and key setups such as subject-independent evaluation and majority voting for subject-level detection. We pre-train the model on 11 EEG datasets and unified fine-tune it on 5 AD datasets. Our self-supervised pre-training design includes sample-level and subject-level contrasting to extract useful general EEG features. Fine-tuning is performed on 5 channel-aligned datasets together. The backbone encoder incorporates temporal and channel embeddings to capture features across both temporal and spatial dimensions. Our method demonstrates outstanding AD detection performance, achieving up to a 9.86% increase in F1 score at the sample-level and up to a 9.31% at the subject-level compared to state-of-the-art methods. The results of our model strongly confirm the effectiveness of contrastive pre-training and channel-aligned unified fine-tuning for addressing inter-subject variation. The source code is at https://github.com/DL4mHealth/LEAD.

arxiv情報

著者 Yihe Wang,Nan Huang,Nadia Mammone,Marco Cecchi,Xiang Zhang
発行日 2025-02-10 17:11:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CE, cs.LG, eess.SP | LEAD: Large Foundation Model for EEG-Based Alzheimer’s Disease Detection はコメントを受け付けていません

EquiTabPFN: A Target-Permutation Equivariant Prior Fitted Networks

要約

TABPFNなどの表形式データの最近の基礎モデルは、コンテキスト学習を通じて新しいタスクに適応する際の顕著な有効性を実証しています。
ただし、これらのモデルは重要な等寛容の特性を見落としています。ターゲット寸法の任意の順序付けは、モデルの予測に影響を与えてはなりません。
この研究では、この監視は、予測に不安定性をもたらす等変容ギャップと呼ばれる非圧縮エラーの原因として特定します。
これらの問題を緩和するために、出力寸法全体に等量を維持するように設計された新しいモデルを提案します。
実験結果は、提案されたモデルがこれらの落とし穴に効果的に対処するだけでなく、競争力のあるベンチマークパフォーマンスを達成することを示しています。

要約(オリジナル)

Recent foundational models for tabular data, such as TabPFN, have demonstrated remarkable effectiveness in adapting to new tasks through in-context learning. However, these models overlook a crucial equivariance property: the arbitrary ordering of target dimensions should not influence model predictions. In this study, we identify this oversight as a source of incompressible error, termed the equivariance gap, which introduces instability in predictions. To mitigate these issues, we propose a novel model designed to preserve equivariance across output dimensions. Our experimental results indicate that our proposed model not only addresses these pitfalls effectively but also achieves competitive benchmark performance.

arxiv情報

著者 Michael Arbel,David Salinas,Frank Hutter
発行日 2025-02-10 17:11:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | EquiTabPFN: A Target-Permutation Equivariant Prior Fitted Networks はコメントを受け付けていません

CoverUp: Coverage-Guided LLM-Based Test Generation

要約

テストはソフトウェア開発の重要な部分です。
テスト生成ツールは、テスト作成の労働集約的なタスクを自動化しようとしますが、高カバーテストの生成は依然として困難です。
このペーパーでは、高カバーのPython回帰テストの生成を促進するための新しいアプローチである隠蔽を提案します。
カバーアップは、カバレッジ分析、コードコンテキスト、およびフィードバックを、LLMを繰り返しガイドして、ラインと分岐のカバレッジを改善するテストを生成するプロンプトのプロンプトの組み合わせです。
オープンソースのPythonプロジェクトから派生した挑戦的なコードのベンチマーク全体で、プロトタイプの隠蔽実装を評価し、カバーアップが最新のものを大幅に改善することを示しています。
ハイブリッド検索/LLMベースのテストジェネレーターであるCodamosaと比較して、カバーアップは、モジュールあたりの中央値ライン+80%(47%)の分岐カバレッジを達成します。
MUTAPとLLMベースのテストジェネレーターであるMutapと比較して、カバーアップは90%の全体的なライン+ブランチカバレッジを達成します(77%)。
また、カバーアップのパフォーマンスは、使用されたLLMだけでなく、コンポーネントの有効性を組み合わせたものに由来することも示しています。

要約(オリジナル)

Testing is an essential part of software development. Test generation tools attempt to automate the otherwise labor-intensive task of test creation, but generating high-coverage tests remains challenging. This paper proposes CoverUp, a novel approach to driving the generation of high-coverage Python regression tests. CoverUp combines coverage analysis, code context, and feedback in prompts that iteratively guide the LLM to generate tests that improve line and branch coverage. We evaluate our prototype CoverUp implementation across a benchmark of challenging code derived from open-source Python projects and show that CoverUp substantially improves on the state of the art. Compared to CodaMosa, a hybrid search/LLM-based test generator, CoverUp achieves a per-module median line+branch coverage of 80% (vs. 47%). Compared to MuTAP, a mutation- and LLM-based test generator, CoverUp achieves an overall line+branch coverage of 90% (vs. 77%). We also demonstrate that CoverUp’s performance stems not only from the LLM used but from the combined effectiveness of its components.

arxiv情報

著者 Juan Altmayer Pizzorno,Emery D. Berger
発行日 2025-02-10 17:15:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.PL, cs.SE | CoverUp: Coverage-Guided LLM-Based Test Generation はコメントを受け付けていません

Multi-label Scandinavian Language Identification (SLIDE)

要約

文レベルで密接に関連する言語を識別することは困難です。特に、文を単一の言語に割り当てることは不可能であることが多いためです。
この論文では、デンマーク語、ノルウェーのボクム\ r {a} l、ノルウェー・ニノルスク、およびスウェーデン語のマルチラベル文レベルのスカンジナビア語識別(蓋)に焦点を当てています。
スカンジナビアの言語の識別と評価、スライド、手動でキュレーションされたマルチラベル評価データセット、速度accuuracyのトレードオフが異なる蓋のスイートを提示します。
複数の言語を同時に識別する能力が正確な蓋法に必要であることを実証し、そのようなマルチラベル蓋モデルをトレーニングするための新しいアプローチを提示することを実証します。

要約(オリジナル)

Identifying closely related languages at sentence level is difficult, in particular because it is often impossible to assign a sentence to a single language. In this paper, we focus on multi-label sentence-level Scandinavian language identification (LID) for Danish, Norwegian Bokm\r{a}l, Norwegian Nynorsk, and Swedish. We present the Scandinavian Language Identification and Evaluation, SLIDE, a manually curated multi-label evaluation dataset and a suite of LID models with varying speed-accuracy tradeoffs. We demonstrate that the ability to identify multiple languages simultaneously is necessary for any accurate LID method, and present a novel approach to training such multi-label LID models.

arxiv情報

著者 Mariia Fedorova,Jonas Sebulon Frydenberg,Victoria Handford,Victoria Ovedie Chruickshank Langø,Solveig Helene Willoch,Marthe Løken Midtgaard,Yves Scherrer,Petter Mæhlum,David Samuel
発行日 2025-02-10 17:16:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Multi-label Scandinavian Language Identification (SLIDE) はコメントを受け付けていません

Recent Advances, Applications and Open Challenges in Machine Learning for Health: Reflections from Research Roundtables at ML4H 2024 Symposium

要約

カナダ、ブリティッシュコロンビア、ブリティッシュコロンビア、ブリティッシュコロンビアのムスケアム、スレイル、ツレイユワートス諸国の伝統的、祖先、およびテレイルヴォートゥス諸国の伝統的、祖先、および未知の領土で、2024年12月15日と16日に、健康のための4番目の機械学習(ML4H)シンポジウムが直接開催されました。
シンポジウムには、ML4Hコミュニティのタイムリーで関連するトピックに関する参加者と上級研究者の間の議論を促進するための研究ラウンドテーブルセッションが含まれていました。
会議の研究円卓会議の組織には、13のテーブルにわたる13のシニアおよび27のジュニアチェアが含まれていました。
各ラウンドテーブルセッションには、招待されたシニアチェア(フィールドでの実質的な経験)、ジュニアチェア(ディスカッションの促進を担当)、およびセッションのトピックに興味を持つ多様なバックグラウンドの参加者が含まれていました。

要約(オリジナル)

The fourth Machine Learning for Health (ML4H) symposium was held in person on December 15th and 16th, 2024, in the traditional, ancestral, and unceded territories of the Musqueam, Squamish, and Tsleil-Waututh Nations in Vancouver, British Columbia, Canada. The symposium included research roundtable sessions to foster discussions between participants and senior researchers on timely and relevant topics for the ML4H community. The organization of the research roundtables at the conference involved 13 senior and 27 junior chairs across 13 tables. Each roundtable session included an invited senior chair (with substantial experience in the field), junior chairs (responsible for facilitating the discussion), and attendees from diverse backgrounds with an interest in the session’s topic.

arxiv情報

著者 Amin Adibi,Xu Cao,Zongliang Ji,Jivat Neet Kaur,Winston Chen,Elizabeth Healey,Brighton Nuwagira,Wenqian Ye,Geoffrey Woollard,Maxwell A Xu,Hejie Cui,Johnny Xi,Trenton Chang,Vasiliki Bikia,Nicole Zhang,Ayush Noori,Yuan Xia,Md. Belal Hossain,Hanna A. Frank,Alina Peluso,Yuan Pu,Shannon Zejiang Shen,John Wu,Adibvafa Fallahpour,Sazan Mahbub,Ross Duncan,Yuwei Zhang,Yurui Cao,Zuheng Xu,Michael Craig,Rahul G. Krishnan,Rahmatollah Beheshti,James M. Rehg,Mohammad Ehsanul Karim,Megan Coffee,Leo Anthony Celi,Jason Alan Fries,Mohsen Sadatsafavi,Dennis Shung,Shannon McWeeney,Jessica Dafflon,Sarah Jabbour
発行日 2025-02-10 17:17:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY, cs.LG | Recent Advances, Applications and Open Challenges in Machine Learning for Health: Reflections from Research Roundtables at ML4H 2024 Symposium はコメントを受け付けていません

Exploring Audio Editing Features as User-Centric Privacy Defenses Against Large Language Model(LLM) Based Emotion Inference Attacks

要約

仮想アシスタント、ビデオ会議プラットフォーム、ウェアラブルデバイスなどの音声対応技術の急速な増殖は、特にオーディオデータからの敏感な感情情報の推論に関して、大きなプライバシーの懸念を提起しました。
既存のプライバシーを提供する方法は、しばしば使いやすさとセキュリティを妥協し、実際のシナリオでの採用を制限します。
このペーパーでは、使いやすさを犠牲にすることなく感情的なプライバシーを保護するために、おなじみのオーディオ編集技術、特にピッチとテンポの操作を活用する、ユーザー中心の新しいアプローチを紹介します。
AndroidプラットフォームとiOSプラットフォームで人気のあるオーディオ編集アプリケーションを分析することにより、これらの機能が広く利用可能で使用可能であると特定しました。
ディープニューラルネットワーク(DNNS)、大規模な言語モデル(LLM)、および可逆性テストなど、多様なソースからの敵対的攻撃を考慮して、脅威モデルに対する有効性を厳密に評価しました。
3つの異なるデータセットで実施された実験は、ピッチとテンポの操作が感情データを効果的に難読化することを示しています。
さらに、さまざまなデバイスやプラットフォームにわたる幅広い適用性を確保するために、軽量でデバイス上の実装の設計原則を探ります。

要約(オリジナル)

The rapid proliferation of speech-enabled technologies, including virtual assistants, video conferencing platforms, and wearable devices, has raised significant privacy concerns, particularly regarding the inference of sensitive emotional information from audio data. Existing privacy-preserving methods often compromise usability and security, limiting their adoption in practical scenarios. This paper introduces a novel, user-centric approach that leverages familiar audio editing techniques, specifically pitch and tempo manipulation, to protect emotional privacy without sacrificing usability. By analyzing popular audio editing applications on Android and iOS platforms, we identified these features as both widely available and usable. We rigorously evaluated their effectiveness against a threat model, considering adversarial attacks from diverse sources, including Deep Neural Networks (DNNs), Large Language Models (LLMs), and and reversibility testing. Our experiments, conducted on three distinct datasets, demonstrate that pitch and tempo manipulation effectively obfuscates emotional data. Additionally, we explore the design principles for lightweight, on-device implementation to ensure broad applicability across various devices and platforms.

arxiv情報

著者 Mohd. Farhan Israk Soumik,W. K. M. Mithsara,Abdur R. Shahid,Ahmed Imteaj
発行日 2025-02-10 17:27:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.LG, cs.SD, eess.AS | Exploring Audio Editing Features as User-Centric Privacy Defenses Against Large Language Model(LLM) Based Emotion Inference Attacks はコメントを受け付けていません

Application of Artificial Intelligence (AI) in Civil Engineering

要約

ハードコンピューティングは一般に、問題の理想的な解決策を提供する正確なデータを扱います。
ただし、土木工学の分野では、他の分野の中でも、実際のシステムが継続的に変化しているため、必ずしもそうではありません。
ここに、土木工学の欠点を解決するために、ソフトコンピューティング方法と人工知能を探求する必要性があります。
人工ニューラルネットワーク(ANNS)、ファジーロジック、遺伝的アルゴリズム(ガス)、および確率的推論を含む高度な計算モデルの統合が、土木工学の領域に革命をもたらしました。
これらのモデルは、革新的なソリューションと改善された分析機能を提供することにより、多様なサブフィールドを大幅に進めています。
勾配安定性分析、ベアリング容量、水質と処理、輸送システム、大気質、構造材料などのサブフィールド。ANNSは非線形性を予測し、正確な推定値を提供します。
ファジーロジックは、効率的な意思決定プロセスを使用して、システムのより正確な評価を提供します。
最後に、ガスはモデルを最適化して(進化プロセスに基づいて)、より良い結果を得るために、確率的推論は統計的不確実性を低下させます。

要約(オリジナル)

Hard computing generally deals with precise data, which provides ideal solutions to problems. However, in the civil engineering field, amongst other disciplines, that is not always the case as real-world systems are continuously changing. Here lies the need to explore soft computing methods and artificial intelligence to solve civil engineering shortcomings. The integration of advanced computational models, including Artificial Neural Networks (ANNs), Fuzzy Logic, Genetic Algorithms (GAs), and Probabilistic Reasoning, has revolutionized the domain of civil engineering. These models have significantly advanced diverse sub-fields by offering innovative solutions and improved analysis capabilities. Sub-fields such as: slope stability analysis, bearing capacity, water quality and treatment, transportation systems, air quality, structural materials, etc. ANNs predict non-linearities and provide accurate estimates. Fuzzy logic uses an efficient decision-making process to provide a more precise assessment of systems. Lastly, while GAs optimizes models (based on evolutionary processes) for better outcomes, probabilistic reasoning lowers their statistical uncertainties.

arxiv情報

著者 Temitope Funmilayo Awolusi,Bernard Chukwuemeka Finbarrs-Ezema,Isaac Munachimdinamma Chukwudulue,Marc Azab
発行日 2025-02-10 17:55:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Application of Artificial Intelligence (AI) in Civil Engineering はコメントを受け付けていません

FlexDeMo: Decoupled Momentum Optimization for Fully and Hybrid Sharded Training

要約

大規模なニューラルネットワークモデルのトレーニングには、多くの場合、いくつかのノードとアクセラレータに分布する広範な計算リソースが必要です。
最近の発見は、勾配の速い移動コンポーネントのみを交換し、局所的に勢いを蓄積するのに十分である可能性があることを示唆しています(分離された運動量、またはデモ)。
ただし、単一の加速に適合しないより大きなモデルを考慮する場合、勾配情報の交換とデモの統合を再考する必要があります。
ここでは、ハイブリッド戦略であるFlexDemoを採用することを提案します。これにより、ノードは異なるGPUとノード間通信の間で局所的に完全に同期し、急速に変動するコンポーネントのみを使用して改善されます。
これは、以前のハイブリッドシャーディング戦略と分離した勢いの利点を効果的に組み合わせています。
実験結果は、FlexDemoが検証損失の観点からADAMWと同等であり、その生存率を示していることを示しています。

要約(オリジナル)

Training large neural network models requires extensive computational resources, often distributed across several nodes and accelerators. Recent findings suggest that it may be sufficient to only exchange the fast moving components of the gradients, while accumulating momentum locally (Decoupled Momentum, or DeMo). However, when considering larger models that do not fit on a single accelerate, the exchange of gradient information and the integration of DeMo needs to be reconsidered. Here, we propose employing a hybrid strategy, FlexDeMo, whereby nodes fully synchronize locally between different GPUs and inter-node communication is improved through only using the fast-moving components. This effectively combines previous hybrid sharding strategies with the advantages of decoupled momentum. Our experimental results show that FlexDeMo is on par with AdamW in terms of validation loss, demonstrating its viability.

arxiv情報

著者 Mogens Henrik From,Jacob Nielsen,Lukas Galke,Peter Schneider-Kamp
発行日 2025-02-10 17:55:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | FlexDeMo: Decoupled Momentum Optimization for Fully and Hybrid Sharded Training はコメントを受け付けていません

Dynamic Loss-Based Sample Reweighting for Improved Large Language Model Pretraining

要約

広大で不均一なデータセットの大規模な言語モデル(LLMS)を事前に除去することは、多様なダウンストリームタスク全体で最先端のパフォーマンスを達成するために重要です。
ただし、現在のトレーニングパラダイムは、すべてのサンプルを等しく扱い、トレーニングプロセス全体の個々のサンプルの重要性または関連性を見落としています。
主にグループレベルのデータの重要性に焦点を当てた既存の再雑誌戦略は、微調整されたインスタンスレベルの情報を活用できず、トレーニングが進むにつれて個々のサンプルの重要性に動的に適応しません。
このホワイトペーパーでは、LLM事前トレーニングの効率と有効性の両方を改善することを目的とした、動的なインスタンスレベルのデータの再譲歩のための新しいアルゴリズムを紹介します。
当社の方法は、オンラインファッションでの損失値に基づいて各トレーニングサンプルの重量を調整し、モデルが現在のトレーニング段階でより有益なまたは重要なサンプルに動的に集中できるようにします。
特に、当社のフレームワークにより、冗長または情報のないデータを剥奪することを具体的に考案することができます。これは、最適に機能する傾向があります。
さらに、勾配ベースの最適化の収束に対する損失ベースのリワイティングの影響を分析するための新しい理論的枠組みを開発し、これらの戦略が収束境界にどのように影響するかの最初の正式な特性評価を提供します。
7Bおよび1.4BパラメーターLLMSから小規模な言語モデルや線形回帰問題まで、さまざまなタスクにわたるアプローチを経験的に検証し、損失ベースの再重み付けアプローチが収束をより高速に改善し、パフォーマンスを大幅に改善できることを示しています。

要約(オリジナル)

Pretraining large language models (LLMs) on vast and heterogeneous datasets is crucial for achieving state-of-the-art performance across diverse downstream tasks. However, current training paradigms treat all samples equally, overlooking the importance or relevance of individual samples throughout the training process. Existing reweighting strategies, which primarily focus on group-level data importance, fail to leverage fine-grained instance-level information and do not adapt dynamically to individual sample importance as training progresses. In this paper, we introduce novel algorithms for dynamic, instance-level data reweighting aimed at improving both the efficiency and effectiveness of LLM pretraining. Our methods adjust the weight of each training sample based on its loss value in an online fashion, allowing the model to dynamically focus on more informative or important samples at the current training stage. In particular, our framework allows us to systematically devise reweighting strategies deprioritizing redundant or uninformative data, which we find tend to work best. Furthermore, we develop a new theoretical framework for analyzing the impact of loss-based reweighting on the convergence of gradient-based optimization, providing the first formal characterization of how these strategies affect convergence bounds. We empirically validate our approach across a spectrum of tasks, from pretraining 7B and 1.4B parameter LLMs to smaller-scale language models and linear regression problems, demonstrating that our loss-based reweighting approach can lead to faster convergence and significantly improved performance.

arxiv情報

著者 Daouda Sow,Herbert Woisetschläger,Saikiran Bulusu,Shiqiang Wang,Hans-Arno Jacobsen,Yingbin Liang
発行日 2025-02-10 17:57:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Dynamic Loss-Based Sample Reweighting for Improved Large Language Model Pretraining はコメントを受け付けていません

Regularized Q-Learning with Linear Function Approximation

要約

正則化されたマルコフの決定プロセスは、意思決定者が曖昧さをモデル化するための情報処理能力および/または嫌悪感を制限している不確実性の下での連続的な意思決定のモデルとして機能します。
機能的近似により、正規化されたMDP(ソフトQラーニングなど)の学習アルゴリズムの収束特性は、正規化されたベルマンオペレーターの構成とベクターのスパンへの投影が基準に関して縮小ではないため、よく理解されていません。

この論文では、線形関数近似を備えた正規化されたQ学習の双レベルの最適化定式化を検討します。
{\ em dower}レベルの最適化問題は、Bellmanの再帰最適性条件を満たす値関数近似を識別することを目的としており、{\ em Upper}レベルは、ベクターのスパンへの投影を見つけることを目的としています。
この定式化は、有限の時間収束保証でシングルループアルゴリズムを動機付けます。
アルゴリズムは2つのタイムスケールで動作します。状態アクション値の投影の更新は「遅い」という点で「遅い」という点で、ベルマンの再帰的最適性に対する「より高速」のソリューションの「より速い」更新に使用されるステップサイズよりも小さいという点で実装されています。
方程式。
特定の仮定の下で、提案されたアルゴリズムがマルコフ騒音の存在下で静止点に収束することを示します。
さらに、提案されたアルゴリズムから派生したポリシーのパフォーマンス保証を提供します。

要約(オリジナル)

Regularized Markov Decision Processes serve as models of sequential decision making under uncertainty wherein the decision maker has limited information processing capacity and/or aversion to model ambiguity. With functional approximation, the convergence properties of learning algorithms for regularized MDPs (e.g. soft Q-learning) are not well understood because the composition of the regularized Bellman operator and a projection onto the span of basis vectors is not a contraction with respect to any norm. In this paper, we consider a bi-level optimization formulation of regularized Q-learning with linear functional approximation. The {\em lower} level optimization problem aims to identify a value function approximation that satisfies Bellman’s recursive optimality condition and the {\em upper} level aims to find the projection onto the span of basis vectors. This formulation motivates a single-loop algorithm with finite time convergence guarantees. The algorithm operates on two time-scales: updates to the projection of state-action values are `slow’ in that they are implemented with a step size that is smaller than the one used for `faster’ updates of approximate solutions to Bellman’s recursive optimality equation. We show that, under certain assumptions, the proposed algorithm converges to a stationary point in the presence of Markovian noise. In addition, we provide a performance guarantee for the policies derived from the proposed algorithm.

arxiv情報

著者 Jiachen Xi,Alfredo Garcia,Petar Momcilovic
発行日 2025-02-10 17:59:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Regularized Q-Learning with Linear Function Approximation はコメントを受け付けていません