Interpreting and Editing Vision-Language Representations to Mitigate Hallucinations

要約

我々は、視覚言語モデル(VLM)の内部表現を調査し、モデルサイズとトレーニングの進歩にもかかわらず、根強い課題である幻覚に対処する。VLMの内部画像表現を言語語彙に投影し、幻覚物体よりも現実物体に対する出力確率が高いことを確認する。さらに、これらの出力確率を用いて、現実の物体を空間的に定位させる。このアプローチを基に、幻覚物体特徴に対して画像特徴を線形に直交させることで幻覚を除去する知識消去アルゴリズムを導入する。COCO2014データセットにおいて、モデルの潜在表現に的を絞った編集を行うことで、性能を維持したまま幻覚を最大25.7%削減できることを示す。この結果は、VLMの潜在表現をより深く理解することで、信頼性が向上し、ゼロショットセグメンテーションのような新しい機能が可能になることを示している。

要約(オリジナル)

We investigate the internal representations of vision-language models (VLMs) to address hallucinations, a persistent challenge despite advances in model size and training. We project VLMs’ internal image representations to their language vocabulary and observe more confident output probabilities on real objects than hallucinated objects. We additionally use these output probabilities to spatially localize real objects. Building on this approach, we introduce a knowledge erasure algorithm that removes hallucinations by linearly orthogonalizing image features with respect to hallucinated object features. We show that targeted edits to a model’s latent representations can reduce hallucinations by up to 25.7% on the COCO2014 dataset while preserving performance. Our findings demonstrate how a deeper understanding of VLMs’ latent representations can enhance reliability and enable novel capabilities, such as zero-shot segmentation.

arxiv情報

著者 Nick Jiang,Anish Kachinthaya,Suzie Petryk,Yossi Gandelsman
発行日 2024-10-03 17:59:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG | コメントする

Flash-Splat: 3D Reflection Removal with Flash Cues and Gaussian Splats

要約

透過光と反射光を分離するための、シンプルで効果的なアプローチを紹介する。我々の重要な洞察は、最新の逆レンダリング手法(例えば、~3Dガウス・スプラッティング)によって提供される強力で新しいビュー合成機能によって、対になっていない測定値を用いてフラッシュ/非フラッシュ反射分離を行うことができるということである。広範な実世界実験を通して、我々は、我々の方法であるフラッシュ・スプラットが、透過シーンと反射シーンの両方を3Dで正確に再構成することを実証した。本手法は、照明制御を活用しない既存の3D反射分離法を大きく上回る。我々のプロジェクトのウェブページはhttps://flash-splat.github.io/。

要約(オリジナル)

We introduce a simple yet effective approach for separating transmitted and reflected light. Our key insight is that the powerful novel view synthesis capabilities provided by modern inverse rendering methods (e.g.,~3D Gaussian splatting) allow one to perform flash/no-flash reflection separation using unpaired measurements — this relaxation dramatically simplifies image acquisition over conventional paired flash/no-flash reflection separation methods. Through extensive real-world experiments, we demonstrate our method, Flash-Splat, accurately reconstructs both transmitted and reflected scenes in 3D. Our method outperforms existing 3D reflection separation methods, which do not leverage illumination control, by a large margin. Our project webpage is at https://flash-splat.github.io/.

arxiv情報

著者 Mingyang Xie,Haoming Cai,Sachin Shah,Yiran Xu,Brandon Y. Feng,Jia-Bin Huang,Christopher A. Metzler
発行日 2024-10-03 17:59:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG, eess.IV | コメントする

Achieving Fairness in Predictive Process Analytics via Adversarial Learning

要約

ビジネスプロセスの予測分析は、組織にとって重要なものとなっており、プロセスのリアルタイムな運用サポートを提供している。しかし、これらのアルゴリズムは、偏った変数(例えば、性別や国籍)、すなわち差別を体現する変数に基づいているため、しばしば不公正な予測を行う。本論文では、予測ビジネスプロセス分析にデビアス段階を統合し、予測が偏った変数に影響されないようにするという課題に取り組む。我々のフレームワークは、4つのケーススタディで評価され、予測値に対する偏った変数の寄与が大幅に減少することを示す。提案された技術は、プロセスマイニングにおける公平性の最新技術とも比較され、我々のフレームワークが、より良い予測品質を保持しながら、より強化された公平性のレベルを可能にすることを示す。

要約(オリジナル)

Predictive business process analytics has become important for organizations, offering real-time operational support for their processes. However, these algorithms often perform unfair predictions because they are based on biased variables (e.g., gender or nationality), namely variables embodying discrimination. This paper addresses the challenge of integrating a debiasing phase into predictive business process analytics to ensure that predictions are not influenced by biased variables. Our framework leverages on adversial debiasing is evaluated on four case studies, showing a significant reduction in the contribution of biased variables to the predicted value. The proposed technique is also compared with the state of the art in fairness in process mining, illustrating that our framework allows for a more enhanced level of fairness, while retaining a better prediction quality.

arxiv情報

著者 Massimiliano de Leoni,Alessandro Padella
発行日 2024-10-03 15:56:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG, J.1 | コメントする

PARAMANU-AYN: Pretrain from scratch or Continual Pretraining of LLMs for Legal Domain Adaptation?

要約

本稿では、インドの法律判例文書に限定して学習させた法律言語モデルのコレクションであるParamanu-Aynを紹介する。この9,700万パラメータの自己回帰(AR)デコーダのみのモデルは、単一のGPUでコンテキストサイズ8,192、わずか185時間でゼロから事前学習され、41.35の効率的なMFUを達成した。また、法律分野に特化したBPEトークナイザーも開発しました。このモデルをパープレキシティとゼロショットタスクを用いて評価したところ、説明を伴う事例判断予測と抽象的な事例要約を行うことができた。Paramanu-AynはLlama-2 7BとGemini-Proよりも72倍小さいにもかかわらず、説明付き事例判断予測タスクのテスト精度を2ポイント近く上回った。ゼロショット抽象的要約では、固定長要約(5000トークン)を生成するデコーダのみのLLMを、BLEUとMETEORメトリクスで10%ポイント以上、BERTScoreで4%ポイント近く上回った。さらに、ゼロショットのコモンセンスベンチマークと数学ベンチマークで評価した結果、Paramanu-Aynは法律文書のみで学習したにもかかわらず、AGIEVAL-AQuA-RATとAGIEVAL-SAT-MathタスクにおいてLlama-1、Llama-2、Falconを凌駕する優れた結果を示しました。また、法律条文生成、法律草案作成、判例要約など、10,763の多様な法律タスクに対して、我々のモデルをインストラクションチューニングした。Paramanu-Ayn-instructモデルは、GPT-3.5-Turboにより、明瞭性、関連性、完全性、法的推論指標において10点満点中8点以上のスコアを獲得した。また、GPT-3.5-Turboでは、明確性、関連性、完全性、法的推論指標において10点満点中8点以上を獲得した。したがって、我々は、強いドメインに特化した生成言語モデル(法律など)に対して、ゼロからドメインに特化した事前学習を行うことは、より費用対効果が高く、環境に優しく、より大規模なモデルとの競争力を維持し、あるいは法律ドメインのタスクにLLMを適応させるよりも優れていると結論付けた。

要約(オリジナル)

In this paper, we present Paramanu-Ayn, a collection of legal language models trained exclusively on Indian legal case documents. This 97-million-parameter Auto-Regressive (AR) decoder-only model was pretrained from scratch with a context size of 8192 on a single GPU for just 185 hours, achieving an efficient MFU of 41.35. We also developed a legal domain specialized BPE tokenizer. We evaluated our model using perplexity and zero-shot tasks: case judgment prediction with explanation and abstractive case summarization. Paramanu-Ayn outperformed Llama-2 7B and Gemini-Pro in case judgment prediction with explanation task on test accuracy by nearly 2 percentage points, despite being 72 times smaller. In zero-shot abstractive summarization, it surpassed decoder-only LLMs generating fixed-length summaries (5000 tokens) by over 10 percentage points in BLEU and METEOR metrics, and by nearly 4 percentage points in BERTScore. Further evaluations on zero-shot commonsense and mathematical benchmarks showed that Paramanu-Ayn excelled despite being trained exclusively on legal documents, outperforming Llama-1, Llama-2, and Falcon on AGIEVAL-AQuA-RAT and AGIEVAL-SAT-Math tasks. We also instruction-tuned our model on 10,763 diverse legal tasks, including legal clause generation, legal drafting, case summarization, etc. The Paramanu-Ayn-instruct model scored above 8 out of 10 in clarity, relevance, completeness, and legal reasoning metrics by GPT-3.5-Turbo. We found that our models, were able to learn drafting knowledge and generalize to draft legal contracts and legal clauses with limited instruction-tuning. Hence, we conclude that for a strong domain-specialized generative language model (such as legal), domain specialized pretraining from scratch is more cost effective, environmentally friendly, and remains competitive with larger models or even better than adapting LLMs for legal domain tasks.

arxiv情報

著者 Mitodru Niyogi,Arnab Bhattacharya
発行日 2024-10-03 16:01:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG | コメントする

A Methodological Report on Anomaly Detection on Dynamic Knowledge Graphs

要約

本稿では、Kubernetesアプリケーションのマイクロサービス環境において、特に動的ナレッジグラフの異常検知に対するさまざまなアプローチを探求する。我々のアプローチは、3つの動的知識グラフ表現を探求する:シーケンシャルデータ、ワンホップグラフ構造、および2ホップグラフ構造であり、各表現はますます複雑な構造情報を組み込んでいる。各フェーズには、異なる機械学習とディープラーニングモデルが含まれる。我々はそれらの性能を経験的に分析し、これらのモデルのアンサンブル学習に基づくアプローチを提案する。我々のアプローチは、ISWC 2024動的知識グラフ異常検知データセットにおいてベースラインを大幅に上回り、動的複雑データにおける異常検知のための頑健なソリューションを提供する。

要約(オリジナル)

In this paper, we explore different approaches to anomaly detection on dynamic knowledge graphs, specifically in a microservices environment for Kubernetes applications. Our approach explores three dynamic knowledge graph representations: sequential data, one-hop graph structure, and two-hop graph structure, with each representation incorporating increasingly complex structural information. Each phase includes different machine learning and deep learning models. We empirically analyse their performance and propose an approach based on ensemble learning of these models. Our approach significantly outperforms the baseline on the ISWC 2024 Dynamic Knowledge Graph Anomaly Detection dataset, providing a robust solution for anomaly detection in dynamic complex data.

arxiv情報

著者 Xiaohua Lu,Leshanshui Yang
発行日 2024-10-03 16:10:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG | コメントする

PRompt Optimization in Multi-Step Tasks (PROMST): Integrating Human Feedback and Heuristic-based Sampling

要約

プロンプト最適化の目的は、与えられたタスクに最適なプロンプトを大規模言語モデル(LLM)に求めることである。LLMは、シングルステップのタスクのプロンプト候補を見つけ、改善するために使用されてきた。(1)プロンプトの内容はより広範で複雑になる可能性が高く、LLMがエラーを分析することがより困難になる、(2)個々のステップの影響を評価することが困難である、(3)タスク実行に関する好みは人によって異なる可能性がある。そこで我々は、LLM駆動の新しい離散プロンプト最適化フレームワークPRompt Optimization in Multi-Step Tasks (PROMST)を導入し、人間が設計したフィードバックルールを組み込んで、改善のための直接的な提案を自動的に行う。また、プロンプト候補から効率的にサンプリングするために、プロンプトのパフォーマンスを予測する追加学習されたヒューリスティックモデルを用いる。このアプローチは、11の代表的なマルチステップタスクにおいて、人間が設計したプロンプトと他のいくつかのプロンプト最適化手法の両方を大幅に上回る(それぞれ5つのLLMにおいて、現在の最良手法に対して平均10.6%~29.3%の改善)。我々は、我々の研究が、LLM駆動マルチステップタスクの自動プロンプト最適化のベンチマークになると信じている。データセットとコードはhttps://github.com/yongchao98/PROMST。プロジェクトページはhttps://yongchao98.github.io/MIT-REALM-PROMST。

要約(オリジナル)

Prompt optimization aims to find the best prompt to a large language model (LLM) for a given task. LLMs have been successfully used to help find and improve prompt candidates for single-step tasks. However, realistic tasks for agents are multi-step and introduce new challenges: (1) Prompt content is likely to be more extensive and complex, making it more difficult for LLMs to analyze errors, (2) the impact of an individual step is difficult to evaluate, and (3) different people may have varied preferences about task execution. While humans struggle to optimize prompts, they are good at providing feedback about LLM outputs; we therefore introduce a new LLM-driven discrete prompt optimization framework PRompt Optimization in Multi-Step Tasks (PROMST) that incorporates human-designed feedback rules to automatically offer direct suggestions for improvement. We also use an extra learned heuristic model that predicts prompt performance to efficiently sample from prompt candidates. This approach significantly outperforms both human-engineered prompts and several other prompt optimization methods across 11 representative multi-step tasks (an average 10.6\%-29.3\% improvement to current best methods on five LLMs respectively). We believe our work can serve as a benchmark for automatic prompt optimization for LLM-driven multi-step tasks. Datasets and Codes are available at https://github.com/yongchao98/PROMST. Project Page is available at https://yongchao98.github.io/MIT-REALM-PROMST.

arxiv情報

著者 Yongchao Chen,Jacob Arkin,Yilun Hao,Yang Zhang,Nicholas Roy,Chuchu Fan
発行日 2024-10-03 16:11:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.HC, cs.RO | コメントする

Inverse Entropic Optimal Transport Solves Semi-supervised Learning via Data Likelihood Maximization

要約

条件付き分布 $pi^*(\cdot|x)$ の学習は機械学習における中心的な問題であり、一般的にペアデータ $(x,y)ΓsimΓpi^*$ を用いた教師あり手法によってアプローチされる。しかし、ペアデータの取得は、特にドメイン翻訳のような問題では、しばしば困難である。このため、限られたペアデータと、マージナル分布からの追加のペアでない i.i.d.サンプル$x \sim \pi^*_x$, $y \sim \pi^*_y$ の両方を利用する$textit{半教師付き}$モデルの開発が必要となる。このような結合データの利用は複雑であり、しばしば発見的アプローチに依存する。この問題に取り組むために、我々は、データ尤度最大化技法を通して、対になったデータと対になっていないデータの両方を$textbf{seamlessly}$統合する新しい学習パラダイムを提案する。我々は、我々のアプローチが逆エントロピー最適輸送(OT)と興味深いつながりを持つことを示す。この発見により、計算OTの最近の進歩を応用して、$pi^*(˶cdot|x)$を得る$textbf{light}$学習アルゴリズムを確立することができる。さらに、本手法が、対になったデータと対になっていないデータを同時に用いて条件付き分布を効果的に学習することを、実証実験により示す。

要約(オリジナル)

Learning conditional distributions $\pi^*(\cdot|x)$ is a central problem in machine learning, which is typically approached via supervised methods with paired data $(x,y) \sim \pi^*$. However, acquiring paired data samples is often challenging, especially in problems such as domain translation. This necessitates the development of $\textit{semi-supervised}$ models that utilize both limited paired data and additional unpaired i.i.d. samples $x \sim \pi^*_x$ and $y \sim \pi^*_y$ from the marginal distributions. The usage of such combined data is complex and often relies on heuristic approaches. To tackle this issue, we propose a new learning paradigm that integrates both paired and unpaired data $\textbf{seamlessly}$ through the data likelihood maximization techniques. We demonstrate that our approach also connects intriguingly with inverse entropic optimal transport (OT). This finding allows us to apply recent advances in computational OT to establish a $\textbf{light}$ learning algorithm to get $\pi^*(\cdot|x)$. Furthermore, we demonstrate through empirical tests that our method effectively learns conditional distributions using paired and unpaired data simultaneously.

arxiv情報

著者 Mikhail Persiianov,Arip Asadulaev,Nikita Andreev,Nikita Starodubcev,Dmitry Baranchuk,Anastasis Kratsios,Evgeny Burnaev,Alexander Korotin
発行日 2024-10-03 16:12:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG | コメントする

A deep learning-enabled smart garment for accurate and versatile sleep conditions monitoring in daily life

要約

ウェアラブル・スマートシステムでは、睡眠の質を高め、睡眠に関連する慢性疾患を予防するために、睡眠に関連する様々な状態を継続的にモニタリングし、正確に分類することが重要である。しかし、電気生理学的睡眠モニタリングシステムにおけるデバイスと皮膚の結合品質に対する要求は、夜間装着の快適性と信頼性を妨げている。ここでは、位置決めや皮膚準備の必要なく、弱いデバイス-皮膚結合条件下で局所的な皮膚ひずみ信号を捕捉する、洗濯可能で皮膚適合性のあるスマート衣服睡眠モニタリングシステムを報告する。プリントテキスタイルをベースとしたひずみセンサーアレイは、0.1%から10%のひずみに100という高いゲージ率で応答し、ひずみ分離プリントパターン設計により外因性モーションアーチファクトに対する独立性を示します。可逆的な糊付け処理により、衣服に直接プリントする際のインク浸透深さを制御し、性能のバッチ間ばらつきを10%未満に抑えます。ディープラーニング、説明可能な人工知能(XAI)、および転移学習データ処理と組み合わせることで、このスマート衣服は6つの睡眠状態を98.6%の精度で分類することができ、実用化において優れた説明可能性(バイアスの少ない分類)と汎化性(1クラスあたり15サンプル未満の少数ショット学習で新規ユーザーに対する95%の精度)を維持し、次世代の日常的な睡眠ヘルスケア管理への道を開く。

要約(オリジナル)

In wearable smart systems, continuous monitoring and accurate classification of different sleep-related conditions are critical for enhancing sleep quality and preventing sleep-related chronic conditions. However, the requirements for device-skin coupling quality in electrophysiological sleep monitoring systems hinder the comfort and reliability of night wearing. Here, we report a washable, skin-compatible smart garment sleep monitoring system that captures local skin strain signals under weak device-skin coupling conditions without positioning or skin preparation requirements. A printed textile-based strain sensor array responds to strain from 0.1% to 10% with a gauge factor as high as 100 and shows independence to extrinsic motion artefacts via strain-isolating printed pattern design. Through reversible starching treatment, ink penetration depth during direct printing on garments is controlled to achieve batch-to-batch performance variation < 10%. Coupled with deep learning, explainable artificial intelligence (XAI), and transfer learning data processing, the smart garment is capable of classifying six sleep states with an accuracy of 98.6%, maintaining excellent explainability (classification with low bias) and generalization (95% accuracy on new users with few-shot learning less than 15 samples per class) in practical applications, paving the way for next-generation daily sleep healthcare management.

arxiv情報

著者 Chenyu Tang,Wentian Yi,Muzi Xu,Yuxuan Jin,Zibo Zhang,Xuhang Chen,Caizhi Liao,Peter Smielewski,Luigi G. Occhipinti
発行日 2024-10-03 16:13:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, eess.SP | コメントする

Beyond principlism: Practical strategies for ethical AI use in research practices

要約

科学研究における生成型人工知能(AI)、特に大規模言語モデル(LLM)の急速な普及は、倫理的ガイドラインの開発を上回り、トリプル・トゥー問題(高水準の倫理的イニシアチブの多さ、文脈や実用的関連性に欠ける抽象的すぎる原則、利益や効用よりも制約やリスクに焦点を当てすぎる問題)を引き起こしている。原理主義(抽象的な倫理原則への依存)、形式主義(ルールの厳格な適用)、技術的解決主義(技術的解決への過度の強調)を含む既存のアプローチは、科学研究の実践におけるAIの倫理的課題に対処するための実践的指針をほとんど提供しない。抽象的な原則と日々の研究実践との間のギャップを埋めるために、ここではユーザー中心の現実主義にインスパイアされたアプローチを提案する。倫理的なAI利用のための5つの具体的な目標を概説する:1)バイアスの緩和戦略を含む、モデルのトレーニングと出力の理解、2)プライバシー、機密性、著作権の尊重、3)剽窃やポリシー違反の回避、4)代替手段と比較して有益なAIの適用、5)透明性と再現性のあるAIの使用。各目標には、実行可能な戦略と、誤用や是正措置の現実的な事例が添えられている。私は、倫理的なAIの適用には、単独の性能評価基準ではなく、既存の代替手段に対する有用性を評価することが必要であると主張する。さらに、AIによる研究の透明性と再現性を高めるための文書化ガイドラインを提案する。今後は、イノベーションを促進しながら責任あるAIの利用を促進するために、的を絞った専門家の育成、トレーニングプログラム、バランスの取れた執行メカニズムが必要である。これらの倫理指針を洗練させ、新たなAIの能力に適応させることで、研究の完全性を損なうことなく、科学の進歩を加速させることができる。

要約(オリジナル)

The rapid adoption of generative artificial intelligence (AI) in scientific research, particularly large language models (LLMs), has outpaced the development of ethical guidelines, leading to a Triple-Too problem: too many high-level ethical initiatives, too abstract principles lacking contextual and practical relevance, and too much focus on restrictions and risks over benefits and utilities. Existing approaches, including principlism (reliance on abstract ethical principles), formalism (rigid application of rules), and technical solutionism (overemphasis on technological fixes), offer little practical guidance for addressing ethical challenges of AI in scientific research practices. To bridge the gap between abstract principles and day-to-day research practices, a user-centered, realism-inspired approach is proposed here. It outlines five specific goals for ethical AI use: 1) understanding model training and output, including bias mitigation strategies; 2) respecting privacy, confidentiality, and copyright; 3) avoiding plagiarism and policy violations; 4) applying AI beneficially compared to alternatives; and 5) using AI transparently and reproducibly. Each goal is accompanied by actionable strategies and realistic cases of misuse and corrective measures. I argue that ethical AI application requires evaluating its utility against existing alternatives rather than isolated performance metrics. Additionally, I propose documentation guidelines to enhance transparency and reproducibility in AI-assisted research. Moving forward, we need targeted professional development, training programs, and balanced enforcement mechanisms to promote responsible AI use while fostering innovation. By refining these ethical guidelines and adapting them to emerging AI capabilities, we can accelerate scientific progress without compromising research integrity.

arxiv情報

著者 Zhicheng Lin
発行日 2024-10-03 16:13:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CY | コメントする

Sample and Oracle Efficient Reinforcement Learning for MDPs with Linearly-Realizable Value Functions

要約

サンプル効率が良く、計算可能な強化学習(RL)アルゴリズムの設計は、状態空間や行動空間が大きい、あるいは無限である環境では特に困難である。本論文では、任意のポリシーの状態-行動価値関数が与えられた特徴マップにおいて線形であるマルコフ決定過程(MDP)に対する効率的なアルゴリズムを提示することで、この取り組みを前進させる。この挑戦的な設定は、無限の状態と行動を持つ環境をモデル化することができ、古典的な線形MDPを厳密に一般化する。具体的には、問題パラメータに対して多項式である、エピソード数とコスト依存分類(CSC)オラクルへのコールを用いて、この設定において効率的に最適に近いポリシーを発見する新しいRLアルゴリズムを紹介する。注目すべきことに、我々のCSCオラクルは、特徴次元が一定である場合に効率的に実装可能であり、ホライズン多変数を持つ非凸問題を解く必要があり、ホライズンに対して指数関数的な計算コストが発生する可能性のある最新の手法に対して明らかな改善を示す。

要約(オリジナル)

Designing sample-efficient and computationally feasible reinforcement learning (RL) algorithms is particularly challenging in environments with large or infinite state and action spaces. In this paper, we advance this effort by presenting an efficient algorithm for Markov Decision Processes (MDPs) where the state-action value function of any policy is linear in a given feature map. This challenging setting can model environments with infinite states and actions, strictly generalizes classic linear MDPs, and currently lacks a computationally efficient algorithm under online access to the MDP. Specifically, we introduce a new RL algorithm that efficiently finds a near-optimal policy in this setting, using a number of episodes and calls to a cost-sensitive classification (CSC) oracle that are both polynomial in the problem parameters. Notably, our CSC oracle can be efficiently implemented when the feature dimension is constant, representing a clear improvement over state-of-the-art methods, which require solving non-convex problems with horizon-many variables and can incur computational costs that are exponential in the horizon.

arxiv情報

著者 Zakaria Mhammedi
発行日 2024-10-03 16:23:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG | コメントする