MLOps with Microservices: A Case Study on the Maritime Domain

要約

このケーススタディでは、オーシャンガードの構築に関する課題と教訓について説明しています。海事領域での異常検出のための機械学習対応システム(MLE)です。
まず、このペーパーでは、システムの仕様とアーキテクチャを紹介します。
オーシャンガードは、複数のチームがプロジェクトに並行して作業できるようにするために、マイクロサービスのアーキテクチャで設計されました。
次に、このペーパーでは、開発者がその目標を達成するために契約ベースの設計をMLOPにどのように適応させたかについて説明します。
MLESとして、オーシャンガードはコード、モデル、およびデータ契約を採用して、サービス間のガイドラインを確立します。
このケーススタディは、ソフトウェアエンジニア、機械学習エンジニア、データサイエンティストに、システムの同様のアプローチを活用するよう促したいと考えています。

要約(オリジナル)

This case study describes challenges and lessons learned on building Ocean Guard: a Machine Learning-Enabled System (MLES) for anomaly detection in the maritime domain. First, the paper presents the system’s specification, and architecture. Ocean Guard was designed with a microservices’ architecture to enable multiple teams to work on the project in parallel. Then, the paper discusses how the developers adapted contract-based design to MLOps for achieving that goal. As a MLES, Ocean Guard employs code, model, and data contracts to establish guidelines between its services. This case study hopes to inspire software engineers, machine learning engineers, and data scientists to leverage similar approaches for their systems.

arxiv情報

著者 Renato Cordeiro Ferreira,Rowanne Trapmann,Willem-Jan van den Heuvel
発行日 2025-06-06 16:04:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.SE, D.2.9 | MLOps with Microservices: A Case Study on the Maritime Domain はコメントを受け付けていません

Astra: Toward General-Purpose Mobile Robots via Hierarchical Multimodal Learning

要約

最新のロボットナビゲーションシステムは、多様で複雑な屋内環境で困難に遭遇します。
従来のアプローチは、小さなモデルまたはルールベースのシステムを備えた複数のモジュールに依存しているため、新しい環境への適応性がありません。
これに対処するために、モバイルロボットナビゲーション用の包括的なデュアルモデルアーキテクチャであるAstra-GlobalとAstra-Localを開発しました。
マルチモーダルLLMであるAstra-Globalは、グローバルマップとしてハイブリッドトポロジセマンチックなグラフを使用して自己および目標のローカリゼーションを実行するためのビジョンと言語の入力を処理し、従来の視覚的な場所認識方法を上回ります。
マルチタスクネットワークであるAstra-Localは、ローカルパス計画と臭気測定の推定を処理します。
自己監視学習を通じて訓練された4D空間的エンコーダーは、ダウンストリームタスクの堅牢な4D機能を生成します。
計画ヘッドは、フローマッチングと新しいマスクされたESDF損失を利用して、ローカル軌道を生成するための衝突リスクを最小限に抑え、odometryヘッドはトランスエンコーダーを介してマルチセンサー入力を統合してロボットの相対ポーズを予測します。
実際の社内モバイルロボットに展開されたAstraは、多様な屋内環境全体で高エンドツーエンドのミッションの成功率を達成しています。

要約(オリジナル)

Modern robot navigation systems encounter difficulties in diverse and complex indoor environments. Traditional approaches rely on multiple modules with small models or rule-based systems and thus lack adaptability to new environments. To address this, we developed Astra, a comprehensive dual-model architecture, Astra-Global and Astra-Local, for mobile robot navigation. Astra-Global, a multimodal LLM, processes vision and language inputs to perform self and goal localization using a hybrid topological-semantic graph as the global map, and outperforms traditional visual place recognition methods. Astra-Local, a multitask network, handles local path planning and odometry estimation. Its 4D spatial-temporal encoder, trained through self-supervised learning, generates robust 4D features for downstream tasks. The planning head utilizes flow matching and a novel masked ESDF loss to minimize collision risks for generating local trajectories, and the odometry head integrates multi-sensor inputs via a transformer encoder to predict the relative pose of the robot. Deployed on real in-house mobile robots, Astra achieves high end-to-end mission success rate across diverse indoor environments.

arxiv情報

著者 Sheng Chen,Peiyu He,Jiaxin Hu,Ziyang Liu,Yansheng Wang,Tao Xu,Chi Zhang,Chongchong Zhang,Chao An,Shiyu Cai,Duo Cao,Kangping Chen,Shuai Chu,Tianwei Chu,Mingdi Dan,Min Du,Weiwei Fang,Pengyou Fu,Junkai Hu,Xiaowei Jiang,Zhaodi Jiang,Fuxuan Li,Jun Li,Minghui Li,Mingyao Li,Yanchang Li,Zhibin Li,Guangming Liu,Kairui Liu,Lihao Liu,Weizhi Liu,Xiaoshun Liu,Yufei Liu,Yunfei Liu,Qiang Lu,Yuanfei Luo,Xiang Lv,Hongying Ma,Sai Ma,Lingxian Mi,Sha Sa,Hongxiang Shu,Lei Tian,Chengzhi Wang,Jiayu Wang,Kaijie Wang,Qingyi Wang,Renwen Wang,Tao Wang,Wei Wang,Xirui Wang,Chao Wei,Xuguang Wei,Zijun Xia,Zhaohao Xiao,Tingshuai Yan,Liyan Yang,Yifan Yang,Zhikai Yang,Zhong Yin,Li Yuan,Liuchun Yuan,Chi Zhang,Jinyang Zhang,Junhui Zhang,Linge Zhang,Zhenyi Zhang,Zheyu Zhang,Dongjie Zhu,Hang Li,Yangang Zhang
発行日 2025-06-06 16:08:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Astra: Toward General-Purpose Mobile Robots via Hierarchical Multimodal Learning はコメントを受け付けていません

Building Models of Neurological Language

要約

このレポートは、神経学のドメイン固有の言語モデルの開発と評価を文書化しています。
当初、オーダーメイドモデルの構築に焦点を当てていたプロジェクトは、オープンソースと商業医療LLMの急速な進歩に適応し、検索された高級世代(RAG)と安全なローカル展開の代表モデルを活用することにシフトしました。
主な貢献には、神経学固有のデータセット(ケースレポート、QAセット、教科書由来データ)の作成、マルチワード発現抽出のためのツール、および医療用語のグラフベースの分析が含まれます。
このプロジェクトでは、ローカルホスティング用のスクリプトとDockerコンテナも作成しました。
パフォーマンスメトリックとグラフコミュニティの結果が報告されており、PHI-4などのオープンソースアーキテクチャを使用したマルチモーダルモデルの将来の可能な作業が開かれています。

要約(オリジナル)

This report documents the development and evaluation of domain-specific language models for neurology. Initially focused on building a bespoke model, the project adapted to rapid advances in open-source and commercial medical LLMs, shifting toward leveraging retrieval-augmented generation (RAG) and representational models for secure, local deployment. Key contributions include the creation of neurology-specific datasets (case reports, QA sets, textbook-derived data), tools for multi-word expression extraction, and graph-based analyses of medical terminology. The project also produced scripts and Docker containers for local hosting. Performance metrics and graph community results are reported, with future possible work open for multimodal models using open-source architectures like phi-4.

arxiv情報

著者 Henry Watkins
発行日 2025-06-06 16:14:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Building Models of Neurological Language はコメントを受け付けていません

Can Theoretical Physics Research Benefit from Language Agents?

要約

大規模な言語モデル(LLM)は、多様なドメインで急速に進歩していますが、理論物理学研究への応用はまだ成熟していません。
このポジションペーパーでは、LLMエージェントは、ドメインの知識とツールボックスと適切に統合された場合、理論的、計算、および応用物理学を加速するのに潜在的に役立つと主張しています。
数学的推論からコード生成まで、物理学の現在のLLM機能を分析します。
マルチモーダルデータを処理し、テスト可能な仮説を提案し、設計実験を提案できる将来の物理学特有のLLMを想定しています。
このビジョンを実現するには、基本的な課題に対処する必要があります。物理的な一貫性を確保し、堅牢な検証方法を開発します。
物理学とAIコミュニティの間の共同の努力を求めて、物理学の科学的発見を促進するのを支援します。

要約(オリジナル)

Large Language Models (LLMs) are rapidly advancing across diverse domains, yet their application in theoretical physics research is not yet mature. This position paper argues that LLM agents can potentially help accelerate theoretical, computational, and applied physics when properly integrated with domain knowledge and toolbox. We analyze current LLM capabilities for physics — from mathematical reasoning to code generation — identifying critical gaps in physical intuition, constraint satisfaction, and reliable reasoning. We envision future physics-specialized LLMs that could handle multimodal data, propose testable hypotheses, and design experiments. Realizing this vision requires addressing fundamental challenges: ensuring physical consistency, and developing robust verification methods. We call for collaborative efforts between physics and AI communities to help advance scientific discovery in physics.

arxiv情報

著者 Sirui Lu,Zhijing Jin,Terry Jingchen Zhang,Pavel Kos,J. Ignacio Cirac,Bernhard Schölkopf
発行日 2025-06-06 16:20:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, math-ph, math.MP, quant-ph | Can Theoretical Physics Research Benefit from Language Agents? はコメントを受け付けていません

Integer Linear Programming Preprocessing for Maximum Satisfiability

要約

最大満足度問題(MAXSAT)は、多数の実用的なアプリケーションを備えた主要な最適化の課題です。
最近のMAXSAT評価では、ほとんどのMAXSATソルバーがポートフォリオの一部としてILPソルバーを採用しています。
このペーパーでは、MaxSAT解決に対する整数線形プログラミング(ILP)前処理技術の影響を調査します。
実験結果は、ILP前処理技術が、非加重トラックでのMaxSat評価2024の勝者であるWMAXCDCL-OpenWBO1200を支援することを示しており、15の追加インスタンスを解決します。
さらに、現在の最先端のMAXSATソルバーは、ポートフォリオでILPソルバーを非常に使用していますが、提案されたアプローチにより、WMAXCDCLやMAXCDCLを含むポートフォリオのILPソルバーを呼び出す必要性が減ります。

要約(オリジナル)

The Maximum Satisfiability problem (MaxSAT) is a major optimization challenge with numerous practical applications. In recent MaxSAT evaluations, most MaxSAT solvers have adopted an ILP solver as part of their portfolios. This paper investigates the impact of Integer Linear Programming (ILP) preprocessing techniques on MaxSAT solving. Experimental results show that ILP preprocessing techniques help WMaxCDCL-OpenWbo1200, the winner of the MaxSAT evaluation 2024 in the unweighted track, solve 15 additional instances. Moreover, current state-of-the-art MaxSAT solvers heavily use an ILP solver in their portfolios, while our proposed approach reduces the need to call an ILP solver in a portfolio including WMaxCDCL or MaxCDCL.

arxiv情報

著者 Jialu Zhang,Chu-Min Li,Sami Cherif,Shuolin Li,Zhifei Zheng
発行日 2025-06-06 16:21:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Integer Linear Programming Preprocessing for Maximum Satisfiability はコメントを受け付けていません

A Cognac shot to forget bad memories: Corrective Unlearning in GNNs

要約

グラフニューラルネットワーク(GNNS)は、グラフデータ上のさまざまなMLアプリケーションにますます使用されています。
グラフデータは独立して同一に分布した(I.I.D.)仮定に従わないため、敵対的な操作または誤ったデータは、メッセージの合格を通じて他のデータポイントに伝播する可能性があり、モデルのパフォーマンスが低下します。
モデル開発者が訓練されたGNNから操作されたエンティティの悪影響を除去できるようにするために、最近策定された是正済みの問題を研究しています。
現在のグラフの学習方法は、操作セット全体がわかっている場合でも、操作の効果を学ぶことができないことがわかります。
新しいグラフの未学習方法であるコニャックを導入します。コニャックは、識別された場合でも操作セットの効果を学ぶことができます。
完全に修正されたトレーニングデータを備えた強力なオラクルのパフォーマンスのほとんどを回復し、8倍の効率的である間、削除セットなしでゼロから再訓練を破りました。
私たちの仕事が、実世界のデータ、トレーニング後の問題によって引き起こされる有害な影響を緩和するGNN開発者を支援することを願っています。
当社のコードは、https://github.com/cognac-gnn-unlearning/corrective-unlearning-for-gnnsで公開されています

要約(オリジナル)

Graph Neural Networks (GNNs) are increasingly being used for a variety of ML applications on graph data. Because graph data does not follow the independently and identically distributed (i.i.d.) assumption, adversarial manipulations or incorrect data can propagate to other data points through message passing, which deteriorates the model’s performance. To allow model developers to remove the adverse effects of manipulated entities from a trained GNN, we study the recently formulated problem of Corrective Unlearning. We find that current graph unlearning methods fail to unlearn the effect of manipulations even when the whole manipulated set is known. We introduce a new graph unlearning method, Cognac, which can unlearn the effect of the manipulation set even when only 5% of it is identified. It recovers most of the performance of a strong oracle with fully corrected training data, even beating retraining from scratch without the deletion set while being 8x more efficient. We hope our work assists GNN developers in mitigating harmful effects caused by issues in real-world data, post-training. Our code is publicly available at https://github.com/cognac-gnn-unlearning/corrective-unlearning-for-gnns

arxiv情報

著者 Varshita Kolipaka,Akshit Sinha,Debangan Mishra,Sumit Kumar,Arvindh Arun,Shashwat Goel,Ponnurangam Kumaraguru
発行日 2025-06-06 16:32:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.LG | A Cognac shot to forget bad memories: Corrective Unlearning in GNNs はコメントを受け付けていません

‘We need to avail ourselves of GenAI to enhance knowledge distribution’: Empowering Older Adults through GenAI Literacy

要約

生成AI(Genai)がますます広くなると、ユーザー、特に高齢者(65歳以上)などの脆弱な集団を装備することが重要です。
高齢者は、多くの場合、新興技術の採用についてより大きな留保を示し、カスタマイズされたリテラシーサポートが必要です。
混合方法アプローチを使用して、この研究では、Littiという名前のチャットボットを介して高齢者にGenaiリテラシーを提供するための戦略を調べ、AIリテラシー(知識、安全性、倫理的使用)への影響を評価します。
定量的データは、AIリテラシーの改善傾向を示していましたが、結果は統計的に有意ではありませんでした。
しかし、定性的なインタビューでは、生成的AIに精通している多様なレベルと、もっと学びたいという強い欲求が明らかになりました。
また、調査結果は、Littiが肯定的な学習体験を提供した一方で、Genaiに関する参加者の信頼や安全感を大幅に向上させなかったことを示しています。
この探索的ケーススタディは、急速に成長している高齢者人口のためのAIリテラシー教育を設計する際の課題と機会を強調しています。

要約(オリジナル)

As generative AI (GenAI) becomes increasingly widespread, it is crucial to equip users, particularly vulnerable populations such as older adults (65 and older), with the knowledge to understand its benefits and potential risks. Older adults often exhibit greater reservations about adopting emerging technologies and require tailored literacy support. Using a mixed methods approach, this study examines strategies for delivering GenAI literacy to older adults through a chatbot named Litti, evaluating its impact on their AI literacy (knowledge, safety, and ethical use). The quantitative data indicated a trend toward improved AI literacy, though the results were not statistically significant. However, qualitative interviews revealed diverse levels of familiarity with generative AI and a strong desire to learn more. Findings also show that while Litti provided a positive learning experience, it did not significantly enhance participants’ trust or sense of safety regarding GenAI. This exploratory case study highlights the challenges and opportunities in designing AI literacy education for the rapidly growing older adult population.

arxiv情報

著者 Eunhye Grace Ko,Shaini Nanayakkara,Earl W. Huff Jr
発行日 2025-06-06 16:38:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC | ‘We need to avail ourselves of GenAI to enhance knowledge distribution’: Empowering Older Adults through GenAI Literacy はコメントを受け付けていません

DesignBench: A Comprehensive Benchmark for MLLM-based Front-end Code Generation

要約

マルチモーダル大手言語モデル(MLLMS)は、視覚設計からUIコードを生成する自動化されたフロントエンドエンジニアリングにおいて顕著な機能を実証しています。
ただし、既存のフロントエンドUIコード生成ベンチマークには次の制限があります。(1)フレームワークベースの開発は最新のフロントエンドプログラミングで支配的になりますが、現在のベンチマークは主流の開発フレームワークを組み込むことができません。
(2)既存の評価は、UIコード生成タスクのみに焦点を当てていますが、実際のUI開発には、編集の洗練、問題の修復など、いくつかの反復が含まれます。
(3)現在のベンチマークは、一次元評価を採用しており、タスクの難易度、入力コンテキストのバリエーション、詳細なコードレベル分析などの影響の影響を調査していません。
これらのギャップを埋めるために、自動化されたフロントエンドエンジニアリングにおけるMLLMの機能を評価するためのマルチフレームワーク、マルチタスク評価ベンチマークであるDesignBenchを紹介します。
DesignBenchは、バニラHTML/CSSと並んで、広く使用されている3つのUIフレームワーク(React、Vue、およびAngular)を網羅し、実際の開発ワークフローにおける3つの重要なフロントエンドタスク(生成、編集、および修理)を評価します。
DesignBenchには、11のトピック、9つの編集タイプ、6つの問題カテゴリにまたがる900のWebページサンプルが含まれており、複数のディメンションにわたるMLLMパフォーマンスの詳細な分析を可能にします。
私たちの体系的な評価は、MLLMのフレームワーク固有の制限、タスク関連のボトルネック、およびさまざまな条件下でのパフォーマンスの変動に関する重要な洞察を明らかにし、自動フロントエンド開発における将来の研究のガイダンスを提供します。
私たちのコードとデータは、https://github.com/webpai/designbenchで入手できます。

要約(オリジナル)

Multimodal Large Language Models (MLLMs) have demonstrated remarkable capabilities in automated front-end engineering, e.g., generating UI code from visual designs. However, existing front-end UI code generation benchmarks have the following limitations: (1) While framework-based development becomes predominant in modern front-end programming, current benchmarks fail to incorporate mainstream development frameworks. (2) Existing evaluations focus solely on the UI code generation task, whereas practical UI development involves several iterations, including refining editing, and repairing issues. (3) Current benchmarks employ unidimensional evaluation, lacking investigation into influencing factors like task difficulty, input context variations, and in-depth code-level analysis. To bridge these gaps, we introduce DesignBench, a multi-framework, multi-task evaluation benchmark for assessing MLLMs’ capabilities in automated front-end engineering. DesignBench encompasses three widely-used UI frameworks (React, Vue, and Angular) alongside vanilla HTML/CSS, and evaluates on three essential front-end tasks (generation, edit, and repair) in real-world development workflows. DesignBench contains 900 webpage samples spanning over 11 topics, 9 edit types, and 6 issue categories, enabling detailed analysis of MLLM performance across multiple dimensions. Our systematic evaluation reveals critical insights into MLLMs’ framework-specific limitations, task-related bottlenecks, and performance variations under different conditions, providing guidance for future research in automated front-end development. Our code and data are available at https://github.com/WebPAI/DesignBench.

arxiv情報

著者 Jingyu Xiao,Ming Wang,Man Ho Lam,Yuxuan Wan,Junliang Liu,Yintong Huo,Michael R. Lyu
発行日 2025-06-06 17:21:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SE | DesignBench: A Comprehensive Benchmark for MLLM-based Front-end Code Generation はコメントを受け付けていません

PersonaAgent: When Large Language Model Agents Meet Personalization at Test Time

要約

大規模な言語モデル(LLM)エンパワーされたエージェントは最近、幅広いドメインとタスクで印象的な能力を示す高度なパラダイムとして浮上しています。
その可能性にもかかわらず、現在のLLMエージェントは、多くの場合、すべてのサイズのアプローチを採用しており、ユーザーのさまざまなニーズや好みに対応する柔軟性がありません。
この制限により、汎用性の高いパーソナライズタスクに対処するために設計された最初のパーソナライズされたLLMエージェントフレームワークであるPersonaagentを開発するようになります。
具体的には、PersonAagentは2つの相補的コンポーネントを統合します。エピソードおよびセマンティックメモリメカニズムを含むパーソナライズされたメモリモジュールです。
エージェントがユーザーに合わせたツールアクションを実行できるようにするパーソナライズされたアクションモジュール。
コアでは、ペルソナ(各ユーザーのユニークなシステムプロンプトとして定義)は仲介者として機能します。パーソナライズされたメモリからコントロールエージェントアクションに洞察を活用し、これらのアクションの結果はメモリを改良します。
フレームワークに基づいて、最新のNインタラクションをシミュレートしてペルソナプロンプトを最適化するテスト時間ユーザープレーファレンスアライメント戦略を提案し、シミュレートされた応答とグラウンドトゥルース応答の間のテキストの損失フィードバックを通じてリアルタイムユーザー優先アライメントを確保します。
実験的評価は、PersonAagentがアクション空間を効果的にパーソナライズするだけでなく、テスト時間の実際のアプリケーション中にスケーリングすることにより、他のベースライン方法を大幅に上回ることを示しています。
これらの結果は、テーラードされた動的なユーザーエクスペリエンスを提供する際のアプローチの実現可能性と可能性を強調しています。

要約(オリジナル)

Large Language Model (LLM) empowered agents have recently emerged as advanced paradigms that exhibit impressive capabilities in a wide range of domains and tasks. Despite their potential, current LLM agents often adopt a one-size-fits-all approach, lacking the flexibility to respond to users’ varying needs and preferences. This limitation motivates us to develop PersonaAgent, the first personalized LLM agent framework designed to address versatile personalization tasks. Specifically, PersonaAgent integrates two complementary components – a personalized memory module that includes episodic and semantic memory mechanisms; a personalized action module that enables the agent to perform tool actions tailored to the user. At the core, the persona (defined as unique system prompt for each user) functions as an intermediary: it leverages insights from personalized memory to control agent actions, while the outcomes of these actions in turn refine the memory. Based on the framework, we propose a test-time user-preference alignment strategy that simulate the latest n interactions to optimize the persona prompt, ensuring real-time user preference alignment through textual loss feedback between simulated and ground-truth responses. Experimental evaluations demonstrate that PersonaAgent significantly outperforms other baseline methods by not only personalizing the action space effectively but also scaling during test-time real-world applications. These results underscore the feasibility and potential of our approach in delivering tailored, dynamic user experiences.

arxiv情報

著者 Weizhi Zhang,Xinyang Zhang,Chenwei Zhang,Liangwei Yang,Jingbo Shang,Zhepei Wei,Henry Peng Zou,Zijie Huang,Zhengyang Wang,Yifan Gao,Xiaoman Pan,Lian Xiong,Jingguo Liu,Philip S. Yu,Xian Li
発行日 2025-06-06 17:29:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | PersonaAgent: When Large Language Model Agents Meet Personalization at Test Time はコメントを受け付けていません

Reflect-then-Plan: Offline Model-Based Planning through a Doubly Bayesian Lens

要約

オンラインの探索がコストまたは安全でない場合がありますが、データが限られているために高い認識論的不確実性に苦しんでいる場合、オフライン強化学習(RL)は重要です。
既存の方法は、固定された保守的な政策、適応性と一般化の制限に依存しています。
これに対処するために、斬新な二重ベイジアンオフラインモデルベース(MB)計画アプローチであるReflect-Then-Plan(RefPlan)を提案します。
Refplanは、ベイジアン後部推定として計画を再構築することにより、不確実性モデリングとMB計画を統合します。
展開時に、リアルタイムの観測を使用して環境ダイナミクスに対する信念を更新し、疎外を介してMB計画に不確実性を組み込みます。
標準ベンチマークの経験的結果は、Refplanが保守的なオフラインRLポリシーのパフォーマンスを大幅に改善することを示しています。
特に、RefPlanは、高い認識論的不確実性と限られたデータの下で堅牢なパフォーマンスを維持し、環境ダイナミクスの変化に対する回復力を示し、オフラインの学習ポリシーの柔軟性、一般化、および堅牢性を改善します。

要約(オリジナル)

Offline reinforcement learning (RL) is crucial when online exploration is costly or unsafe but often struggles with high epistemic uncertainty due to limited data. Existing methods rely on fixed conservative policies, restricting adaptivity and generalization. To address this, we propose Reflect-then-Plan (RefPlan), a novel doubly Bayesian offline model-based (MB) planning approach. RefPlan unifies uncertainty modeling and MB planning by recasting planning as Bayesian posterior estimation. At deployment, it updates a belief over environment dynamics using real-time observations, incorporating uncertainty into MB planning via marginalization. Empirical results on standard benchmarks show that RefPlan significantly improves the performance of conservative offline RL policies. In particular, RefPlan maintains robust performance under high epistemic uncertainty and limited data, while demonstrating resilience to changing environment dynamics, improving the flexibility, generalizability, and robustness of offline-learned policies.

arxiv情報

著者 Jihwan Jeong,Xiaoyu Wang,Jingmin Wang,Scott Sanner,Pascal Poupart
発行日 2025-06-06 17:40:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Reflect-then-Plan: Offline Model-Based Planning through a Doubly Bayesian Lens はコメントを受け付けていません