Learning Compositional Behaviors from Demonstration and Language

要約

模倣学習とモデルベースの計画を統合することにより、長老のロボット操作のフレームワークである言語とデモンストレーション(Blade)から行動を紹介します。
Bladeは、言語が注目したデモンストレーションを活用し、大規模な言語モデル(LLM)から抽象的なアクション知識を抽出し、構造化された高レベルのアクション表現のライブラリを構築します。
これらの表現には、ニューラルネットワークベースのポリシーとして実装された対応するコントローラーとともに、各高レベルアクションの視覚的認識に基づいた前提条件と効果が含まれます。
ブレードは、手動でラベル付けされた状態または象徴的な定義なしで、そのような構造化された表現を自動的に回復できます。
ブレードは、新しい初期状態、外部状態摂動、新しい目標など、新しい状況に一般化する重要な能力を示しています。
シミュレーションと、明確な部分、部分的な観測可能性、幾何学的制約を備えたオブジェクトの多様なセットを備えた実際のロボットの両方でのアプローチの有効性を検証します。

要約(オリジナル)

We introduce Behavior from Language and Demonstration (BLADE), a framework for long-horizon robotic manipulation by integrating imitation learning and model-based planning. BLADE leverages language-annotated demonstrations, extracts abstract action knowledge from large language models (LLMs), and constructs a library of structured, high-level action representations. These representations include preconditions and effects grounded in visual perception for each high-level action, along with corresponding controllers implemented as neural network-based policies. BLADE can recover such structured representations automatically, without manually labeled states or symbolic definitions. BLADE shows significant capabilities in generalizing to novel situations, including novel initial states, external state perturbations, and novel goals. We validate the effectiveness of our approach both in simulation and on real robots with a diverse set of objects with articulated parts, partial observability, and geometric constraints.

arxiv情報

著者 Weiyu Liu,Neil Nie,Ruohan Zhang,Jiayuan Mao,Jiajun Wu
発行日 2025-05-28 05:19:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.RO | Learning Compositional Behaviors from Demonstration and Language はコメントを受け付けていません

Soft Electrothermal Meta-Actuator for Robust Multifunctional Control

要約

ソフトな電気的アクチュエーターは、単純さ、コンプライアンス、および制御の容易さのために、多様なアプリケーションドメインに非常に興味深いものです。
ただし、熱的に誘導される機械的作動の性質は、固有の動き、環境感受性、パッシブ冷却によって制限された遅い応答時間:固有の操作制約を設定します。
これらの制約を克服するために、薄膜のエンジニアリング熱伝達を使用して多機能操作を実現するメタアクチュエーターアーキテクチャを提案します。
大量のたわみ($ \ geq $ 28%の0.75 w)で電気的に選択可能な双方向運動を示し、従来のアクチュエーター(> 100 $ \ times $ dower)と比較した場合の周囲温度変化に対する熱感度を抑制し、残りの状態に積極的に強制的に戻されます。
さらに、メタアクチュエーターのアプローチにより、複雑なオブジェクトを操作するための拡張範囲の動きが可能になることを示します。
汎用性の高いソフトグリッパー操作は、ソフトロボット工学とデバイスのメタアクチュエーターの可能性を強調しています。

要約(オリジナル)

Soft electrothermal actuators are of great interest in diverse application domains for their simplicity, compliance, and ease of control. However, the very nature of thermally induced mechanical actuation sets inherent operation constraints: unidirectional motion, environmental sensitivity, and slow response times limited by passive cooling. To overcome these constraints, we propose a meta-actuator architecture, which uses engineered heat transfer in thin films to achieve multifunctional operation. We demonstrate electrically selectable bidirectional motion with large deflection ($ \geq $28% of actuator length at 0.75 W), suppressed thermal sensitivity to ambient temperature changes when compared to conventional actuators (>100$ \times $ lower), and actively forced return to the rest state, which is 10 times faster than that with passive cooling. We further show that our meta-actuator approach enables extended ranges of motions for manipulating complex objects. Versatile soft gripper operations highlight the meta-actuator’s potential for soft robotics and devices.

arxiv情報

著者 Hanseong Jo,Pavel Shafirin,Christopher Le,Caden Chan,Artur Davoyan
発行日 2025-05-28 05:45:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Soft Electrothermal Meta-Actuator for Robust Multifunctional Control はコメントを受け付けていません

Exploring Remote Collaborative Tasks: The Impact of Avatar Representation on Dyadic Haptic Interactions in Shared Virtual Environments

要約

この研究は、共有仮想環境(SVE)における触覚相互作用とアバターの表現との相互作用を初めて調査しました。
具体的には、これらの要因が、ダイアディックコラボレーション中のユーザーのソーシャルプレゼンスの感覚をどのように形成し、タスクのパフォーマンスに対する潜在的な影響を評価します。
一連の実験では、参加者は4つのアバター表現条件の下で触覚と相互作用する共同作業を実行しました。参加者とパートナーの両方のアバターが表示され、参加者のアバターのみが表示され、パートナーのアバターのみが表示され、アバターは表示されませんでした。
この研究では、アバターの表現、特にパートナーの表現は、触覚の相互作用だけでは完全には達成されていない社会的存在の認識を大幅に高めることがわかりました。
ただし、アバター表現の存在もタイプもタスクのパフォーマンスまたは参加者のタスクの強制努力に影響を与えず、触覚相互作用がタスクの実行に十分な相互作用の手がかりを提供することを示唆しています。
これらの結果は、視覚的および触覚的なモダリティの両方を統合して仮想環境でのリモートコラボレーションエクスペリエンスを最適化し、効果的なコミュニケーションと強力な社会的存在感を確保することの重要性を強調しています。

要約(オリジナル)

This study is the first to explore the interplay between haptic interaction and avatar representation in Shared Virtual Environments (SVEs). Specifically, how these factors shape users’ sense of social presence during dyadic collaborations, while assessing potential effects on task performance. In a series of experiments, participants performed the collaborative task with haptic interaction under four avatar representation conditions: avatars of both participant and partner were displayed, only the participant’s avatar was displayed, only the partner’s avatar was displayed, and no avatars were displayed. The study finds that avatar representation, especially of the partner, significantly enhances the perception of social presence, which haptic interaction alone does not fully achieve. However, neither the presence nor the type of avatar representation impacts the task performance or participants’ force effort of the task, suggesting that haptic interaction provides sufficient interaction cues for the execution of the task. These results underscore the significance of integrating both visual and haptic modalities to optimize remote collaboration experiences in virtual environments, ensuring effective communication and a strong sense of social presence.

arxiv情報

著者 Genki Sasaki,Hiroshi Igarashi
発行日 2025-05-28 06:11:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.RO | Exploring Remote Collaborative Tasks: The Impact of Avatar Representation on Dyadic Haptic Interactions in Shared Virtual Environments はコメントを受け付けていません

HAND Me the Data: Fast Robot Adaptation via Hand Path Retrieval

要約

私たちは、人間の手のデモンストレーションを通してロボットを教えるためのシンプルで時間効率の良い方法であるコミュニティハンドを渡します。
手動で収集されたタスク固有のロボットデモンストレーションに依存する代わりに、ハンドは簡単にプロビッドできる手のデモンストレーションを使用して、タスクに依存しないロボット再生データから関連する行動を取得します。
視覚的な追跡パイプラインを使用して、手の手の動きを手で抽出し、2つの段階でロボットのサブトリューションを取得します。最初に視覚的類似性によるフィルタリング、次に同様の動作を持つ軌跡を取得します。
検索されたデータに関するポリシーを微調整すると、キャリブレーションされたカメラや詳細なハンドポーズの推定を必要とせずに、4分以内にタスクのリアルタイム学習を可能にします。
また、実験は、実際のロボットでの平均タスク成功率で、ハンドアウトパフォーマンスの検索ベースラインが2倍以上であることを示しています。
ビデオは、プロジェクトWebサイトhttps://liralab.usc.edu/handretrieval/にあります。

要約(オリジナル)

We hand the community HAND, a simple and time-efficient method for teaching robots new manipulation tasks through human hand demonstrations. Instead of relying on task-specific robot demonstrations collected via teleoperation, HAND uses easy-to-provide hand demonstrations to retrieve relevant behaviors from task-agnostic robot play data. Using a visual tracking pipeline, HAND extracts the motion of the human hand from the hand demonstration and retrieves robot sub-trajectories in two stages: first filtering by visual similarity, then retrieving trajectories with similar behaviors to the hand. Fine-tuning a policy on the retrieved data enables real-time learning of tasks in under four minutes, without requiring calibrated cameras or detailed hand pose estimation. Experiments also show that HAND outperforms retrieval baselines by over 2x in average task success rates on real robots. Videos can be found at our project website: https://liralab.usc.edu/handretrieval/.

arxiv情報

著者 Matthew Hong,Anthony Liang,Kevin Kim,Harshitha Rajaprakash,Jesse Thomason,Erdem Bıyık,Jesse Zhang
発行日 2025-05-28 07:21:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | HAND Me the Data: Fast Robot Adaptation via Hand Path Retrieval はコメントを受け付けていません

From Failures to Fixes: LLM-Driven Scenario Repair for Self-Evolving Autonomous Driving

要約

堅牢で一般化可能な自律運転を確保するには、幅広いシナリオのカバレッジだけでなく、障害ケース、特に挑戦的で安全性の高いシナリオに関連するケースの効率的な修復も必要です。
ただし、既存のシナリオの生成と選択方法は、適応性とセマンティックな関連性を欠いていることが多く、パフォーマンスの改善への影響が制限されます。
この論文では、ターゲットシナリオの推奨を通じて故障ケースを修復することにより自律的な駆動システムが自己進化できるようにするLLM駆動のフレームワークである\ textBf {sera}を提案します。
パフォーマンスログを分析することにより、Seraは障害パターンを識別し、構造化された銀行からセマンティックに整列したシナリオを動的に取得します。
LLMベースの反射メカニズムは、関連性と多様性を最大化するために、これらの推奨事項をさらに改善します。
選択されたシナリオは、少数のショットの微調整に使用され、最小限のデータでターゲットを絞った適応を可能にします。
ベンチマークでの実験は、Seraが複数の自律運転ベースライン全体で重要なメトリックを一貫して改善し、安全性が批判的な条件下での有効性と一般化可能性を実証することを示しています。

要約(オリジナル)

Ensuring robust and generalizable autonomous driving requires not only broad scenario coverage but also efficient repair of failure cases, particularly those related to challenging and safety-critical scenarios. However, existing scenario generation and selection methods often lack adaptivity and semantic relevance, limiting their impact on performance improvement. In this paper, we propose \textbf{SERA}, an LLM-powered framework that enables autonomous driving systems to self-evolve by repairing failure cases through targeted scenario recommendation. By analyzing performance logs, SERA identifies failure patterns and dynamically retrieves semantically aligned scenarios from a structured bank. An LLM-based reflection mechanism further refines these recommendations to maximize relevance and diversity. The selected scenarios are used for few-shot fine-tuning, enabling targeted adaptation with minimal data. Experiments on the benchmark show that SERA consistently improves key metrics across multiple autonomous driving baselines, demonstrating its effectiveness and generalizability under safety-critical conditions.

arxiv情報

著者 Xinyu Xia,Xingjun Ma,Yunfeng Hu,Ting Qu,Hong Chen,Xun Gong
発行日 2025-05-28 07:46:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO | From Failures to Fixes: LLM-Driven Scenario Repair for Self-Evolving Autonomous Driving はコメントを受け付けていません

A Hybrid Multi-Factor Network with Dynamic Sequence Modeling for Early Warning of Intraoperative Hypotension

要約

IOHが不十分な臓器灌流につながり、重度の合併症と死亡率のリスクを大幅に高める可能性があるため、過去の生理学的信号を使用した術中低血圧(IOH)予測が重要です。
ただし、現在の方法は、静的モデリングに依存しており、複雑な時間的依存性と生理学的信号の本質的に非定常性を見下ろすことに依存しています。
IOH予測を動的シーケンス予測タスクとして定式化するハイブリッドマルチファクター(HMF)ネットワークを提案し、時間的依存性と生理学的非定常性の両方を明示的にキャプチャします。
信号ダイナミクスを多変量時系列として表し、それらをトレンドと季節コンポーネントに分解し、長期的および定期的な変動の個別のモデリングを可能にします。
各コンポーネントは、計算効率と機能表現のバランスをとるために、パッチベースのトランスでエンコードされています。
進化するシグナルからの分布ドリフトに対処するために、対称的な正規化メカニズムを導入します。
公共および現実世界の臨床データセットの両方での実験は、HMFが競争の激しいベースラインを大幅に上回ることを示しています。
HMFはIOH予測に関する新しい洞察を提供し、最終的により安全な外科的ケアを促進することを願っています。
私たちのコードは、https://github.com/mingyue-cheng/hmfで入手できます。

要約(オリジナル)

Intraoperative hypotension (IOH) prediction using past physiological signals is crucial, as IOH may lead to inadequate organ perfusion and significantly elevate the risk of severe complications and mortality. However, current methods often rely on static modeling, overlooking the complex temporal dependencies and the inherently non-stationary nature of physiological signals. We propose a Hybrid Multi-Factor (HMF) network that formulates IOH prediction as a dynamic sequence forecasting task, explicitly capturing both temporal dependencies and physiological non-stationarity. We represent signal dynamics as multivariate time series and decompose them into trend and seasonal components, enabling separate modeling of long-term and periodic variations. Each component is encoded with a patch-based Transformer to balance computational efficiency and feature representation. To address distributional drift from evolving signals, we introduce a symmetric normalization mechanism. Experiments on both public and real-world clinical datasets show that HMF significantly outperforms competitive baselines. We hope HMF offers new insights into IOH prediction and ultimately promotes safer surgical care. Our code is available at https://github.com/Mingyue-Cheng/HMF.

arxiv情報

著者 Mingyue Cheng,Jintao Zhang,Zhiding Liu,Chunli Liu
発行日 2025-05-28 08:04:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | A Hybrid Multi-Factor Network with Dynamic Sequence Modeling for Early Warning of Intraoperative Hypotension はコメントを受け付けていません

A simulation framework for autonomous lunar construction work

要約

複数の自律マシンを含む月の建設作業のシミュレーションフレームワークを提示します。
このフレームワークは、建設シナリオと自律ソリューションのモデリング、シミュレーションにおけるシナリオの実行、および建設プロジェクト全体の作業時間とエネルギー消費の分析をサポートしています。
シミュレーションは、車両と土壌の相互作用力や土壌の流れをリアルタイムで含む、マルチボディダイナミクスと変形可能な地形に接触するための物理ベースのモデルに基づいています。
動作ツリーは、運用ロジックとエラー処理を管理します。これにより、モジュラー階層構造の単純なタスクの個別のセットを介して複雑な動作を表現できます。
高レベルの意思決定は、低レベルのコントロールアルゴリズムから分離され、2つはROS2を介して接続されています。
掘削の動きは、逆運動と追跡コントローラーを通じて制御されます。
フレームワークは、2つの異なる月の構造シナリオでテストおよび実証されています。

要約(オリジナル)

We present a simulation framework for lunar construction work involving multiple autonomous machines. The framework supports modelling of construction scenarios and autonomy solutions, execution of the scenarios in simulation, and analysis of work time and energy consumption throughout the construction project. The simulations are based on physics-based models for contacting multibody dynamics and deformable terrain, including vehicle-soil interaction forces and soil flow in real time. A behaviour tree manages the operational logic and error handling, which enables the representation of complex behaviours through a discrete set of simpler tasks in a modular hierarchical structure. High-level decision-making is separated from lower-level control algorithms, with the two connected via ROS2. Excavation movements are controlled through inverse kinematics and tracking controllers. The framework is tested and demonstrated on two different lunar construction scenarios.

arxiv情報

著者 Mattias Linde,Daniel Lindmark,Sandra Ålstig,Martin Servin
発行日 2025-05-28 08:16:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | A simulation framework for autonomous lunar construction work はコメントを受け付けていません

ReinFlow: Fine-tuning Flow Matching Policy with Online Reinforcement Learning

要約

継続的なロボット制御のためにフローマッチングポリシーのファミリーを微調整するシンプルでありながら効果的なオンライン強化学習(RL)フレームワークであるReinflowを提案します。
厳密なRL理論から導き出されたラインフローは、学習可能なノイズをフローポリシーの決定論的パスに注入し、正確かつ単純な尤度計算のために、流れを離散時間マルコフプロセスに変換します。
この変換により、探索が促進され、トレーニングの安定性が保証され、ラインフローが整流フロー[35]やショートカットモデル[19]を含む多様なフローモデルバリアントを微調整できるようにします。
視覚的な入力とまばらな報酬を備えた長老の計画を含む、代表的な移動および操作タスクのリネフローをベンチマークします。
修正フローポリシーのエピソード報酬は、最先端の拡散RL微調整法dppoと比較して、除去ステップと壁の時間の82.63%を節約しながら、格子運動の挑戦で微調整した後、135.36%の平均正味成長を獲得しました[43]。
状態および視覚操作タスクのショートカットモデルポリシーの成功率は、4つまたは1つの除去ステップでラインフローで微調整した後、平均純増加を達成しました。
プロジェクトWebページ:https://reinflow.github.io/

要約(オリジナル)

We propose ReinFlow, a simple yet effective online reinforcement learning (RL) framework that fine-tunes a family of flow matching policies for continuous robotic control. Derived from rigorous RL theory, ReinFlow injects learnable noise into a flow policy’s deterministic path, converting the flow into a discrete-time Markov Process for exact and straightforward likelihood computation. This conversion facilitates exploration and ensures training stability, enabling ReinFlow to fine-tune diverse flow model variants, including Rectified Flow [35] and Shortcut Models [19], particularly at very few or even one denoising step. We benchmark ReinFlow in representative locomotion and manipulation tasks, including long-horizon planning with visual input and sparse reward. The episode reward of Rectified Flow policies obtained an average net growth of 135.36% after fine-tuning in challenging legged locomotion tasks while saving denoising steps and 82.63% of wall time compared to state-of-the-art diffusion RL fine-tuning method DPPO [43]. The success rate of the Shortcut Model policies in state and visual manipulation tasks achieved an average net increase of 40.34% after fine-tuning with ReinFlow at four or even one denoising step, whose performance is comparable to fine-tuned DDIM policies while saving computation time for an average of 23.20%. Project Webpage: https://reinflow.github.io/

arxiv情報

著者 Tonghe Zhang,Yu Chao,Sicang Su,Yu Wang
発行日 2025-05-28 08:17:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | ReinFlow: Fine-tuning Flow Matching Policy with Online Reinforcement Learning はコメントを受け付けていません

Efficient Dynamic Shielding for Parametric Safety Specifications

要約

シールドは、AI制御された自律システムの安全性を確保するための有望なアプローチとして浮上しています。
アルゴリズムの目標は、安全性が損なわれる可能性がある場合にAIコントローラーのアクションを監視および介入する必要があるランタイム安全施行ツールであるシールドを計算することです。
従来のシールドは、特定の安全要件のために静的に設計されています。
したがって、動作条件の変化により安全要件が実行時に変更される場合、シールドはゼロから再計算され、致命的な遅延を引き起こす必要があります。
パラメトリック安全仕様の動的シールドを導入します。パラメトリック安全仕様は、実行時に遭遇する可能性のあるすべての可能な安全仕様の簡潔に表されているセットです。
私たちの動的シールドは、特定の安全パラメーターセット向けに静的に設計されており、実行時に真の安全仕様(パラメーターで許容)が明らかになるにつれて動的に適応することができます。
主なアルゴリズムの斬新さは、動的な適応手順にあります。これは、最大の許容性など、標準の安全シールドの既知の機能を利用するシンプルで高速なアルゴリズムです。
未知の地域のロボットナビゲーション問題の実験結果を報告します。そこでは、実行時に新しい障害が発見されるにつれて安全仕様が進化します。
実験では、ダイナミックシールドはオフラインデザインに数分かかり、各ステップでのオンライン適応に数秒から数秒かかりましたが、ブルートフォースオンラインの再構成アプローチは最大5倍遅くなりました。

要約(オリジナル)

Shielding has emerged as a promising approach for ensuring safety of AI-controlled autonomous systems. The algorithmic goal is to compute a shield, which is a runtime safety enforcement tool that needs to monitor and intervene the AI controller’s actions if safety could be compromised otherwise. Traditional shields are designed statically for a specific safety requirement. Therefore, if the safety requirement changes at runtime due to changing operating conditions, the shield needs to be recomputed from scratch, causing delays that could be fatal. We introduce dynamic shields for parametric safety specifications, which are succinctly represented sets of all possible safety specifications that may be encountered at runtime. Our dynamic shields are statically designed for a given safety parameter set, and are able to dynamically adapt as the true safety specification (permissible by the parameters) is revealed at runtime. The main algorithmic novelty lies in the dynamic adaptation procedure, which is a simple and fast algorithm that utilizes known features of standard safety shields, like maximal permissiveness. We report experimental results for a robot navigation problem in unknown territories, where the safety specification evolves as new obstacles are discovered at runtime. In our experiments, the dynamic shields took a few minutes for their offline design, and took between a fraction of a second and a few seconds for online adaptation at each step, whereas the brute-force online recomputation approach was up to 5 times slower.

arxiv情報

著者 Davide Corsi,Kaushik Mallik,Andoni Rodriguez,Cesar Sanchez
発行日 2025-05-28 08:30:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.LO, cs.RO, cs.SY, eess.SY | Efficient Dynamic Shielding for Parametric Safety Specifications はコメントを受け付けていません

JEDI: Latent End-to-end Diffusion Mitigates Agent-Human Performance Asymmetry in Model-Based Reinforcement Learning

要約

モデルベースの強化学習(MBRL)の最近の進歩は、強力な拡散ワールドモデルで訓練された強化学習エージェントによって駆動されるATARI100Kベンチマークで超ヒューマンレベルのパフォーマンスを達成しました。
ただし、現在の集合体が主要なパフォーマンスの非対称性をマスクすることを特定します。MBRLエージェントは、他の人では劇的にパフォーマンスが低下しているにもかかわらず、一部のタスクで人間を劇的に上回り、前者は総メトリックを膨らませます。
これは、拡散世界モデルで訓練されたピクセルベースのエージェントで特に顕著です。
この作業では、ピクセルベースの薬剤で観察された顕著な非対称性に対処します。
すべてのタスクをエージェントオプティマルまたはヒトオプティマルとして描写し、両方のセットのメトリックを同等に重要性を提唱することにより、問題のある集約に対処します。
次に、この顕著な非対称性は、ピクセルベースの方法で世界モデルの目的で訓練された一時的に構造化された潜在的な潜在スペースの欠如によるものであると仮定します。
最後に、この問題に対処するために、共同潜在拡散の世界モデルである共同潜在拡散拡散(JEDI)を提案することを提案します。
Jediは、Atari100Kベンチマーク全体で競争力を維持しながら、人間の最適なタスクでSOTAモデルを上回り、最新のピクセルベースの拡散ベースラインよりも43%低いメモリで3倍速く走ります。
全体として、私たちの仕事は、Atari100Kで人間レベルのパフォーマンスを超えることが本当に意味することを再考します。

要約(オリジナル)

Recent advances in model-based reinforcement learning (MBRL) have achieved super-human level performance on the Atari100k benchmark, driven by reinforcement learning agents trained on powerful diffusion world models. However, we identify that the current aggregates mask a major performance asymmetry: MBRL agents dramatically outperform humans in some tasks despite drastically underperforming in others, with the former inflating the aggregate metrics. This is especially pronounced in pixel-based agents trained with diffusion world models. In this work, we address the pronounced asymmetry observed in pixel-based agents as an initial attempt to reverse the worrying upward trend observed in them. We address the problematic aggregates by delineating all tasks as Agent-Optimal or Human-Optimal and advocate for equal importance on metrics from both sets. Next, we hypothesize this pronounced asymmetry is due to the lack of temporally-structured latent space trained with the World Model objective in pixel-based methods. Lastly, to address this issue, we propose Joint Embedding DIffusion (JEDI), a novel latent diffusion world model trained end-to-end with the self-consistency objective. JEDI outperforms SOTA models in human-optimal tasks while staying competitive across the Atari100k benchmark, and runs 3 times faster with 43% lower memory than the latest pixel-based diffusion baseline. Overall, our work rethinks what it truly means to cross human-level performance in Atari100k.

arxiv情報

著者 Jing Yu Lim,Zarif Ikram,Samson Yu,Haozhe Ma,Tze-Yun Leong,Dianbo Liu
発行日 2025-05-28 08:56:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | JEDI: Latent End-to-end Diffusion Mitigates Agent-Human Performance Asymmetry in Model-Based Reinforcement Learning はコメントを受け付けていません