RiverMamba: A State Space Model for Global River Discharge and Flood Forecasting

要約

河川排出予測の最近の深い学習アプローチにより、洪水予測の精度と効率が向上し、リスク管理のためのより信頼性の高い早期警告システムが可能になりました。
それにもかかわらず、水文学における既存の深い学習アプローチは、地域規模の用途に大きく限定されており、水域の固有の空間的接続を活用しません。
したがって、科学的および運用上の用途のための河川の排出と洪水予測を改善するために、時空間関係をモデル化できる新しい深い学習方法論が強い必要性があります。
これに対処するために、長期的な再分析データで事前に処理されており、世界の河川の排出と洪水を予測することができる新しい深い学習モデルであるRivermambaを提示します。
これを達成するために、Rivermambaは、モデルがグローバルスケールチャネルネットワークルーティングをキャプチャし、より長いリードタイムの​​予測機能を強化できるようにする効率的なMambaブロックを活用します。
予測ブロックは、時空間モデリングを通じて不正確さを考慮しながら、ECMWF HRES気象予測を統合します。
私たちの分析は、リバーマンバが河川放電の信頼できる予測を実現していることを示しています。これには、戻り期間とリードタイム全体にわたる極端な洪水が含まれ、運用上のAIおよび物理学ベースのモデルの両方を超えています。

要約(オリジナル)

Recent deep learning approaches for river discharge forecasting have improved the accuracy and efficiency in flood forecasting, enabling more reliable early warning systems for risk management. Nevertheless, existing deep learning approaches in hydrology remain largely confined to local-scale applications and do not leverage the inherent spatial connections of bodies of water. Thus, there is a strong need for new deep learning methodologies that are capable of modeling spatio-temporal relations to improve river discharge and flood forecasting for scientific and operational applications. To address this, we present RiverMamba, a novel deep learning model that is pretrained with long-term reanalysis data and that can forecast global river discharge and floods on a $0.05^\circ$ grid up to 7 days lead time, which is of high relevance in early warning. To achieve this, RiverMamba leverages efficient Mamba blocks that enable the model to capture global-scale channel network routing and enhance its forecast capability for longer lead times. The forecast blocks integrate ECMWF HRES meteorological forecasts, while accounting for their inaccuracies through spatio-temporal modeling. Our analysis demonstrates that RiverMamba delivers reliable predictions of river discharge, including extreme floods across return periods and lead times, surpassing both operational AI- and physics-based models.

arxiv情報

著者 Mohamad Hakam Shams Eddin,Yikui Zhang,Stefan Kollet,Juergen Gall
発行日 2025-05-29 08:55:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | RiverMamba: A State Space Model for Global River Discharge and Flood Forecasting はコメントを受け付けていません

DexUMI: Using Human Hand as the Universal Manipulation Interface for Dexterous Manipulation

要約

Dexumiは、人間の手を自然なインターフェイスとして使用して、さまざまなロボットの手に器用な操作スキルを転送するデータ収集と政策学習のフレームワークを提示します。
Dexumiには、人間の手とさまざまなロボットの手の間の具体化のギャップを最小限に抑えるために、ハードウェアとソフトウェアの適応が含まれています。
ハードウェアの適応は、ウェアラブルハンドエキソ販売を使用して運動学のギャップを橋渡しします。
操作データ収集における直接的な触覚フィードバックを可能にし、人間の動きを実行可能なロボットの手の動きに適応させます。
ソフトウェアの適応は、ビデオデータの人間の手を高忠実度のロボットの手に入れて入力することにより、視覚的なギャップを橋渡しします。
2つの異なる器用なロボットハンドウェアプラットフォームでの包括的な実世界の実験を通じてDexumiの機能を実証し、平均タスク成功率86%を達成します。

要約(オリジナル)

We present DexUMI – a data collection and policy learning framework that uses the human hand as the natural interface to transfer dexterous manipulation skills to various robot hands. DexUMI includes hardware and software adaptations to minimize the embodiment gap between the human hand and various robot hands. The hardware adaptation bridges the kinematics gap using a wearable hand exoskeleton. It allows direct haptic feedback in manipulation data collection and adapts human motion to feasible robot hand motion. The software adaptation bridges the visual gap by replacing the human hand in video data with high-fidelity robot hand inpainting. We demonstrate DexUMI’s capabilities through comprehensive real-world experiments on two different dexterous robot hand hardware platforms, achieving an average task success rate of 86%.

arxiv情報

著者 Mengda Xu,Han Zhang,Yifan Hou,Zhenjia Xu,Linxi Fan,Manuela Veloso,Shuran Song
発行日 2025-05-29 05:14:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | DexUMI: Using Human Hand as the Universal Manipulation Interface for Dexterous Manipulation はコメントを受け付けていません

ReinFlow: Fine-tuning Flow Matching Policy with Online Reinforcement Learning

要約

継続的なロボット制御のためにフローマッチングポリシーのファミリーを微調整するシンプルでありながら効果的なオンライン強化学習(RL)フレームワークであるReinflowを提案します。
厳密なRL理論から導き出されたラインフローは、学習可能なノイズをフローポリシーの決定論的パスに注入し、正確かつ単純な尤度計算のために、流れを離散時間マルコフプロセスに変換します。
この変換により、探索が促進され、トレーニングの安定性が保証され、ラインフローが整流フロー[35]やショートカットモデル[19]を含む多様なフローモデルバリアントを微調整できるようにします。
視覚的な入力とまばらな報酬を備えた長老の計画を含む、代表的な移動および操作タスクのリネフローをベンチマークします。
修正フローポリシーのエピソード報酬は、最先端の拡散RL微調整法dppoと比較して、除去ステップと壁の時間の82.63%を節約しながら、格子運動の挑戦で微調整した後、135.36%の平均正味成長を獲得しました[43]。
状態および視覚操作タスクのショートカットモデルポリシーの成功率は、4つまたは1つの除去ステップでラインフローで微調整した後、平均純増加を達成しました。
プロジェクトWebページ:https://reinflow.github.io/

要約(オリジナル)

We propose ReinFlow, a simple yet effective online reinforcement learning (RL) framework that fine-tunes a family of flow matching policies for continuous robotic control. Derived from rigorous RL theory, ReinFlow injects learnable noise into a flow policy’s deterministic path, converting the flow into a discrete-time Markov Process for exact and straightforward likelihood computation. This conversion facilitates exploration and ensures training stability, enabling ReinFlow to fine-tune diverse flow model variants, including Rectified Flow [35] and Shortcut Models [19], particularly at very few or even one denoising step. We benchmark ReinFlow in representative locomotion and manipulation tasks, including long-horizon planning with visual input and sparse reward. The episode reward of Rectified Flow policies obtained an average net growth of 135.36% after fine-tuning in challenging legged locomotion tasks while saving denoising steps and 82.63% of wall time compared to state-of-the-art diffusion RL fine-tuning method DPPO [43]. The success rate of the Shortcut Model policies in state and visual manipulation tasks achieved an average net increase of 40.34% after fine-tuning with ReinFlow at four or even one denoising step, whose performance is comparable to fine-tuned DDIM policies while saving computation time for an average of 23.20%. Project webpage: https://reinflow.github.io/

arxiv情報

著者 Tonghe Zhang,Chao Yu,Sichang Su,Yu Wang
発行日 2025-05-29 02:18:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | ReinFlow: Fine-tuning Flow Matching Policy with Online Reinforcement Learning はコメントを受け付けていません

AutoBio: A Simulation and Benchmark for Robotic Automation in Digital Biology Laboratory

要約

Vision-Language-action(VLA)モデルは、視覚、言語、および固有受容のモダリティを共同で活用してアクション軌道を生成することにより、一般主義ロボットポリシーとして有望であることを示しています。
最近のベンチマークでは、国内のタスクにおけるVLAの高度な研究がありますが、専門的な科学志向のドメインは依存していないままです。
生物学の実験室環境でロボット自動化を評価するために設計されたシミュレーションフレームワークとベンチマークであるAutobioを紹介します。これは、構造化されたプロトコルと厳しい精度とマルチモーダルの相互作用を組み合わせたアプリケーションドメインです。
Autobioは、現実世界の実験室機器、実験室ワークフローに遍在するメカニズムのための特殊な物理プラグイン、および物理的に基づくレンダリングを通じて動的機器インターフェイスと透過材料をサポートするレンダリングスタックをデジタル化するためのパイプラインを通じて、既存のシミュレーション機能を拡張します。
私たちのベンチマークは、3つの難易度レベルにまたがる生物学的に接地されたタスクで構成され、実験プロトコルにおける言語誘導ロボット操作の標準化された評価を可能にします。
デモンストレーションの生成とVLAモデルとのシームレスな統合のためのインフラストラクチャを提供します。
2つのSOTA VLAモデルを使用したベースライン評価は、科学的ワークフローでの正確な操作、視覚的推論、および指導における重要なギャップを明らかにしています。
Autobioをリリースすることにより、複雑な、高精度、およびマルチモーダルの専門環境のためのジェネラリストロボットシステムに関する研究を触媒することを目指しています。
シミュレーターとベンチマークは、再現可能な研究を促進するために公開されています。

要約(オリジナル)

Vision-language-action (VLA) models have shown promise as generalist robotic policies by jointly leveraging visual, linguistic, and proprioceptive modalities to generate action trajectories. While recent benchmarks have advanced VLA research in domestic tasks, professional science-oriented domains remain underexplored. We introduce AutoBio, a simulation framework and benchmark designed to evaluate robotic automation in biology laboratory environments–an application domain that combines structured protocols with demanding precision and multimodal interaction. AutoBio extends existing simulation capabilities through a pipeline for digitizing real-world laboratory instruments, specialized physics plugins for mechanisms ubiquitous in laboratory workflows, and a rendering stack that support dynamic instrument interfaces and transparent materials through physically based rendering. Our benchmark comprises biologically grounded tasks spanning three difficulty levels, enabling standardized evaluation of language-guided robotic manipulation in experimental protocols. We provide infrastructure for demonstration generation and seamless integration with VLA models. Baseline evaluations with two SOTA VLA models reveal significant gaps in precision manipulation, visual reasoning, and instruction following in scientific workflows. By releasing AutoBio, we aim to catalyze research on generalist robotic systems for complex, high-precision, and multimodal professional environments. The simulator and benchmark are publicly available to facilitate reproducible research.

arxiv情報

著者 Zhiqian Lan,Yuxuan Jiang,Ruiqi Wang,Xuanbing Xie,Rongkui Zhang,Yicheng Zhu,Peihang Li,Tianshuo Yang,Tianxing Chen,Haoyu Gao,Xiaokang Yang,Xuelong Li,Hongyuan Zhang,Yao Mu,Ping Luo
発行日 2025-05-29 01:50:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | AutoBio: A Simulation and Benchmark for Robotic Automation in Digital Biology Laboratory はコメントを受け付けていません

Agent-UniRAG: A Trainable Open-Source LLM Agent Framework for Unified Retrieval-Augmented Generation Systems

要約

このペーパーでは、最近の新興大手言語モデル(LLM)エージェントコンセプトを使用して、統一された検索充電(RAG)システムの新しいアプローチを紹介します。
具体的には、LLMを基本的なコントローラーとして利用するエージェントLLMは、特に複雑な推論質問システム(たとえば、マルチホップクエリ)のために、RAGタスクの解釈可能性を可能にする有望なアプローチとなっています。
それにもかかわらず、以前の作業は主に、シングルホップまたはマルチホップアプローチのいずれかを個別に解決することに焦点を当てており、これらのアプローチのアプリケーションが実際のアプリケーションへのアプリケーションを制限しています。
この研究では、RAGシステムの有効性と解釈可能性を高める統合検索編成LLMシステムのエージェントユニラグと呼ばれるトレーニング可能なエージェントフレームワークを提案します。
主なアイデアは、LLMエージェントフレームワークを設計して、入力の複雑さに基づいて段階的なラグタスクを解決することです。同時に、シングルホップとマルチホップクエリをエンドツーエンドの方法で含めます。
さらに、小さなオープンソースLLMS(例:LLAMA-3-8B)の提案されたエージェントフレームワークを有効にするために、合成データセットであるSynagent-Ragを導入します。
結果は、さまざまなぼろきれベンチマークにわたる閉鎖ソースとより大きなオープンソースLLMと同等のパフォーマンスを示しています。
ソースコードとデータセットは、さらなる搾取のために公開されています。

要約(オリジナル)

This paper presents a novel approach for unified retrieval-augmented generation (RAG) systems using the recent emerging large language model (LLM) agent concept. Specifically, Agent LLM, which utilizes LLM as fundamental controllers, has become a promising approach to enable the interpretability of RAG tasks, especially for complex reasoning question-answering systems (e.g., multi-hop queries). Nonetheless, previous works mainly focus on solving RAG systems with either single-hop or multi-hop approaches separately, which limits the application of those approaches to real-world applications. In this study, we propose a trainable agent framework called Agent-UniRAG for unified retrieval-augmented LLM systems, which enhances the effectiveness and interpretability of RAG systems. The main idea is to design an LLM agent framework to solve RAG tasks step-by-step based on the complexity of the inputs, simultaneously including single-hop and multi-hop queries in an end-to-end manner. Furthermore, we introduce SynAgent-RAG, a synthetic dataset to enable the proposed agent framework for small open-source LLMs (e.g., Llama-3-8B). The results show comparable performances with closed-source and larger open-source LLMs across various RAG benchmarks. Our source code and dataset are publicly available for further exploitation.

arxiv情報

著者 Hoang Pham,Thuy-Duong Nguyen,Khac-Hoai Nam Bui
発行日 2025-05-29 01:52:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.DB, cs.IR | Agent-UniRAG: A Trainable Open-Source LLM Agent Framework for Unified Retrieval-Augmented Generation Systems はコメントを受け付けていません

MINDSTORES: Memory-Informed Neural Decision Synthesis for Task-Oriented Reinforcement in Embodied Systems

要約

大規模な言語モデル(LLM)は、具体化されたエージェントのゼロショットプランナーとして有望な能力を示していますが、経験から学び、持続的なメンタルモデルを構築できないことで、Minecraftのような複雑なオープンワールド環境での堅牢性が制限されます。
具体化されたエージェントが環境との自然な相互作用を通じてメンタルモデルを構築および活用できるようにする経験豊富な計画フレームワークであるMindstoresを紹介します。
人間が認知的メンタルモデルを構築および改良する方法からインスピレーションを得て、私たちのアプローチは、将来の計画の反復を知らせる過去の経験のデータベースを維持することにより、既存のゼロショットLLM計画を拡張します。
重要なイノベーションは、蓄積された経験を(状態、タスク、計画、結果)タプルの自然言語の埋め込みとして表しています。これは、LLMプランナーによって効率的に検索および推論され、新しい状態とタスクの洞察を生み出し、計画の改良をガイドすることができます。
Minecraftの低レベルコントロールを提供するMinecraftのエージェントのシミュレーション環境であるMinedojo環境での広範な実験を通じて、Mindstoresは既存のメモリベースのLLMプランナーよりも知識を学習し、適用しながら、ゼロショットアプローチの柔軟性と一般化の利点を維持し、より重要なAIシステムを実現することができます。

要約(オリジナル)

While large language models (LLMs) have shown promising capabilities as zero-shot planners for embodied agents, their inability to learn from experience and build persistent mental models limits their robustness in complex open-world environments like Minecraft. We introduce MINDSTORES, an experience-augmented planning framework that enables embodied agents to build and leverage mental models through natural interaction with their environment. Drawing inspiration from how humans construct and refine cognitive mental models, our approach extends existing zero-shot LLM planning by maintaining a database of past experiences that informs future planning iterations. The key innovation is representing accumulated experiences as natural language embeddings of (state, task, plan, outcome) tuples, which can then be efficiently retrieved and reasoned over by an LLM planner to generate insights and guide plan refinement for novel states and tasks. Through extensive experiments in the MineDojo environment, a simulation environment for agents in Minecraft that provides low-level controls for Minecraft, we find that MINDSTORES learns and applies its knowledge significantly better than existing memory-based LLM planners while maintaining the flexibility and generalization benefits of zero-shot approaches, representing an important step toward more capable embodied AI systems that can learn continuously through natural experience.

arxiv情報

著者 Anirudh Chari,Suraj Reddy,Aditya Tiwari,Richard Lian,Brian Zhou
発行日 2025-05-29 02:06:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | MINDSTORES: Memory-Informed Neural Decision Synthesis for Task-Oriented Reinforcement in Embodied Systems はコメントを受け付けていません

Surf2CT: Cascaded 3D Flow Matching Models for Torso 3D CT Synthesis from Skin Surface

要約

外部表面スキャンと単純な人口統計データ(年齢、性別、身長、体重)からのヒト胴体の完全な3Dコンピューター断層撮影(CT)ボリュームを合成する新しいカスケードフローマッチングフレームワークであるSurf2CTを提示します。
これは、内部イメージングなしで、外部の身体の形状と人口統計のみに基づいて、現実的なボリューム内部解剖学画像を生成できる最初のアプローチです。
Surf2CTは、3つの連続段階を進みます。(1)表面完成、条件付き3Dフローマッチングを使用して、部分的な胴体スキャンから完全な署名距離関数(SDF)を再構築します。
(2)粗いCT合成。完成したSDFおよび人口統計情報から低解像度のCTボリュームを生成します。
(3)CT超解像度。パッチごとの条件付きフローモデルを介して、粗いボリュームを高解像度CTに精製します。
各段階では、フローマッチングを介してトレーニングされた3Dに適応したEDM2バックボーンを使用します。
マサチューセッツ総合病院(MGH)とオートペットチャレンジから調達した3,198の胴体CTスキャン(約113万軸スライス)の合計データセットでモデルを訓練しました。
700のペアの胴体表面-CT症例の評価により、強い解剖学的忠実度が示されました。臓器量は小さな平均パーセント差(-11.1%から4.4%の範囲)を示し、筋肉/脂肪体組成メトリックは地上真理と強い相関(0.67から0.96の範囲)と一致しました。
肺の局在は最小限のバイアス(平均差-2.5 mm)を持ち、表面完成によりメトリックが大幅に改善されました(面取り距離:521.8 mmから2.7 mm、交差点統合:0.87から0.98)。
SURF2CTは、外部データのみ、在宅医療、予防医学の開放機会、および従来のイメージング技術に関連するリスクなしにパーソナライズされた臨床評価の機会を使用して、非侵襲的内部解剖学的イメージングの新しいパラダイムを確立します。

要約(オリジナル)

We present Surf2CT, a novel cascaded flow matching framework that synthesizes full 3D computed tomography (CT) volumes of the human torso from external surface scans and simple demographic data (age, sex, height, weight). This is the first approach capable of generating realistic volumetric internal anatomy images solely based on external body shape and demographics, without any internal imaging. Surf2CT proceeds through three sequential stages: (1) Surface Completion, reconstructing a complete signed distance function (SDF) from partial torso scans using conditional 3D flow matching; (2) Coarse CT Synthesis, generating a low-resolution CT volume from the completed SDF and demographic information; and (3) CT Super-Resolution, refining the coarse volume into a high-resolution CT via a patch-wise conditional flow model. Each stage utilizes a 3D-adapted EDM2 backbone trained via flow matching. We trained our model on a combined dataset of 3,198 torso CT scans (approximately 1.13 million axial slices) sourced from Massachusetts General Hospital (MGH) and the AutoPET challenge. Evaluation on 700 paired torso surface-CT cases demonstrated strong anatomical fidelity: organ volumes exhibited small mean percentage differences (range from -11.1% to 4.4%), and muscle/fat body composition metrics matched ground truth with strong correlation (range from 0.67 to 0.96). Lung localization had minimal bias (mean difference -2.5 mm), and surface completion significantly improved metrics (Chamfer distance: from 521.8 mm to 2.7 mm; Intersection-over-Union: from 0.87 to 0.98). Surf2CT establishes a new paradigm for non-invasive internal anatomical imaging using only external data, opening opportunities for home-based healthcare, preventive medicine, and personalized clinical assessments without the risks associated with conventional imaging techniques.

arxiv情報

著者 Siyeop Yoon,Yujin Oh,Pengfei Jin,Sifan Song,Matthew Tivnan,Dufan Wu,Xiang Li,Quanzheng Li
発行日 2025-05-29 01:25:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | Surf2CT: Cascaded 3D Flow Matching Models for Torso 3D CT Synthesis from Skin Surface はコメントを受け付けていません

A Provable Approach for End-to-End Safe Reinforcement Learning

要約

安全な補強学習(RL)における長年の目標は、学習から運用まで、プロセス全体を通してポリシーの安全性を確保する方法です。
ただし、既存の安全なRLパラダイムは本質的にこの目的を達成するのに苦労しています。
この課題に対処するためにオフラインセーフRLと安全なポリシー展開を統合する、実証的にLifetime Safe RL(PLS)と呼ばれる方法を提案します。
提案された方法は、返品条件付きの監視された学習を使用してオフラインでポリシーを学習し、結果として得られるポリシーを展開しながら、ガウスプロセス(GPS)を使用して、ターゲットリターンと呼ばれる限られたパラメーターセットを慎重に最適化します。
理論的には、ターゲットと実際のリターンの間の数学的関係を分析することにより、GPSの使用を正当化します。
次に、PLSは、高い確率で安全性を保証しながら、最適に近いターゲットリターンを見つけることを証明します。
経験的には、PLSは安全性と報酬パフォーマンスの両方でベースラインを上回ることを実証し、それにより、生涯を通じて学習から運用までのポリシーの安全性を確保しながら、高い報酬を得るという長年の目標を達成します。

要約(オリジナル)

A longstanding goal in safe reinforcement learning (RL) is a method to ensure the safety of a policy throughout the entire process, from learning to operation. However, existing safe RL paradigms inherently struggle to achieve this objective. We propose a method, called Provably Lifetime Safe RL (PLS), that integrates offline safe RL with safe policy deployment to address this challenge. Our proposed method learns a policy offline using return-conditioned supervised learning and then deploys the resulting policy while cautiously optimizing a limited set of parameters, known as target returns, using Gaussian processes (GPs). Theoretically, we justify the use of GPs by analyzing the mathematical relationship between target and actual returns. We then prove that PLS finds near-optimal target returns while guaranteeing safety with high probability. Empirically, we demonstrate that PLS outperforms baselines both in safety and reward performance, thereby achieving the longstanding goal to obtain high rewards while ensuring the safety of a policy throughout the lifetime from learning to operation.

arxiv情報

著者 Akifumi Wachi,Kohei Miyaguchi,Takumi Tanabe,Rei Sato,Youhei Akimoto
発行日 2025-05-28 00:48:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IT, cs.LG, cs.RO, math.IT | A Provable Approach for End-to-End Safe Reinforcement Learning はコメントを受け付けていません

Coarse-to-fine Q-Network with Action Sequence for Data-Efficient Robot Learning

要約

一連のアクションを予測することは、ロボット工学における最近の動作クローニングアルゴリズムの成功において重要でした。
同様のアイデアが強化学習(RL)を改善できますか?
グラウンドトゥルースの復帰を予測するときにアクションシーケンスを組み込むと、検証損失が低下することを観察することにより、肯定的に答えます。
これにより動機付けられているため、アクションシーケンス(CQN-AS)を使用して粗からファインのQネットワークを導入します。これは、アクションシーケンスの結果を学習するために価値関数を明示的にトレーニングするQ値を出力する批評家ネットワークを学習する新しい価値ベースのRLアルゴリズムです。
私たちの実験は、CQN-ASが、BigyMとRLBenchのさまざまなスパースリワードヒューマノイドコントロールと卓上操作タスクのいくつかのベースラインを上回ることを示しています。

要約(オリジナル)

Predicting a sequence of actions has been crucial in the success of recent behavior cloning algorithms in robotics. Can similar ideas improve reinforcement learning (RL)? We answer affirmatively by observing that incorporating action sequences when predicting ground-truth return-to-go leads to lower validation loss. Motivated by this, we introduce Coarse-to-fine Q-Network with Action Sequence (CQN-AS), a novel value-based RL algorithm that learns a critic network that outputs Q-values over a sequence of actions, i.e., explicitly training the value function to learn the consequence of executing action sequences. Our experiments show that CQN-AS outperforms several baselines on a variety of sparse-reward humanoid control and tabletop manipulation tasks from BiGym and RLBench.

arxiv情報

著者 Younggyo Seo,Pieter Abbeel
発行日 2025-05-28 01:11:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | Coarse-to-fine Q-Network with Action Sequence for Data-Efficient Robot Learning はコメントを受け付けていません

DexUMI: Using Human Hand as the Universal Manipulation Interface for Dexterous Manipulation

要約

Dexumiは、人間の手を自然なインターフェイスとして使用して、さまざまなロボットの手に器用な操作スキルを転送するデータ収集と政策学習のフレームワークを提示します。
Dexumiには、人間の手とさまざまなロボットの手の間の具体化のギャップを最小限に抑えるために、ハードウェアとソフトウェアの適応が含まれています。
ハードウェアの適応は、ウェアラブルハンドエキソ販売を使用して運動学のギャップを橋渡しします。
操作データ収集における直接的な触覚フィードバックを可能にし、人間の動きを実行可能なロボットの手の動きに適応させます。
ソフトウェアの適応は、ビデオデータの人間の手を高忠実度のロボットの手に入れて入力することにより、視覚的なギャップを橋渡しします。
2つの異なる器用なロボットハンドウェアプラットフォームでの包括的な実世界の実験を通じてDexumiの機能を実証し、平均タスク成功率86%を達成します。

要約(オリジナル)

We present DexUMI – a data collection and policy learning framework that uses the human hand as the natural interface to transfer dexterous manipulation skills to various robot hands. DexUMI includes hardware and software adaptations to minimize the embodiment gap between the human hand and various robot hands. The hardware adaptation bridges the kinematics gap using a wearable hand exoskeleton. It allows direct haptic feedback in manipulation data collection and adapts human motion to feasible robot hand motion. The software adaptation bridges the visual gap by replacing the human hand in video data with high-fidelity robot hand inpainting. We demonstrate DexUMI’s capabilities through comprehensive real-world experiments on two different dexterous robot hand hardware platforms, achieving an average task success rate of 86%.

arxiv情報

著者 Mengda Xu,Han Zhang,Yifan Hou,Zhenjia Xu,Linxi Fan,Manuela Veloso,Shuran Song
発行日 2025-05-28 01:25:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | DexUMI: Using Human Hand as the Universal Manipulation Interface for Dexterous Manipulation はコメントを受け付けていません