Critique-GRPO: Advancing LLM Reasoning with Natural Language and Numerical Feedback

要約

スカラー報酬のような数値フィードバックを用いた強化学習(RL)の最近の進歩は、大規模言語モデル(LLM)の複雑な推論能力を著しく向上させた。この成功にもかかわらず、我々は、数値フィードバックのみを用いたRLが遭遇する3つの主要な課題を特定する。そして、RLで調整されたモデルは、性能の停滞を示した後でも、批評という形の自然言語フィードバックを活用することで、失敗が続く問題に対して正しい改良を生成できることを実証する。この洞察に基づき、我々はCritique-GRPOを提案する。Critique-GRPOは、効果的な政策最適化のために自然言語と数値フィードバックの両方を統合するオンラインRLフレームワークである。Critique-GRPOは、LLMが探索を維持しながら、初期応答と批評に導かれた改良から同時に学習することを可能にする。Qwen2.5-7B-BaseとQwen3-8B-Baseを用いた広範な実験により、Critique-GRPOは、8つの難易度の高い数学、STEM、一般推論タスクにおいて、教師あり学習ベースやRLベースの微調整アプローチを一貫して凌駕し、平均pass@1スコアをそれぞれ約4.5%と5%向上させることが示された。特に、Critique-GRPOは、オンラインRLに専門家のデモンストレーションを組み込んだ強力なベースラインを上回っている。さらに分析を進めると、政策探索に関する2つの重要な洞察が明らかになった。(1)エントロピーが高くても、探索による効率的な学習が保証されるとは限らないこと、(2)回答が長くても、より効果的な探索につながるとは限らないこと。

要約(オリジナル)

Recent advances in reinforcement learning (RL) with numerical feedback, such as scalar rewards, have significantly enhanced the complex reasoning capabilities of large language models (LLMs). Despite this success, we identify three key challenges encountered by RL with solely numerical feedback: performance plateaus, limited effectiveness of self-reflection, and persistent failures. We then demonstrate that RL-finetuned models, even after exhibiting performance plateaus, can generate correct refinements on persistently failed problems by leveraging natural language feedback in the form of critiques. Building on this insight, we propose Critique-GRPO, an online RL framework that integrates both natural language and numerical feedback for effective policy optimization. Critique-GRPO enables LLMs to learn from initial responses and critique-guided refinements simultaneously while maintaining exploration. Extensive experiments using Qwen2.5-7B-Base and Qwen3-8B-Base show that Critique-GRPO consistently outperforms supervised learning-based and RL-based fine-tuning approaches across eight challenging mathematical, STEM, and general reasoning tasks, improving average pass@1 scores by approximately 4.5% and 5%, respectively. Notably, Critique-GRPO surpasses a strong baseline that incorporates expert demonstrations within online RL. Further analysis reveals two critical insights about policy exploration: (1) higher entropy does not always guarantee efficient learning from exploration, and (2) longer responses do not necessarily lead to more effective exploration.

arxiv情報

著者 Xiaoying Zhang,Hao Sun,Yipeng Zhang,Kaituo Feng,Chaochao Lu,Chao Yang,Helen Meng
発行日 2025-06-04 13:45:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL | Critique-GRPO: Advancing LLM Reasoning with Natural Language and Numerical Feedback はコメントを受け付けていません

UniWorld: High-Resolution Semantic Encoders for Unified Visual Understanding and Generation

要約

既存の統一モデルは、視覚言語理解やテキストから画像への生成では高い性能を発揮しますが、実用的なアプリケーションでますます要求されるようになった画像知覚や画像操作への対応には依然として限界があります。最近、OpenAIは強力なGPT-4o-Imageモデルを発表し、包括的な画像知覚と操作の高度な能力を示し、広く関心を呼び起こした。慎重に設計された実験を通して、我々はGPT-4-o-Imageが特徴抽出のためにVAEよりもむしろセマンティックエンコーダに依存している可能性が高いことを観察した。この洞察に触発され、我々はUniWorldを提案する。UniWorldは、強力なマルチモーダル大規模言語モデルと対照的意味エンコーダから抽出された意味特徴に基づいて構築された統一的な生成フレームワークである。UniWorldは、わずか270万個の学習データを用いて、画像理解、生成、操作、知覚を含む多様なタスクにおいて素晴らしい性能を達成した。UniWorldフレームワークは、モデル重み、学習・評価スクリプト、データセットを含め、完全にオープンソース化されており、再現性とさらなる研究を促進する。

要約(オリジナル)

Although existing unified models achieve strong performance in vision-language understanding and text-to-image generation, they remain limited in addressing image perception and manipulation — capabilities increasingly demanded in practical applications. Recently, OpenAI introduced the powerful GPT-4o-Image model, which showcases advanced capabilities in comprehensive image perception and manipulation, sparking widespread interest. Through carefully designed experiments, we observe that GPT-4o-Image likely relies on semantic encoders rather than VAEs for feature extraction, despite VAEs being commonly regarded as crucial for image manipulation tasks. Inspired by this insight, we propose UniWorld, a unified generative framework built upon semantic features extracted from powerful multimodal large language models and contrastive semantic encoders. Using only 2.7M training data, UniWorld achieves impressive performance across diverse tasks, including image understanding, generation, manipulation, and perception. We fully open-source the UniWorld framework, including model weights, training and evaluation scripts, and datasets to promote reproducibility and further research.

arxiv情報

著者 Bin Lin,Zongjian Li,Xinhua Cheng,Yuwei Niu,Yang Ye,Xianyi He,Shenghai Yuan,Wangbo Yu,Shaodong Wang,Yunyang Ge,Yatian Pang,Li Yuan
発行日 2025-06-04 14:45:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.CV | UniWorld: High-Resolution Semantic Encoders for Unified Visual Understanding and Generation はコメントを受け付けていません

FlySearch: Exploring how vision-language models explore

要約

現実の世界は混乱しており、構造化されていない。重要な情報を発見するためには、しばしば能動的で目標主導型の探索が必要となる。最近、多くの困難なタスクで人気のゼロショット・ツールとして登場した視覚言語モデル(VLM)が、このような状況下で効果的に動作できるかどうかはまだわからない。本論文では、複雑なシーンでオブジェクトを検索し、ナビゲートするための3D、屋外、フォトリアリスティックな環境であるFlySearchを導入することで、この疑問に答える。我々は、難易度の異なる3つのシナリオを定義し、最先端のVLMでは、最も単純な探索タスクでさえも確実に解決できないことを観察した。我々は、幻覚から文脈の誤解、タスク計画の失敗まで、一連の中心的な原因を特定し、そのうちのいくつかは微調整によって対処可能であることを示す。ベンチマーク、シナリオ、コードベースを公開する。

要約(オリジナル)

The real world is messy and unstructured. Uncovering critical information often requires active, goal-driven exploration. It remains to be seen whether Vision-Language Models (VLMs), which recently emerged as a popular zero-shot tool in many difficult tasks, can operate effectively in such conditions. In this paper, we answer this question by introducing FlySearch, a 3D, outdoor, photorealistic environment for searching and navigating to objects in complex scenes. We define three sets of scenarios with varying difficulty and observe that state-of-the-art VLMs cannot reliably solve even the simplest exploration tasks, with the gap to human performance increasing as the tasks get harder. We identify a set of central causes, ranging from vision hallucination, through context misunderstanding, to task planning failures, and we show that some of them can be addressed by finetuning. We publicly release the benchmark, scenarios, and the underlying codebase.

arxiv情報

著者 Adam Pardyl,Dominik Matuszek,Mateusz Przebieracz,Marek Cygan,Bartosz Zieliński,Maciej Wołczyk
発行日 2025-06-04 09:32:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG, cs.RO | FlySearch: Exploring how vision-language models explore はコメントを受け付けていません

On the class of coding optimality of human languages and the origins of Zipf’s law

要約

ここでは、符号化システムの最適性に関する新しいクラスを提示する。そのクラスのメンバーは、最適符号化から直線的にずれるので、Zipfの法則、すなわち頻度ランクのべき乗分布を示す。このクラスの中では、Zipfの法則、サイズランクの法則、サイズ確率の法則がグループ的な構造を形成する。我々は、このクラスのメンバーである人間の言語を特定する。Zipfの法則と十分な一致を示すすべての言語は、クラスの潜在的なメンバーである。一方、他の生物種には、指数分布を示すためにこのクラスのメンバーにはなり得ないコミュニケーションシステムが存在するが、イルカやザトウクジラはその可能性がある。私たちは、頻度対ランクのプロットを両対数スケールで示すことで、新たな知見を提供する。どのようなシステムにおいても、そのスケールにおける直線は、非特異符号化と一意に復号可能な符号化における最適符号の長さが、Zipfの法則の指数を傾きとする一次関数によって変位することを示している。圧縮され、一意に復号可能であることが制約されたシステムの場合、このような直線はシステムが最適に近い符号化をしていることを示すかもしれない。我々は、Zipfの法則が圧縮に由来するという仮説を支持し、圧縮システムにおいてZipfの法則が出現するための検証可能な条件を定義する。

要約(オリジナル)

Here we present a new class of optimality for coding systems. Members of that class are displaced linearly from optimal coding and thus exhibit Zipf’s law, namely a power-law distribution of frequency ranks. Within that class, Zipf’s law, the size-rank law and the size-probability law form a group-like structure. We identify human languages that are members of the class. All languages showing sufficient agreement with Zipf’s law are potential members of the class. In contrast, there are communication systems in other species that cannot be members of that class for exhibiting an exponential distribution instead but dolphins and humpback whales might. We provide a new insight into plots of frequency versus rank in double logarithmic scale. For any system, a straight line in that scale indicates that the lengths of optimal codes under non-singular coding and under uniquely decodable encoding are displaced by a linear function whose slope is the exponent of Zipf’s law. For systems under compression and constrained to be uniquely decodable, such a straight line may indicate that the system is coding close to optimality. We provide support for the hypothesis that Zipf’s law originates from compression and define testable conditions for the emergence of Zipf’s law in compressing systems.

arxiv情報

著者 Ramon Ferrer-i-Cancho
発行日 2025-06-04 11:35:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, physics.soc-ph | On the class of coding optimality of human languages and the origins of Zipf’s law はコメントを受け付けていません

Multi Layered Autonomy and AI Ecologies in Robotic Art Installations

要約

バオヤン・チェン(baoyangchen.com)による大規模なインスタレーション「Symbiosis of Agents」は、AIを駆使したロボットを鏡張りの没入型アリーナに組み込み、機械の意志と芸術的な作家性の間の緊張を探る。初期のサイバネティクス、ルールに基づいたコンセプチュアル・アート、そしてロボットの代表的な作品を引用し、ロボットアーム、四足歩行マシン、その環境、そして一般の人々の間で流動的な交流が行われる。ミクロ・レベルの適応戦術、メゾ・レベルの物語駆動、そしてマクロ・レベルの最高指令。このヒエラルキーによって、環境からの合図や観客の呼吸にさえ反応して行動が有機的に進化し、観客をドラマ展開の共同作者にする。疎外された労働力の歴史的な搾取を想起させる、投機的なテラフォーミングのシナリオに縁取られたこの作品は、AIが介在する未来において誰が責任を負うのかを問う。振り付けされた動き、AIが生成した台本、反応する照明、漂う霧は、ロボットを道具としてではなく、協力者として投影し、生きた創発的な作品を作り上げている。国際的に展示される「Symbiosis of Agents」は、サイバネティック・フィードバック、ロボットによる実験、コンセプチュアルなルールメイキングが、現代アートにおけるエージェンシー、作家性、倫理を再定義するために、どのように収束しうるかを示している。

要約(オリジナル)

Symbiosis of Agents is a large-scale installation by Baoyang Chen (baoyangchen.com) that embeds AI-driven robots in an immersive, mirror-lined arena, probing the tension between machine agency and artistic authorship. Drawing on early cybernetics, rule-based conceptual art, and seminal robotic works, it orchestrates fluid exchanges among robotic arms, quadruped machines, their environment, and the public. A three tier faith system pilots the ecology: micro-level adaptive tactics, meso-level narrative drives, and a macro-level prime directive. This hierarchy lets behaviors evolve organically in response to environmental cues and even a viewer’s breath, turning spectators into co-authors of the unfolding drama. Framed by a speculative terraforming scenario that recalls the historical exploitation of marginalized labor, the piece asks who bears responsibility in AI-mediated futures. Choreographed motion, AI-generated scripts, reactive lighting, and drifting fog cast the robots as collaborators rather than tools, forging a living, emergent artwork. Exhibited internationally, Symbiosis of Agents shows how cybernetic feedback, robotic experimentation, and conceptual rule-making can converge to redefine agency, authorship, and ethics in contemporary art.

arxiv情報

著者 Baoyang Chen,Xian Xu,Huamin Qu
発行日 2025-06-04 04:57:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.RO | Multi Layered Autonomy and AI Ecologies in Robotic Art Installations はコメントを受け付けていません

GL-LowPopArt: A Nearly Instance-Wise Minimax-Optimal Estimator for Generalized Low-Rank Trace Regression

要約

我々は、一般化された低ランクのトレース回帰のための新しいCatoniスタイルの推定器である`GL-LowPopArt`を発表する。LowPopArt` (Jang et al., 2024)に基づき、核ノルム正則化の後に行列Catoni推定を行う2段階のアプローチを採用する。我々は、既存の保証(Fan et al., 2019; Kang et al., 2022)を上回る最先端の推定誤差境界を確立し、新しい実験設計目的$mathrm{GL}( \pi)$ を明らかにする。重要な技術的課題は、非線形逆リンク関数からのバイアスを制御することであり、我々は2段階のアプローチによってこれに対処する。我々は、`GL-LowPopArt`がインスタンス毎の最適性を基底真理ヘシアンの条件数まで享受することを示し、*局所的*な最小下界を証明する。応用例としては、`GL-LowPopArt`が最先端のフロベニウス誤差保証を達成する一般化線形行列補完や、一般的な選好学習(Zhang et al., 2024)に触発された新しい設定である**双線形決闘山賊**がある。GL-LowPopArt`に基づくexplore-then-commitアルゴリズムの解析により、ベクトル化よりも改善されたボルダ後悔限界とともに、新しい潜在的に興味深い問題依存量が明らかになった(Wu et al., 2024)。

要約(オリジナル)

We present `GL-LowPopArt`, a novel Catoni-style estimator for generalized low-rank trace regression. Building on `LowPopArt` (Jang et al., 2024), it employs a two-stage approach: nuclear norm regularization followed by matrix Catoni estimation. We establish state-of-the-art estimation error bounds, surpassing existing guarantees (Fan et al., 2019; Kang et al., 2022), and reveal a novel experimental design objective, $\mathrm{GL}(\pi)$. The key technical challenge is controlling bias from the nonlinear inverse link function, which we address by our two-stage approach. We prove a *local* minimax lower bound, showing that our `GL-LowPopArt` enjoys instance-wise optimality up to the condition number of the ground-truth Hessian. Applications include generalized linear matrix completion, where `GL-LowPopArt` achieves a state-of-the-art Frobenius error guarantee, and **bilinear dueling bandits**, a novel setting inspired by general preference learning (Zhang et al., 2024). Our analysis of a `GL-LowPopArt`-based explore-then-commit algorithm reveals a new, potentially interesting problem-dependent quantity, along with improved Borda regret bound than vectorization (Wu et al., 2024).

arxiv情報

著者 Junghyun Lee,Kyoungseok Jang,Kwang-Sung Jun,Milan Vojnović,Se-Young Yun
発行日 2025-06-04 02:09:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, stat.ML | GL-LowPopArt: A Nearly Instance-Wise Minimax-Optimal Estimator for Generalized Low-Rank Trace Regression はコメントを受け付けていません

DyePack: Provably Flagging Test Set Contamination in LLMs Using Backdoors

要約

オープンベンチマークは、再現性と透明性を提供し、大規模な言語モデルの評価と発展に不可欠である。しかし、そのアクセスのしやすさから、テストセット汚染の標的となりやすい。この研究では、バックドア攻撃を利用して、損失、ロジット、モデルの内部詳細へのアクセスを必要とせずに、トレーニング中にベンチマークテストセットを使用したモデルを識別するフレームワークであるDyePackを紹介します。銀行が強盗をマークするためにお金に染料パックを混ぜるように、DyePackはテストデータにバックドアサンプルを混ぜて、そのデータで学習したモデルにフラグを立てる。我々は、確率的なターゲットを持つ複数のバックドアを組み込んだ原理的な設計を提案し、すべてのモデルにフラグを立てる際に正確な偽陽性率(FPR)の計算を可能にする。これにより、検出されたすべての汚染事例に対して強力な証拠を提供しながら、冤罪を証明的に防ぐことができる。DyePackを3つのデータセットで5つのモデルで評価した。多肢選択問題では、8つのバックドアを用いて、MMLU-Proで0.000073%、Big-Bench-Hardで0.000017%という低いFPRを保証し、すべての汚染モデルの検出に成功しました。オープンエンドの生成タスクでは、Alpaca上で6つのバックドアを用いて、0.127%の誤検出率ですべての汚染モデルを検出することができます。

要約(オリジナル)

Open benchmarks are essential for evaluating and advancing large language models, offering reproducibility and transparency. However, their accessibility makes them likely targets of test set contamination. In this work, we introduce DyePack, a framework that leverages backdoor attacks to identify models that used benchmark test sets during training, without requiring access to the loss, logits, or any internal details of the model. Like how banks mix dye packs with their money to mark robbers, DyePack mixes backdoor samples with the test data to flag models that trained on it. We propose a principled design incorporating multiple backdoors with stochastic targets, enabling exact false positive rate (FPR) computation when flagging every model. This provably prevents false accusations while providing strong evidence for every detected case of contamination. We evaluate DyePack on five models across three datasets, covering both multiple-choice and open-ended generation tasks. For multiple-choice questions, it successfully detects all contaminated models with guaranteed FPRs as low as 0.000073% on MMLU-Pro and 0.000017% on Big-Bench-Hard using eight backdoors. For open-ended generation tasks, it generalizes well and identifies all contaminated models on Alpaca with a guaranteed false positive rate of just 0.127% using six backdoors.

arxiv情報

著者 Yize Cheng,Wenxiao Wang,Mazda Moayeri,Soheil Feizi
発行日 2025-06-04 02:31:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL | DyePack: Provably Flagging Test Set Contamination in LLMs Using Backdoors はコメントを受け付けていません

MobCLIP: Learning General-purpose Geospatial Representation at Scale

要約

地理空間上の位置の表現学習は、一般的な地理空間知能を実現する上で、依然として中心的な課題である。現在のエンベッディング手法は汎用性に欠けることが多く、人間や自然の領域における多様なタスクでの利用が制限されている。我々は、効果的でスケーラブルなマルチモーダル融合により、これまでにない多様なデータモダリティを統合した、全国初の汎用位置エンコーダであるMobCLIPを発表する。新しいCLIPベースのアーキテクチャを採用した我々のフレームワークは、100M以上のPOI、全国のリモートセンシング画像、および構造化された人口統計と、10億エッジのモビリティグラフを整合する。ビジョントランスフォーマーに触発されたグリッドセルに空間位置をトークン化することで、モビリティパターンとマルチモーダル特徴を橋渡しする統一的な表現空間を確立する。MobCLIPの汎用的な有効性を厳密に評価するために、社会、経済、自然の領域にわたる11の下流予測タスクからなるベンチマークデータセットを構築する。実験の結果、4つの入力モダリティと128次元のコンパクトな表現空間を持つMobCLIPは、最先端モデルよりも平均35%有意に優れた汎用予測性能を達成することが示された。人間中心のモダリティを効果的に統合したおかげで、エネルギー消費量予測(+260%)、オフライン小売消費量予測(+98%)、犯罪事件予測(+95%)など、人間中心のタスクにおいて性能向上が特に顕著である。LLMのスケーリング則に倣って、地理空間表現学習におけるスケーリング動作をさらに実証する。コードと事前学習済みモデルは https://github.com/ylzhouchris/MobCLIP でオープンソース化している。

要約(オリジナル)

Representation learning of geospatial locations remains a core challenge in achieving general geospatial intelligence. Current embedding methods often lack versatility, limiting their utility across diverse tasks in both human and natural domains. We present MobCLIP, the first nationwide general-purpose location encoder, integrating an unprecedented diversity of data modalities through effective and scalable multimodal fusion. Adopting a novel CLIP-based architecture, our framework aligns 100M+ POIs, nationwide remote sensing imagery, and structured demographic statistics with a billion-edge mobility graph. By tokenizing spatial locations into grid cells inspired by Vision Transformers, we establish a unified representation space bridging mobility patterns and multimodal features. To rigorously evaluate the general-purpose effectiveness of MobCLIP, we construct a benchmark dataset composed of 11 downstream prediction tasks across social, economic, and natural domains. Experiments show that MobCLIP, with four input modalities and a compact 128-dimensional representation space, achieves significantly superior general-purpose predictive performances than state-of-the-art models by an average of 35%. Thanks to the effective integration of human-centric modalities, the performance gain is particularly profound in human-centric tasks, such as energy consumption (+260%), offline retail consumption amount (+98%), and crime cases (+95%) predictions. Echoing LLM scaling laws, we further demonstrate the scaling behavior in geospatial representation learning. We open-source code and pretrained models at: https://github.com/ylzhouchris/MobCLIP.

arxiv情報

著者 Ya Wen,Jixuan Cai,Qiyao Ma,Linyan Li,Xinhua Chen,Chris Webster,Yulun Zhou
発行日 2025-06-04 02:07:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI | MobCLIP: Learning General-purpose Geospatial Representation at Scale はコメントを受け付けていません

Learning Autonomous Surgical Irrigation and Suction with the da Vinci Research Kit Using Reinforcement Learning

要約

灌流-吸引プロセスは、低侵襲手術(MIS)において術野をすすぎ、清潔にするための一般的な手順である。このプロセスでは、外科医はまず液体(典型的には生理食塩水)を術野に灌注し、汚染物質をすすいで希釈した後、液体を術野から吸引する。最近の進歩により、外科手術のサブタスクの自動化のための強化学習(RL)の適用において有望な結果が示されているが、液体に関連するタスクの自動化について検討した研究は少ない。本研究では、灌流と吸引の両手順の自動化を検討し、灌流と吸引を自律的に行う2つの視覚ベースのRLエージェントを訓練する。そのために、手術ロボットの学習環境をシミュレートし、エージェントを訓練するためのプラットフォームを開発し、灌流と吸引のための2つのシミュレートされた学習環境を構築する。領域ランダム化(DR)や注意深く設計された報酬関数などの技術により、2つのエージェントがシミュレータで訓練され、実世界に転送される。両エージェントの個々の評価は、満足のいく実世界での結果を示している。初期の汚染物質量が約5グラムの場合、灌漑エージェントは最終的に、手動吸引後に平均2.21グラムの残留を達成した。比較として、人間による完全な手動操作では、残量は1.90グラムとなる。吸引剤は、容器内の初期液量が20グラム以上と30グラム以上の2つの試験群で、2.64グラムと2.24グラムの残液を達成した。完全に自律的な灌漑吸引試験では、容器内の汚染物質が約5グラムから平均2.42グラムに減少したが、吸引されなかった残留液体があるため、総残留重量(4.40)は高くなった。このプロジェクトに関する詳細は、https://tbs-ualberta.github.io/CRESSim/。

要約(オリジナル)

The irrigation-suction process is a common procedure to rinse and clean up the surgical field in minimally invasive surgery (MIS). In this process, surgeons first irrigate liquid, typically saline, into the surgical scene for rinsing and diluting the contaminant, and then suction the liquid out of the surgical field. While recent advances have shown promising results in the application of reinforcement learning (RL) for automating surgical subtasks, fewer studies have explored the automation of fluid-related tasks. In this work, we explore the automation of both steps in the irrigation-suction procedure and train two vision-based RL agents to complete irrigation and suction autonomously. To achieve this, a platform is developed for creating simulated surgical robot learning environments and for training agents, and two simulated learning environments are built for irrigation and suction with visually plausible fluid rendering capabilities. With techniques such as domain randomization (DR) and carefully designed reward functions, two agents are trained in the simulator and transferred to the real world. Individual evaluations of both agents show satisfactory real-world results. With an initial amount of around 5 grams of contaminants, the irrigation agent ultimately achieved an average of 2.21 grams remaining after a manual suction. As a comparison, fully manual operation by a human results in 1.90 grams remaining. The suction agent achieved 2.64 and 2.24 grams of liquid remaining across two trial groups with more than 20 and 30 grams of initial liquid in the container. Fully autonomous irrigation-suction trials reduce the contaminant in the container from around 5 grams to an average of 2.42 grams, although yielding a higher total weight remaining (4.40) due to residual liquid not suctioned. Further information about the project is available at https://tbs-ualberta.github.io/CRESSim/.

arxiv情報

著者 Yafei Ou,Mahdi Tavakoli
発行日 2025-06-03 02:26:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.RO | Learning Autonomous Surgical Irrigation and Suction with the da Vinci Research Kit Using Reinforcement Learning はコメントを受け付けていません

One Policy but Many Worlds: A Scalable Unified Policy for Versatile Humanoid Locomotion

要約

従来の強化学習(RL)手法では、タスク固有の報酬が必要であり、訓練地形が増えるにつれて増大するデータセットを活用するのに苦労する。我々はDreamPolicyを提案する。DreamPolicyは、オフラインデータと拡散駆動型モーション合成を系統的に統合することにより、単一のポリシーで多様な地形をマスターし、未知のシナリオにゼロショットを汎化することを可能にする統合フレームワークである。その中核となるDreamPolicyは、ヒューマノイドモーションイメージ(HMI)を導入しています。HMIは、様々な異なる地形に特化したポリシーからのロールアウトを集約することでキュレートされた、自己回帰的な地形を意識した拡散プランナーによって合成された未来の状態予測です。手間のかかるリターゲティングを必要とするヒューマンモーションデータセットとは異なり、我々のデータはヒューマノイドの運動特性を直接キャプチャしており、拡散プランナーが地形固有の物理的制約をエンコードした「夢見た」軌道を合成することを可能にしている。これらの軌道は、HMI条件付きポリシーの動的目標として機能し、手作業による報酬工学を回避し、地形横断的な汎化を可能にする。DreamPolicyは、従来の手法のスケーラビリティの限界に対処している。従来のRLが増大するデータセットを利用できないのに対して、我々のフレームワークはオフラインのデータが増えてもシームレスにスケールする。データセットが拡大するにつれて、拡散事前学習はより豊富なロコモーションスキルを学習し、ポリシーは再トレーニングなしで新しい地形をマスターするためにこれを活用する。実験によれば、DreamPolicyは訓練環境において平均90%の成功率を達成し、未知の地形では一般的な手法よりも平均20%高い成功率を達成する。また、先行アプローチが破綻するような摂動シナリオや複合シナリオにも一般化する。オフラインデータ、拡散ベースの軌道合成、ポリシー最適化を統合することで、DreamPolicyは「1タスク1ポリシー」のボトルネックを克服し、スケーラブルなデータ駆動型ヒューマノイド制御のパラダイムを確立する。

要約(オリジナル)

Humanoid locomotion faces a critical scalability challenge: traditional reinforcement learning (RL) methods require task-specific rewards and struggle to leverage growing datasets, even as more training terrains are introduced. We propose DreamPolicy, a unified framework that enables a single policy to master diverse terrains and generalize zero-shot to unseen scenarios by systematically integrating offline data and diffusion-driven motion synthesis. At its core, DreamPolicy introduces Humanoid Motion Imagery (HMI) – future state predictions synthesized through an autoregressive terrain-aware diffusion planner curated by aggregating rollouts from specialized policies across various distinct terrains. Unlike human motion datasets requiring laborious retargeting, our data directly captures humanoid kinematics, enabling the diffusion planner to synthesize ‘dreamed’ trajectories that encode terrain-specific physical constraints. These trajectories act as dynamic objectives for our HMI-conditioned policy, bypassing manual reward engineering and enabling cross-terrain generalization. DreamPolicy addresses the scalability limitations of prior methods: while traditional RL fails to exploit growing datasets, our framework scales seamlessly with more offline data. As the dataset expands, the diffusion prior learns richer locomotion skills, which the policy leverages to master new terrains without retraining. Experiments demonstrate that DreamPolicy achieves average 90% success rates in training environments and an average of 20% higher success on unseen terrains than the prevalent method. It also generalizes to perturbed and composite scenarios where prior approaches collapse. By unifying offline data, diffusion-based trajectory synthesis, and policy optimization, DreamPolicy overcomes the ‘one task, one policy’ bottleneck, establishing a paradigm for scalable, data-driven humanoid control.

arxiv情報

著者 Yahao Fan,Tianxiang Gui,Kaiyang Ji,Shutong Ding,Chixuan Zhang,Jiayuan Gu,Jingyi Yu,Jingya Wang,Ye Shi
発行日 2025-06-03 03:10:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, cs.RO | One Policy but Many Worlds: A Scalable Unified Policy for Versatile Humanoid Locomotion はコメントを受け付けていません