RayZer: A Self-supervised Large View Synthesis Model

要約

3Dの監督なしで訓練された自己監視マルチビュー3Dビジョンモデル、つまりカメラのポーズとシーンのジオメトリであるRayzerを紹介します。
具体的には、Rayzerは入力として位置付けられていない無音画像を採用し、カメラのパラメーターを回復し、シーン表現を再構築し、新しいビューを合成します。
トレーニング中、Rayzerはターゲットビューをレンダリングするために自己予測カメラのポーズのみに依存し、グラウンドカメラの注釈が必要になり、Rayzerを2D画像監視でトレーニングできるようにします。
Rayzerの新たな3D認識は、2つの重要な要因に起因しています。
まず、カメラとシーンの表現を解き放つことにより、入力画像の3Dが認識している自動エンコードを実現する自己監視フレームワークを設計します。
第二に、カメラ、ピクセル、シーンを同時に接続するレイ構造である唯一の3Dの前のモデルが同時にレイ構造である変圧器ベースのモデルを設計します。
Rayzerは、トレーニングとテストの両方でポーズアノテーションに依存する「Oracle」方法と同等または優れた新規ビューの合成性能を示しています。
プロジェクト:https://hwjiang1510.github.io/rayzer/

要約(オリジナル)

We present RayZer, a self-supervised multi-view 3D Vision model trained without any 3D supervision, i.e., camera poses and scene geometry, while exhibiting emerging 3D awareness. Concretely, RayZer takes unposed and uncalibrated images as input, recovers camera parameters, reconstructs a scene representation, and synthesizes novel views. During training, RayZer relies solely on its self-predicted camera poses to render target views, eliminating the need for any ground-truth camera annotations and allowing RayZer to be trained with 2D image supervision. The emerging 3D awareness of RayZer is attributed to two key factors. First, we design a self-supervised framework, which achieves 3D-aware auto-encoding of input images by disentangling camera and scene representations. Second, we design a transformer-based model in which the only 3D prior is the ray structure, connecting camera, pixel, and scene simultaneously. RayZer demonstrates comparable or even superior novel view synthesis performance than “oracle” methods that rely on pose annotations in both training and testing. Project: https://hwjiang1510.github.io/RayZer/

arxiv情報

著者 Hanwen Jiang,Hao Tan,Peng Wang,Haian Jin,Yue Zhao,Sai Bi,Kai Zhang,Fujun Luan,Kalyan Sunkavalli,Qixing Huang,Georgios Pavlakos
発行日 2025-05-01 17:59:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | RayZer: A Self-supervised Large View Synthesis Model はコメントを受け付けていません

T2I-R1: Reinforcing Image Generation with Collaborative Semantic-level and Token-level CoT

要約

大規模な言語モデルの最近の進歩により、チェーンオブシュー(COT)と補強学習(RL)がパフォーマンスを改善できる方法を実証しています。
ただし、このような推論戦略を視覚生成ドメインに適用することは、ほとんど未踏のままです。
このホワイトペーパーでは、BiレベルのCOT推論プロセスでRLを搭載した新しい推論強化テキストから画像の生成モデルであるT2I-R1を紹介します。
具体的には、生成のさまざまな段階を強化するために使用できる2つのレベルのCOTを特定します。(1)プロンプトの高レベル計画のためのセマンティックレベルのCOT、(2)パッチごとのパッチごとの低レベルピクセル処理用のトークンレベルのCOT。
これらの2つのレベルのCOTをより適切に調整するために、同じトレーニングステップ内で両方の生成COTをシームレスに最適化する世代の報酬のアンサンブルでBICOT-GRPOを紹介します。
ベースラインモデルのJanus-Proに推論戦略を適用することにより、T2I-Compbenchの13%の改善と賢明なベンチマークの19%の改善で優れたパフォーマンスを達成し、最先端のモデルフラックスを上回ります。
コードは、https://github.com/caraj7/t2i-r1で入手できます

要約(オリジナル)

Recent advancements in large language models have demonstrated how chain-of-thought (CoT) and reinforcement learning (RL) can improve performance. However, applying such reasoning strategies to the visual generation domain remains largely unexplored. In this paper, we present T2I-R1, a novel reasoning-enhanced text-to-image generation model, powered by RL with a bi-level CoT reasoning process. Specifically, we identify two levels of CoT that can be utilized to enhance different stages of generation: (1) the semantic-level CoT for high-level planning of the prompt and (2) the token-level CoT for low-level pixel processing during patch-by-patch generation. To better coordinate these two levels of CoT, we introduce BiCoT-GRPO with an ensemble of generation rewards, which seamlessly optimizes both generation CoTs within the same training step. By applying our reasoning strategies to the baseline model, Janus-Pro, we achieve superior performance with 13% improvement on T2I-CompBench and 19% improvement on the WISE benchmark, even surpassing the state-of-the-art model FLUX.1. Code is available at: https://github.com/CaraJ7/T2I-R1

arxiv情報

著者 Dongzhi Jiang,Ziyu Guo,Renrui Zhang,Zhuofan Zong,Hao Li,Le Zhuo,Shilin Yan,Pheng-Ann Heng,Hongsheng Li
発行日 2025-05-01 17:59:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | T2I-R1: Reinforcing Image Generation with Collaborative Semantic-level and Token-level CoT はコメントを受け付けていません

Controllable Weather Synthesis and Removal with Video Diffusion Models

要約

ビデオで現実的で制御可能な気象効果を生成することは、多くのアプリケーションにとって価値があります。
物理学ベースの気象シミュレーションには、ワイルドのビデオに拡大するのが難しい正確な再構成が必要ですが、現在のビデオ編集にはリアリズムとコントロールが欠けていることがよくあります。
この作業では、雨、雪、霧、雲などの多様な気象効果を合成するビデオ拡散モデルであるWeatherWeaverを、3Dモデリングを必要とせずに入力ビデオに直接紹介します。
私たちのモデルは、気象効果の強度を正確に制御し、さまざまな気象タイプのブレンドをサポートし、リアリズムと適応性の両方を確保します。
ペアのトレーニングデータの希少性を克服するために、合成ビデオ、生成画像編集、自動ラベルの実世界ビデオを組み合わせた新しいデータ戦略を提案します。
広範な評価により、私たちの方法は、気象シミュレーションと除去における最先端の方法よりも優れており、さまざまな現実世界のビデオで高品質で物理的にもっともらしい、シーンアイデンティティが提供する結果を提供します。

要約(オリジナル)

Generating realistic and controllable weather effects in videos is valuable for many applications. Physics-based weather simulation requires precise reconstructions that are hard to scale to in-the-wild videos, while current video editing often lacks realism and control. In this work, we introduce WeatherWeaver, a video diffusion model that synthesizes diverse weather effects — including rain, snow, fog, and clouds — directly into any input video without the need for 3D modeling. Our model provides precise control over weather effect intensity and supports blending various weather types, ensuring both realism and adaptability. To overcome the scarcity of paired training data, we propose a novel data strategy combining synthetic videos, generative image editing, and auto-labeled real-world videos. Extensive evaluations show that our method outperforms state-of-the-art methods in weather simulation and removal, providing high-quality, physically plausible, and scene-identity-preserving results over various real-world videos.

arxiv情報

著者 Chih-Hao Lin,Zian Wang,Ruofan Liang,Yuxuan Zhang,Sanja Fidler,Shenlong Wang,Zan Gojcic
発行日 2025-05-01 17:59:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR | Controllable Weather Synthesis and Removal with Video Diffusion Models はコメントを受け付けていません

How Real Are Synthetic Therapy Conversations? Evaluating Fidelity in Prolonged Exposure Dialogues

要約

ヘルスケアにおける合成データの採用の増大は、プライバシーの懸念、現実世界のデータへの限られたアクセス、および注釈の高いコストによって推進されています。
この研究では、臨床モデルのトレーニングと評価のためのスケーラブルな代替品として、心的外傷後ストレス障害(PTSD)の合成延長曝露(PE)治療的会話の使用を調査します。
ターンテイキングパターンや治療の忠実度を含む、言語、構造、およびプロトコル固有のメトリックを使用して、実際の対話と合成の対話を体系的に比較します。
また、言語分析とセマンティックモデリングに由来するPE固有のメトリックを導入および評価し、表面流fluさを超えた臨床的忠実度を評価するための新しいフレームワークを提供します。
私たちの調査結果は、合成データがデータの希少性を緩和し、患者のプライバシーを保護することを約束しているが、治療的相互作用の微妙なダイナミクスを捉えるのに苦労する可能性があることを示しています。
合成療法の対話は、実際の会話の構造的特徴と密接に一致します(例:スピーカースイッチ比:0.98対0.99)。
ただし、重要な忠実度マーカーを適切に反映していない場合があります(例:苦痛監視)。
既存の評価フレームワークのギャップを強調し、臨床的に重要な障害を明らかにするために表面の流encyさを超えた忠実度を意識したメトリックを提唱します。
私たちの調査結果は、合成データが現実世界のデータセットを効果的に補完できる場所、そして重大な制限がどこにあるかを明確にします。

要約(オリジナル)

The growing adoption of synthetic data in healthcare is driven by privacy concerns, limited access to real-world data, and the high cost of annotation. This work explores the use of synthetic Prolonged Exposure (PE) therapeutic conversations for Post-Traumatic Stress Disorder (PTSD) as a scalable alternative for training and evaluating clinical models. We systematically compare real and synthetic dialogues using linguistic, structural, and protocol-specific metrics, including turn-taking patterns and treatment fidelity. We also introduce and evaluate PE-specific metrics derived from linguistic analysis and semantic modeling, offering a novel framework for assessing clinical fidelity beyond surface fluency. Our findings show that although synthetic data holds promise for mitigating data scarcity and protecting patient privacy, it can struggle to capture the subtle dynamics of therapeutic interactions. Synthetic therapy dialogues closely match structural features of real-world conversations (e.g., speaker switch ratio: 0.98 vs. 0.99); however, they may not adequately reflect key fidelity markers (e.g., distress monitoring). We highlight gaps in existing evaluation frameworks and advocate for fidelity-aware metrics that go beyond surface fluency to uncover clinically significant failures. Our findings clarify where synthetic data can effectively complement real-world datasets — and where critical limitations remain.

arxiv情報

著者 Suhas BN,Dominik Mattioli,Saeed Abdullah,Rosa I. Arriaga,Chris W. Wiese,Andrew M. Sherrill
発行日 2025-05-01 16:44:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T50, cs.AI, cs.CL, cs.CY, cs.HC, I.2.7 | How Real Are Synthetic Therapy Conversations? Evaluating Fidelity in Prolonged Exposure Dialogues はコメントを受け付けていません

VecFontSDF: Learning to Reconstruct and Synthesize High-quality Vector Fonts via Signed Distance Functions

要約

フォント設計は、デジタルコンテンツデザインと最新の印刷業界で非常に重要です。
ベクトルフォントを自動的に合成できるアルゴリズムの開発は、フォント設計プロセスを大幅に促進できます。
ただし、既存の方法は主にラスター画像の生成に集中しており、ベクトルフォントを直接合成できるアプローチはごくわずかです。
このペーパーでは、署名距離関数(SDF)を使用して高品質のベクトルフォントを再構築および合成するためのエンドツーエンドのトレーニング可能な方法VecfontSDFを提案します。
具体的には、提案されているSDFベースの暗黙的な形状表現に基づいて、VecfontSDFは、各グリフをいくつかの放物線曲線に囲まれた形状プリミティブとしてモデル化することを学びます。
このように、ほとんどの画像生成方法は、ベクトルフォントを合成するために簡単に拡張できます。
公開可能なデータセットで実施された定性的および定量的実験は、ベクターフォントの再構築、補間、少数のショットベクターフォント合成など、いくつかのタスクで高品質の結果を得て、アートの状態を著しく上回ることを示しています。
コードと訓練されたモデルは、https://xiazeqing.github.io/vecfontsdfで入手できます。

要約(オリジナル)

Font design is of vital importance in the digital content design and modern printing industry. Developing algorithms capable of automatically synthesizing vector fonts can significantly facilitate the font design process. However, existing methods mainly concentrate on raster image generation, and only a few approaches can directly synthesize vector fonts. This paper proposes an end-to-end trainable method, VecFontSDF, to reconstruct and synthesize high-quality vector fonts using signed distance functions (SDFs). Specifically, based on the proposed SDF-based implicit shape representation, VecFontSDF learns to model each glyph as shape primitives enclosed by several parabolic curves, which can be precisely converted to quadratic B\’ezier curves that are widely used in vector font products. In this manner, most image generation methods can be easily extended to synthesize vector fonts. Qualitative and quantitative experiments conducted on a publicly-available dataset demonstrate that our method obtains high-quality results on several tasks, including vector font reconstruction, interpolation, and few-shot vector font synthesis, markedly outperforming the state of the art. Our code and trained models are available at https://xiazeqing.github.io/VecFontSDF.

arxiv情報

著者 Zeqing Xia,Bojun Xiong,Zhouhui Lian
発行日 2025-05-01 09:16:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | VecFontSDF: Learning to Reconstruct and Synthesize High-quality Vector Fonts via Signed Distance Functions はコメントを受け付けていません

How to Coordinate UAVs and UGVs for Efficient Mission Planning? Optimizing Energy-Constrained Cooperative Routing with a DRL Framework

要約

無人航空機(UAV)および無人の地上車両(UGV)を含む協同システムの効率的なミッション計画には、エージェント間のエネルギーの制約、スケーラビリティ、および調整の課題に対処する必要があります。
UAVは急速に広い領域をカバーしますが、バッテリー寿命が限られていることに制約されていますが、UGVは拡張された運用範囲とモバイル充電ステーションとして機能する能力を備えていますが、速度が遅くなります。
この不均一性により、UAVとUGVの間の調整により、最適なミッションの結果を達成するために重要になります。
この作業では、マルチエージェントUAV-AUGVチームのエネルギー制約のある協同ルーティング問題に対処するために、スケーラブルなディープ補強学習(DRL)フレームワークを提案します。
このフレームワークには、タスクポイントを割り当ててアクションを調整することにより、複数のエージェントを効率的に管理するために、ソーティワイズエージェントスイッチングが組み込まれています。
エンコーダーデコーダートランスアーキテクチャを使用して、タスクシナリオでUAV-AUGVチームのルートと充電ランデブーを最適化します。
広範な計算実験は、ヒューリスティックな方法とDRLベースラインよりもフレームワークの優れたパフォーマンスを実証し、多様なシナリオ全体でソリューション品質とランタイム効率の大幅な改善を実現します。
一般化研究はその堅牢性を検証し、動的シナリオはケーススタディでリアルタイムの変更に対する適応性を強調しています。
この作業は、マルチエージェントミッション計画にスケーラブルで効率的で堅牢なソリューションを提供することにより、UAV-AUGV協同ルーティングを進めます。

要約(オリジナル)

Efficient mission planning for cooperative systems involving Unmanned Aerial Vehicles (UAVs) and Unmanned Ground Vehicles (UGVs) requires addressing energy constraints, scalability, and coordination challenges between agents. UAVs excel in rapidly covering large areas but are constrained by limited battery life, while UGVs, with their extended operational range and capability to serve as mobile recharging stations, are hindered by slower speeds. This heterogeneity makes coordination between UAVs and UGVs critical for achieving optimal mission outcomes. In this work, we propose a scalable deep reinforcement learning (DRL) framework to address the energy-constrained cooperative routing problem for multi-agent UAV-UGV teams, aiming to visit a set of task points in minimal time with UAVs relying on UGVs for recharging during the mission. The framework incorporates sortie-wise agent switching to efficiently manage multiple agents, by allocating task points and coordinating actions. Using an encoder-decoder transformer architecture, it optimizes routes and recharging rendezvous for the UAV-UGV team in the task scenario. Extensive computational experiments demonstrate the framework’s superior performance over heuristic methods and a DRL baseline, delivering significant improvements in solution quality and runtime efficiency across diverse scenarios. Generalization studies validate its robustness, while dynamic scenario highlights its adaptability to real-time changes with a case study. This work advances UAV-UGV cooperative routing by providing a scalable, efficient, and robust solution for multi-agent mission planning.

arxiv情報

著者 Md Safwan Mondal,Subramanian Ramasamy,Luca Russo,James D. Humann,James M. Dotterweich,Pranav Bhounsule
発行日 2025-04-29 18:43:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | How to Coordinate UAVs and UGVs for Efficient Mission Planning? Optimizing Energy-Constrained Cooperative Routing with a DRL Framework はコメントを受け付けていません

NavEX: A Multi-Agent Coverage in Non-Convex and Uneven Environments via Exemplar-Clustering

要約

このペーパーでは、非凸環境および不均一な環境でのマルチエージェントの展開について説明します。
従来のアプローチの制限を克服するために、航行可能な模範的な派遣カバレッジ(Navex)を紹介します。これは、障害物と視覚障害のある最短距離と模範的なクラスタリングを組み合わせた新しいディスパッチカバレッジフレームワークであり、亜球の最適化に基づいた展開フレームワークを提供します。
Navexは、2つの重要なカバレッジタスクを解決するための統一されたアプローチを提供します。(a)エージェントターゲット距離を最小限に抑えることで公平なサービスを提供することを目的とした公正なアクセス展開と、(b)ホットスポットの展開、高密度ターゲット領域の優先順位付け。
Navexの重要な特徴は、カバレッジユーティリティ測定に模範となることを使用することです。これは、必ずしも三角形の不平等に適合しない非ユークリッド距離メトリックを柔軟に採用する柔軟性を提供します。
これにより、Navexは、平面障害のある環境で最も短いパス計算のための視認性グラフを組み込み、複雑で険しい地形に横断可能性対応RRT*を組み込むことができます。
サブモジュールの最適化を活用することにより、Navexフレームワークは、シミュレーションで示されているように、現実的で複雑な設定でのマルチエージェント展開の証明可能なパフォーマンス保証を備えた効率的でほぼ最適なソリューションを可能にします。

要約(オリジナル)

This paper addresses multi-agent deployment in non-convex and uneven environments. To overcome the limitations of traditional approaches, we introduce Navigable Exemplar-Based Dispatch Coverage (NavEX), a novel dispatch coverage framework that combines exemplar-clustering with obstacle-aware and traversability-aware shortest distances, offering a deployment framework based on submodular optimization. NavEX provides a unified approach to solve two critical coverage tasks: (a) fair-access deployment, aiming to provide equitable service by minimizing agent-target distances, and (b) hotspot deployment, prioritizing high-density target regions. A key feature of NavEX is the use of exemplar-clustering for the coverage utility measure, which provides the flexibility to employ non-Euclidean distance metrics that do not necessarily conform to the triangle inequality. This allows NavEX to incorporate visibility graphs for shortest-path computation in environments with planar obstacles, and traversability-aware RRT* for complex, rugged terrains. By leveraging submodular optimization, the NavEX framework enables efficient, near-optimal solutions with provable performance guarantees for multi-agent deployment in realistic and complex settings, as demonstrated by our simulations.

arxiv情報

著者 Donipolo Ghimire,Carlos Nieto-Granda,Solmaz S. Kia
発行日 2025-04-29 18:50:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.MA, cs.RO | NavEX: A Multi-Agent Coverage in Non-Convex and Uneven Environments via Exemplar-Clustering はコメントを受け付けていません

Simultaneous System Identification and Model Predictive Control with No Dynamic Regret

要約

非線形システムの同時システム識別とモデル予測制御のためのアルゴリズムを提供します。
アルゴリズムには、有限時間の近距離保証があり、漸近的に最適な(非因果的)コントローラーに収束します。
特に、このアルゴリズムは、未知の妨害とシステムのダイナミクスがその行動にどのように適応するかを知っている最適な透視コントローラーに対する亜最高の最適性として定義されているサブリンダイナミックの後悔を享受します。
このアルゴリズムは自己監視されており、カーネルヒルベルトスペースの再現で表現できる未知のダイナミクスと妨害を備えたコントロールアフィンシステムに適用されます。
このようなスペースは、システムの状態に適応し、入力を制御することさえできる外部外乱とモデリングエラーをモデル化できます。
たとえば、風力と波の乱れを航空機や海洋車両にモデル化したり、機械系の慣性などのモデルパラメーターを不正確にすることができます。
アルゴリズムは、最初に、未知のダイナミクスまたは乱れを近似するために使用されるランダムなフーリエ機能を生成します。
次に、未知のダイナミクス(または妨害)の現在の学習モデルに基づいて、モデル予測制御を採用します。
未知のダイナミクスのモデルは、システムの制御中に収集されたデータに基づいて最小二乗を使用してオンラインで更新されます。
ハードウェア実験と物理ベースのシミュレーションの両方でアルゴリズムを検証します。
シミュレーションには、(i)不正確なモデルパラメーターにもかかわらず、ポールを直立させることを目的としたカートポールと、(ii)モデルの空力抗力効果にもかかわらず、参照軌道を追跡することを目的とした四角体が含まれます。
ハードウェア実験には、モデルの空力抗力効果、地上効果、風邪度にもかかわらず、円形の軌道を追跡することを目的とした四角体が含まれます。

要約(オリジナル)

We provide an algorithm for the simultaneous system identification and model predictive control of nonlinear systems. The algorithm has finite-time near-optimality guarantees and asymptotically converges to the optimal (non-causal) controller. Particularly, the algorithm enjoys sublinear dynamic regret, defined herein as the suboptimality against an optimal clairvoyant controller that knows how the unknown disturbances and system dynamics will adapt to its actions. The algorithm is self-supervised and applies to control-affine systems with unknown dynamics and disturbances that can be expressed in reproducing kernel Hilbert spaces. Such spaces can model external disturbances and modeling errors that can even be adaptive to the system’s state and control input. For example, they can model wind and wave disturbances to aerial and marine vehicles, or inaccurate model parameters such as inertia of mechanical systems. The algorithm first generates random Fourier features that are used to approximate the unknown dynamics or disturbances. Then, it employs model predictive control based on the current learned model of the unknown dynamics (or disturbances). The model of the unknown dynamics is updated online using least squares based on the data collected while controlling the system. We validate our algorithm in both hardware experiments and physics-based simulations. The simulations include (i) a cart-pole aiming to maintain the pole upright despite inaccurate model parameters, and (ii) a quadrotor aiming to track reference trajectories despite unmodeled aerodynamic drag effects. The hardware experiments include a quadrotor aiming to track a circular trajectory despite unmodeled aerodynamic drag effects, ground effects, and wind disturbances.

arxiv情報

著者 Hongyu Zhou,Vasileios Tzoumas
発行日 2025-04-29 19:01:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Simultaneous System Identification and Model Predictive Control with No Dynamic Regret はコメントを受け付けていません

When to Localize? A Risk-Constrained Reinforcement Learning Approach

要約

標準のナビゲーションパイプラインでは、ロボットがナビゲーションエラーを減らすために毎回ローカライズします。
ただし、一部のシナリオでは、ロボットは観測を取得するのに費用がかかる場合に選択的にローカライズする必要があります。
たとえば、ローカライズするための水中ロボットが浮上すると、crash落した航空機からのブラックボックスなど、水中の重要なアイテムを検索することが頻繁に妨げられます。
一方、ロボットがローカル化されない場合、状態の推定が不十分な場合、検索エリアを誤って離れたり、危険な制限区域に入ったりしたため、アイテムを見つけられなくなります。
これらのシナリオに動機付けられて、ロボットが「いつローカライズするか」を決定するのを支援するアプローチを調査します。
これを双基準の最適化問題として定式化します。故障の可能性を確保しながら、ローカリゼーションアクションの数を最小限に抑えます(衝突のため、または目的の目標に達していないため)は、境界を獲得したままです。
最近の研究では、このアクティブなローカリゼーション問題を制約された部分的に観察可能なマルコフ決定プロセス(POMDP)として策定する方法を示しました。これは、オンラインPOMDPソルバーを使用して解決されました。
ただし、このアプローチは遅すぎて、ロボットの移行モデルと観測モデルに関する完全な知識が必要です。
この論文では、これらの制限を克服する制約付き強化学習(RL)フレームワークであるRiskRLを提示します。
RiskRLは、粒子フィルタリングと再発性のソフトアクターcriticネットワークを使用して、故障制約の可能性を確実に満たしながらローカライズの数を最小限に抑えるポリシーを学習します。
私たちの数値実験は、RiskRLが目に見えないテスト環境を横断するときに少なくとも26%の成功率の増加につながる堅牢なポリシーを学習することを示しています。

要約(オリジナル)

In a standard navigation pipeline, a robot localizes at every time step to lower navigational errors. However, in some scenarios, a robot needs to selectively localize when it is expensive to obtain observations. For example, an underwater robot surfacing to localize too often hinders it from searching for critical items underwater, such as black boxes from crashed aircraft. On the other hand, if the robot never localizes, poor state estimates cause failure to find the items due to inadvertently leaving the search area or entering hazardous, restricted areas. Motivated by these scenarios, we investigate approaches to help a robot determine ‘when to localize?’ We formulate this as a bi-criteria optimization problem: minimize the number of localization actions while ensuring the probability of failure (due to collision or not reaching a desired goal) remains bounded. In recent work, we showed how to formulate this active localization problem as a constrained Partially Observable Markov Decision Process (POMDP), which was solved using an online POMDP solver. However, this approach is too slow and requires full knowledge of the robot transition and observation models. In this paper, we present RiskRL, a constrained Reinforcement Learning (RL) framework that overcomes these limitations. RiskRL uses particle filtering and recurrent Soft Actor-Critic network to learn a policy that minimizes the number of localizations while ensuring the probability of failure constraint is met. Our numerical experiments show that RiskRL learns a robust policy that leads to at least a 26% increase in success rates when traversing unseen test environments.

arxiv情報

著者 Chak Lam Shek,Kasra Torshizi,Troi Williams,Pratap Tokekar
発行日 2025-04-29 19:14:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | When to Localize? A Risk-Constrained Reinforcement Learning Approach はコメントを受け付けていません

SPARK-Remote: A Cost-Effective System for Remote Bimanual Robot Teleoperation

要約

ロボットテレオペレーションにより、完全な自律性が困難な環境でのロボットシステムを人間の制御が可能にします。
低コストの遠隔操作デバイスとVR/ARテクノロジーの最近の進歩により、特に両手ロボットマニピュレーターのアクセシビリティが拡大しました。
ただし、対面からリモートテレオ操作への移行は、タスクのパフォーマンスに課題をもたらします。
双方向ロボットを動作させるための運動的にスケーリングされた低コストの遠隔操作システムであるSparkを紹介します。
その有効性は、3D SpacemouseやVR/ARコントローラーなどの既存のテクノロジーと比較されます。
さらに、SparkをSpark Remoteに拡張し、触覚グローブとリモートテレオ操作の力コントローラーを使用してセンサーベースの力フィードバックを統合します。
効果的な遠隔操作モードをテストするために、位置の精度、回転精度、ワークスペース内の大きな動き、および双方向のコラボレーションなど、運用特性を特徴とする5つの双方向操作タスクで、スパークおよびスパークリモートのバリエーションを評価します。
私たちの調査結果は、現実世界のアプリケーションの低コストの遠隔操作インターフェイスの改善に関する洞察を提供します。
補足資料、追加の実験、および定性的な結果については、プロジェクトWebページをご覧ください:https://bit.ly/41efcja

要約(オリジナル)

Robot teleoperation enables human control over robotic systems in environments where full autonomy is challenging. Recent advancements in low-cost teleoperation devices and VR/AR technologies have expanded accessibility, particularly for bimanual robot manipulators. However, transitioning from in-person to remote teleoperation presents challenges in task performance. We introduce SPARK, a kinematically scaled, low-cost teleoperation system for operating bimanual robots. Its effectiveness is compared to existing technologies like the 3D SpaceMouse and VR/AR controllers. We further extend SPARK to SPARK-Remote, integrating sensor-based force feedback using haptic gloves and a force controller for remote teleoperation. We evaluate SPARK and SPARK-Remote variants on 5 bimanual manipulation tasks which feature operational properties – positional precision, rotational precision, large movements in the workspace, and bimanual collaboration – to test the effective teleoperation modes. Our findings offer insights into improving low-cost teleoperation interfaces for real-world applications. For supplementary materials, additional experiments, and qualitative results, visit the project webpage: https://bit.ly/41EfcJa

arxiv情報

著者 Adam Imdieke,Karthik Desingh
発行日 2025-04-29 19:40:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | SPARK-Remote: A Cost-Effective System for Remote Bimanual Robot Teleoperation はコメントを受け付けていません