An Real-Sim-Real (RSR) Loop Framework for Generalizable Robotic Policy Transfer with Differentiable Simulation

要約

SIMとリアルのギャップは、ロボット工学における重要な課題のままであり、実際のシステムへのシミュレーションでトレーニングされたアルゴリズムの展開を妨げています。
このペーパーでは、シミュレーションパラメーターを反復的に改良し、実際の条件に合わせ、堅牢で効率的なポリシー転送を可能にすることにより、このギャップに対処するための微分可能なシミュレーションを活用する新しいリアルシムリアル(RSR)ループフレームワークを紹介します。
私たちの仕事の重要な貢献は、多様で代表的な現実世界のデータの収集を促進し、バイアスを最小限に抑え、シミュレーションの改良のための各データポイントの有用性を最大化する有益なコスト関数の設計です。
このコスト関数は、既存の強化学習アルゴリズム(PPO、SACなど)にシームレスに統合され、実際のドメインの重要な領域のバランスの取れた探索が保証されます。
さらに、当社のアプローチは多用途のMujoco MJXプラットフォームに実装されており、フレームワークは幅広いロボットシステムと互換性があります。
いくつかのロボット操作タスクの実験結果は、私たちの方法がSIMからリアルのギャップを大幅に削減し、明示的および暗黙的な環境不確実性の両方の多様なシナリオ全体で高いタスクパフォ​​ーマンスと一般化可能性を達成することを示しています。

要約(オリジナル)

The sim-to-real gap remains a critical challenge in robotics, hindering the deployment of algorithms trained in simulation to real-world systems. This paper introduces a novel Real-Sim-Real (RSR) loop framework leveraging differentiable simulation to address this gap by iteratively refining simulation parameters, aligning them with real-world conditions, and enabling robust and efficient policy transfer. A key contribution of our work is the design of an informative cost function that encourages the collection of diverse and representative real-world data, minimizing bias and maximizing the utility of each data point for simulation refinement. This cost function integrates seamlessly into existing reinforcement learning algorithms (e.g., PPO, SAC) and ensures a balanced exploration of critical regions in the real domain. Furthermore, our approach is implemented on the versatile Mujoco MJX platform, and our framework is compatible with a wide range of robotic systems. Experimental results on several robotic manipulation tasks demonstrate that our method significantly reduces the sim-to-real gap, achieving high task performance and generalizability across diverse scenarios of both explicit and implicit environmental uncertainties.

arxiv情報

著者 Lu Shi,Yuxuan Xu,Shiyu Wang,Jinhao Huang,Wenhao Zhao,Yufei Jia,Zike Yan,Weibin Gu,Guyue Zhou
発行日 2025-03-13 07:27:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | An Real-Sim-Real (RSR) Loop Framework for Generalizable Robotic Policy Transfer with Differentiable Simulation はコメントを受け付けていません

ECBench: Can Multi-modal Foundation Models Understand the Egocentric World? A Holistic Embodied Cognition Benchmark

要約

大規模な視覚言語モデル(LVLMS)によるロボットの一般化の強化がますます明らかになっています。
したがって、エゴセントリックビデオに基づいたLVLMの具体化された認知能力は非常に興味深いものです。
ただし、具体化されたビデオ質問の現在のデータセットには、包括的で体系的な評価フレームワークがありません。
ロボットの自己認知、動的なシーンの知覚、幻覚などの重要な具体化された認知の問題はめったに対処されません。
これらの課題に取り組むために、LVLMSの具体化された認知能力を体系的に評価するために設計された高品質のベンチマークであるEcbenchを提案します。
Ecbenchは、さまざまなシーンビデオソース、オープンおよび多様な質問形式、および具体化された認知の30次元を備えています。
品質、バランス、視覚的依存度を確保するために、Ecbenchはクラスに依存しない細心の人間の注釈とマルチラウンドの質問スクリーニング戦略を使用します。
さらに、指標の公平性と合理性を保証する包括的な評価システムであるEcvalを紹介します。
Ecbenchを利用して、独自、オープンソース、およびタスク固有のLVLMの広範な評価を実施します。
Ecbenchは、LVLMSの具体化された認知能力を進める上で極めて重要であり、具体化されたエージェント向けの信頼できるコアモデルを開発するための強固な基盤を築きます。
すべてのデータとコードは、https://github.com/rh-dang/ecbenchで入手できます。

要約(オリジナル)

The enhancement of generalization in robots by large vision-language models (LVLMs) is increasingly evident. Therefore, the embodied cognitive abilities of LVLMs based on egocentric videos are of great interest. However, current datasets for embodied video question answering lack comprehensive and systematic evaluation frameworks. Critical embodied cognitive issues, such as robotic self-cognition, dynamic scene perception, and hallucination, are rarely addressed. To tackle these challenges, we propose ECBench, a high-quality benchmark designed to systematically evaluate the embodied cognitive abilities of LVLMs. ECBench features a diverse range of scene video sources, open and varied question formats, and 30 dimensions of embodied cognition. To ensure quality, balance, and high visual dependence, ECBench uses class-independent meticulous human annotation and multi-round question screening strategies. Additionally, we introduce ECEval, a comprehensive evaluation system that ensures the fairness and rationality of the indicators. Utilizing ECBench, we conduct extensive evaluations of proprietary, open-source, and task-specific LVLMs. ECBench is pivotal in advancing the embodied cognitive capabilities of LVLMs, laying a solid foundation for developing reliable core models for embodied agents. All data and code are available at https://github.com/Rh-Dang/ECBench.

arxiv情報

著者 Ronghao Dang,Yuqian Yuan,Wenqi Zhang,Yifei Xin,Boqiang Zhang,Long Li,Liuyi Wang,Qinyang Zeng,Xin Li,Lidong Bing
発行日 2025-03-13 07:45:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO | ECBench: Can Multi-modal Foundation Models Understand the Egocentric World? A Holistic Embodied Cognition Benchmark はコメントを受け付けていません

Mapless Collision-Free Flight via MPC using Dual KD-Trees in Cluttered Environments

要約

散らかった環境での衝突のない飛行は、自律的な四角体にとって重要な機能です。
従来の方法は、多くの場合、詳細な3Dマップ構造、軌跡の生成、追跡に依存しています。
ただし、このカスケードパイプラインは、累積エラーと計算遅延を導入し、飛行の俊敏性と安全性を制限することができます。
この論文では、3Dマップを明示的に構築したり、衝突のない軌道を生成したり追跡したりすることなく、乱雑な環境で衝突のない飛行を可能にするための新しい方法を提案します。
代わりに、モデル予測制御(MPC)を活用して、スパースウェイポイントから安全なアクションを直接生成し、深度カメラからポイントクラウドを作成します。
これらのスパースウェイポイントは、ポイントクラウドから検出された近くの障害に基づいて、オンラインで動的に調整されています。
これを実現するために、デュアルKDツリーメカニズムを導入します。KD-Treeは回避のために最も近い障害を迅速に識別しますが、Edge KD-TreeはMPCソルバーに堅牢な初期推測を提供し、障害物回避中に局所ミニマに詰まらないようにします。
広範なシミュレーションと現実世界の実験を通じてアプローチを検証します。
結果は、私たちのアプローチがマッピングベースの方法を大幅に上回り、模倣学習ベースの方法よりも優れており、シミュレーションで最大12 m/s、実際のテストで6 m/sで信頼できる障害物回避を実証することを示しています。
私たちの方法は、既存の方法に代わるシンプルで堅牢な代替品を提供します。

要約(オリジナル)

Collision-free flight in cluttered environments is a critical capability for autonomous quadrotors. Traditional methods often rely on detailed 3D map construction, trajectory generation, and tracking. However, this cascade pipeline can introduce accumulated errors and computational delays, limiting flight agility and safety. In this paper, we propose a novel method for enabling collision-free flight in cluttered environments without explicitly constructing 3D maps or generating and tracking collision-free trajectories. Instead, we leverage Model Predictive Control (MPC) to directly produce safe actions from sparse waypoints and point clouds from a depth camera. These sparse waypoints are dynamically adjusted online based on nearby obstacles detected from point clouds. To achieve this, we introduce a dual KD-Tree mechanism: the Obstacle KD-Tree quickly identifies the nearest obstacle for avoidance, while the Edge KD-Tree provides a robust initial guess for the MPC solver, preventing it from getting stuck in local minima during obstacle avoidance. We validate our approach through extensive simulations and real-world experiments. The results show that our approach significantly outperforms the mapping-based methods and is also superior to imitation learning-based methods, demonstrating reliable obstacle avoidance at up to 12 m/s in simulations and 6 m/s in real-world tests. Our method provides a simple and robust alternative to existing methods.

arxiv情報

著者 Linzuo Zhang,Yu Hu,Yang Deng,Feng Yu,Danping Zou
発行日 2025-03-13 08:00:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Mapless Collision-Free Flight via MPC using Dual KD-Trees in Cluttered Environments はコメントを受け付けていません

GS-SDF: LiDAR-Augmented Gaussian Splatting and Neural SDF for Geometrically Consistent Rendering and Reconstruction

要約

デジタル双子は、自律運転と具体化された人工知能の開発の基本です。
ただし、高粒度の表面再構築と高忠実度のレンダリングを達成することは依然として課題です。
Gaussian Spluttingは効率的なフォトリアリスティックなレンダリングを提供しますが、ロボット工学アプリケーションでの断片化されたプリミティブとまばらな観察データによる幾何学的な矛盾と闘っています。
レンダリング由来の制約に依存する既存の正則化方法は、多くの場合、複雑な環境で失敗します。
さらに、まばらなライダーデータとガウスのスプラッティングを効果的に統合することは依然として困難です。
私たちは、神経署名された距離フィールドとガウスの飛び散を相乗する統一されたLidar-Visualシステムを提案します。
正確なライダーポイントクラウドにより、訓練されたニューラル署名された距離フィールドがマニホールドジオメトリフィールドを提供できるようになります。これにより、物理的に接地された原始的な配置と地理的に一貫したレンダリングと再構築のための包括的な幾何学的正則化のためのSDFベースのガウス初期化を提供する動機があります。
実験は、優れた再構成の精度と多様な軌跡全体の品質を実証します。
コミュニティに利益をもたらすために、コードはhttps://github.com/hku-mars/gs-sdfでリリースされます。

要約(オリジナル)

Digital twins are fundamental to the development of autonomous driving and embodied artificial intelligence. However, achieving high-granularity surface reconstruction and high-fidelity rendering remains a challenge. Gaussian splatting offers efficient photorealistic rendering but struggles with geometric inconsistencies due to fragmented primitives and sparse observational data in robotics applications. Existing regularization methods, which rely on render-derived constraints, often fail in complex environments. Moreover, effectively integrating sparse LiDAR data with Gaussian splatting remains challenging. We propose a unified LiDAR-visual system that synergizes Gaussian splatting with a neural signed distance field. The accurate LiDAR point clouds enable a trained neural signed distance field to offer a manifold geometry field, This motivates us to offer an SDF-based Gaussian initialization for physically grounded primitive placement and a comprehensive geometric regularization for geometrically consistent rendering and reconstruction. Experiments demonstrate superior reconstruction accuracy and rendering quality across diverse trajectories. To benefit the community, the codes will be released at https://github.com/hku-mars/GS-SDF.

arxiv情報

著者 Jianheng Liu,Yunfei Wan,Bowen Wang,Chunran Zheng,Jiarong Lin,Fu Zhang
発行日 2025-03-13 08:53:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | GS-SDF: LiDAR-Augmented Gaussian Splatting and Neural SDF for Geometrically Consistent Rendering and Reconstruction はコメントを受け付けていません

PRISM: Preference Refinement via Implicit Scene Modeling for 3D Vision-Language Preference-Based Reinforcement Learning

要約

3Dポイントクラウドモデリングと将来の認識の好みの改良を統合することにより、2Dベースの嗜好ベースの強化学習(PBRL)の制限を克服するために設計された新しいフレームワークであるPrismを提案します。
そのコアでは、Prismは3Dポイントクラウド言語モデル(3D-PC-LLM)を採用して、閉塞と視点のバイアスを緩和し、より安定した空間的に一貫した優先権信号を確保します。
さらに、Prismは、長期の考慮事項を組み込むためにチェーンオブ考え(COT)を活用して、静的な好みの比較でよく見られる近視眼的フィードバックを防ぎます。
従来のPBRL手法とは対照的に、この3D認識と将来指向の推論のこの統合は、目に見えないロボット環境全体で優先契約率、より速い政策収束、堅牢な一般化の大幅な利益につながります。
ロボット操作や自律ナビゲーションなどのタスクにまたがる実証結果は、正確な空間的理解と信頼できる長期的な意思決定が重要な現実世界のアプリケーションのプリズムの可能性を強調しています。
COT駆動型の好みのモデリングで3D幾何学的認識を橋渡しすることにより、Prismは、スケーラブルで人間に整合した強化学習の包括的な基盤を確立します。

要約(オリジナル)

We propose PRISM, a novel framework designed to overcome the limitations of 2D-based Preference-Based Reinforcement Learning (PBRL) by unifying 3D point cloud modeling and future-aware preference refinement. At its core, PRISM adopts a 3D Point Cloud-Language Model (3D-PC-LLM) to mitigate occlusion and viewpoint biases, ensuring more stable and spatially consistent preference signals. Additionally, PRISM leverages Chain-of-Thought (CoT) reasoning to incorporate long-horizon considerations, thereby preventing the short-sighted feedback often seen in static preference comparisons. In contrast to conventional PBRL techniques, this integration of 3D perception and future-oriented reasoning leads to significant gains in preference agreement rates, faster policy convergence, and robust generalization across unseen robotic environments. Our empirical results, spanning tasks such as robotic manipulation and autonomous navigation, highlight PRISM’s potential for real-world applications where precise spatial understanding and reliable long-term decision-making are critical. By bridging 3D geometric awareness with CoT-driven preference modeling, PRISM establishes a comprehensive foundation for scalable, human-aligned reinforcement learning.

arxiv情報

著者 Yirong Sun,Yanjun Chen
発行日 2025-03-13 08:58:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.RO | PRISM: Preference Refinement via Implicit Scene Modeling for 3D Vision-Language Preference-Based Reinforcement Learning はコメントを受け付けていません

Long-horizon Embodied Planning with Implicit Logical Inference and Hallucination Mitigation

要約

長距離具体化された計画は、具体化されたAIを支えています。
長老のタスクを達成するために、最も実行可能な方法の1つは、抽象的な指示を一連の実用的なステップに分解することです。
ファンデーションモデルは、タスクに非常に関連する例が提供されていない限り、長期式の計画では依然として論理的なエラーと幻覚に直面しています。
ただし、ランダムタスクに非常に関連する例を提供することは非実用的です。
したがって、リアルタイムの長距離具体化された計画のための新しいフレームワークであるRepepを提示します。
repepは、微調整を通じて暗黙の論理推論を学習することにより、コンテキスト内の例なしに、幅広い長老のタスクを完了することができます。
微調整された大型ビジョン言語モデルは、スキル関数のシーケンスとして計画を定式化します。
これらの機能は、慎重に設計されたスキルライブラリから選択されています。
LepEpには、計画とステータスリコール用のメモリモジュールと、ロボットタイプ全体の汎用性用のロボット構成モジュールも装備されています。
さらに、データセットの希少性に取り組むためのデータ生成パイプラインを提案します。
データセットを構築するとき、暗黙の論理関係を検討し、モデルが暗黙の論理関係を学び、幻覚を払拭できるようにしました。
さまざまな長期タスクにわたる包括的な評価を通じて、ELEPは、目に見えないタスクでも、最新のベースライン方法よりも高い成功率と実行のコンプライアンスを示します。

要約(オリジナル)

Long-horizon embodied planning underpins embodied AI. To accomplish long-horizon tasks, one of the most feasible ways is to decompose abstract instructions into a sequence of actionable steps. Foundation models still face logical errors and hallucinations in long-horizon planning, unless provided with highly relevant examples to the tasks. However, providing highly relevant examples for any random task is unpractical. Therefore, we present ReLEP, a novel framework for Real-time Long-horizon Embodied Planning. ReLEP can complete a wide range of long-horizon tasks without in-context examples by learning implicit logical inference through fine-tuning. The fine-tuned large vision-language model formulates plans as sequences of skill functions. These functions are selected from a carefully designed skill library. ReLEP is also equipped with a Memory module for plan and status recall, and a Robot Configuration module for versatility across robot types. In addition, we propose a data generation pipeline to tackle dataset scarcity. When constructing the dataset, we considered the implicit logical relationships, enabling the model to learn implicit logical relationships and dispel hallucinations. Through comprehensive evaluations across various long-horizon tasks, ReLEP demonstrates high success rates and compliance to execution even on unseen tasks and outperforms state-of-the-art baseline methods.

arxiv情報

著者 Siyuan Liu,Jiawei Du,Sicheng Xiang,Zibo Wang,Dingsheng Luo
発行日 2025-03-13 10:15:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Long-horizon Embodied Planning with Implicit Logical Inference and Hallucination Mitigation はコメントを受け付けていません

SCOOP: A Framework for Proactive Collaboration and Social Continual Learning through Natural Language Interaction andCausal Reasoning

要約

動的環境でユーザーがAIと協力するマルチモーダル情報収集設定は、ますます一般的になっています。
これらには、テキストとマルチモーダルの相互作用を備えた複雑なプロセスが含まれ、多くの場合、コストを含むリクエストを介して追加の構造情報が必要です。
AIヘルパーには、ユーザーの真の目標、信念、好みへのアクセスがなく、多様な情報を効果的に統合するのに苦労しています。
因果知識の習得と共同意思決定のための社会的継続的な学習フレームワークを提案します。
これは、オープンで部分的に観察可能な環境での対話、質問アサイク、および相互作用を通じて学習する自律エージェントに焦点を当てています。
重要なコンポーネントは、環境メカニズムと状態に関するエージェントの質問に答える自然言語の神託であり、探査または学習のバランスをとりながら因果的理解を洗練し、搾取または知識の使用です。
発達心理学に触発された評価タスクは、因果的な推論と質問アスクスキルを強調しています。
知識のギャップを特定し、意味のあるクエリを生成し、推論を段階的に更新するエージェントの能力を評価することにより、ベンチマークを補完します。
また、このフレームワークは、同じ環境内のタスク全体で知識の習得コストがどのように償却されるかを評価します。
2つのアーキテクチャを提案します。1)Reactフレームワークと質問生成と大規模な言語モデル(LLM)を組み合わせたシステム、および2)推論と意思決定のために、シンボリック、グラフベース、またはサブシンボリックの因果世界モデルを備えた高度なシステム。
後者は、制約の下で効率的な推論と適応性のために因果的知識グラフを構築します。
課題には、因果的推論を反応に統合し、エラーが発生しやすいシナリオでの探査と質問の最適化が含まれます。
アプリケーションを超えて、このフレームワークは、因果的推論、質問生成、社会学習を組み合わせた発達プロセスをモデル化します。

要約(オリジナル)

Multimodal information-gathering settings, where users collaborate with AI in dynamic environments, are increasingly common. These involve complex processes with textual and multimodal interactions, often requiring additional structural information via cost-incurring requests. AI helpers lack access to users’ true goals, beliefs, and preferences and struggle to integrate diverse information effectively. We propose a social continual learning framework for causal knowledge acquisition and collaborative decision-making. It focuses on autonomous agents learning through dialogues, question-asking, and interaction in open, partially observable environments. A key component is a natural language oracle that answers the agent’s queries about environmental mechanisms and states, refining causal understanding while balancing exploration or learning, and exploitation or knowledge use. Evaluation tasks inspired by developmental psychology emphasize causal reasoning and question-asking skills. They complement benchmarks by assessing the agent’s ability to identify knowledge gaps, generate meaningful queries, and incrementally update reasoning. The framework also evaluates how knowledge acquisition costs are amortized across tasks within the same environment. We propose two architectures: 1) a system combining Large Language Models (LLMs) with the ReAct framework and question-generation, and 2) an advanced system with a causal world model, symbolic, graph-based, or subsymbolic, for reasoning and decision-making. The latter builds a causal knowledge graph for efficient inference and adaptability under constraints. Challenges include integrating causal reasoning into ReAct and optimizing exploration and question-asking in error-prone scenarios. Beyond applications, this framework models developmental processes combining causal reasoning, question generation, and social learning.

arxiv情報

著者 Dimitri Ognibene,Sabrina Patania,Luca Annese,Cansu Koyuturk,Franca Garzotto,Giuseppe Vizzari,Azzurra Ruggeri,Simone Colombani
発行日 2025-03-13 10:32:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.MA, cs.RO | SCOOP: A Framework for Proactive Collaboration and Social Continual Learning through Natural Language Interaction andCausal Reasoning はコメントを受け付けていません

Efficient End-to-End 6-Dof Grasp Detection Framework for Edge Devices with Hierarchical Heatmaps and Feature Propagation

要約

6-dof grasp検出は、オブジェクトを把握するための実行可能なロボットポーズを提供するため、インテリジェントな具体化されたシステムの進歩にとって非常に重要です。
RGBDまたはPointクラウドデータから3D幾何学的特徴の抽出を通じて6-DOFグラップを検出するためのさまざまな方法が提案されています。
ただし、これらのアプローチのほとんどは、重要な計算需要のために実際のロボット展開中に課題に遭遇します。これは、モバイルロボットプラットフォーム、特にエッジコンピューティングデバイスに依存しているプラ​​ットフォームにとって特に問題がある可能性があります。
このホワイトペーパーでは、階層ヒートマップ表現を利用した6-DOFグラス検出のための効率的なエンドツーエンドグラス検出ネットワーク(E3GNET)を紹介します。
E3GNETは、散らかった実世界の環境で高品質で多様な把握を効果的に識別します。エンドツーエンドの方法論と効率的なネットワーク設計からの想定では、モデル推論効率の以前の方法を上回り、エッジデバイスでのリアルタイム6-DOFの把握検出を達成します。
さらに、実際の実験は、当社の方法の有効性を検証し、成功率を把握する満足のいく94%のオブジェクトを達成します。

要約(オリジナル)

6-DoF grasp detection is critically important for the advancement of intelligent embodied systems, as it provides feasible robot poses for object grasping. Various methods have been proposed to detect 6-DoF grasps through the extraction of 3D geometric features from RGBD or point cloud data. However, most of these approaches encounter challenges during real robot deployment due to their significant computational demands, which can be particularly problematic for mobile robot platforms, especially those reliant on edge computing devices. This paper presents an Efficient End-to-End Grasp Detection Network (E3GNet) for 6-DoF grasp detection utilizing hierarchical heatmap representations. E3GNet effectively identifies high-quality and diverse grasps in cluttered real-world environments.Benefiting from our end-to-end methodology and efficient network design, our approach surpasses previous methods in model inference efficiency and achieves real-time 6-Dof grasp detection on edge devices. Furthermore, real-world experiments validate the effectiveness of our method, achieving a satisfactory 94% object grasping success rate.

arxiv情報

著者 Kaiqin Yang,Yixiang Dai,Guijin Wang,Siang Chen
発行日 2025-03-13 10:41:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Efficient End-to-End 6-Dof Grasp Detection Framework for Edge Devices with Hierarchical Heatmaps and Feature Propagation はコメントを受け付けていません

PhysVLM: Enabling Visual Language Models to Understand Robotic Physical Reachability

要約

環境とロボットの物理的な到達可能性を理解することは、タスクの実行に不可欠です。
最先端のビジョン言語モデル(VLM)は環境認識に優れていますが、ロボットの身体的到達可能性の理解がないため、具体化された視覚的推論タスクで不正確または非実用的な反応を生成することがよくあります。
この問題に対処するために、多様なロボット間の物理的到達可能性の統一された表現、つまりスペース物理的到達可能性マップ(S-Pマップ)と、この到達可能性情報を視覚的推論に統合する視覚言語モデルであるPhysVLMを提案します。
具体的には、S-Pマップは、特定のロボット構成とは無関係に、ロボットの物理的な到達可能性を一般化された空間表現に抽象化し、モデルがロボット固有のパラメーターではなくリーチ性機能に焦点を合わせます。
その後、PhysVLMは、追加の機能エンコーダを組み込んでS-Pマップを処理することにより、従来のVLMアーキテクチャを拡張し、一般的なビジョン言語機能を損なうことなく、モデルが物理的な到達可能性について推論できるようにします。
PhysVLMを訓練および評価するために、シミュレートされた環境と実際の環境の両方で6つの異なるロボットのタスクを含む、大規模なマルチロボットデータセットと挑戦的なベンチマークEQA-PHYSを構築しました。
実験結果は、PhysVLMが既存のモデルを上回り、EQA-PHYSでGPT-4Oよりも14 \%の改善を達成し、Robovqa-valやOpeneqaベンチマークのロボマンバや空間vlmなどの高度な具体化されたVLMを上回ることを示しています。
さらに、S-PマップはさまざまなVLMとの強い互換性を示しており、GPT-4O-MINIへの統合により、7.1 \%のパフォーマンスが向上します。

要約(オリジナル)

Understanding the environment and a robot’s physical reachability is crucial for task execution. While state-of-the-art vision-language models (VLMs) excel in environmental perception, they often generate inaccurate or impractical responses in embodied visual reasoning tasks due to a lack of understanding of robotic physical reachability. To address this issue, we propose a unified representation of physical reachability across diverse robots, i.e., Space-Physical Reachability Map (S-P Map), and PhysVLM, a vision-language model that integrates this reachability information into visual reasoning. Specifically, the S-P Map abstracts a robot’s physical reachability into a generalized spatial representation, independent of specific robot configurations, allowing the model to focus on reachability features rather than robot-specific parameters. Subsequently, PhysVLM extends traditional VLM architectures by incorporating an additional feature encoder to process the S-P Map, enabling the model to reason about physical reachability without compromising its general vision-language capabilities. To train and evaluate PhysVLM, we constructed a large-scale multi-robot dataset, Phys100K, and a challenging benchmark, EQA-phys, which includes tasks for six different robots in both simulated and real-world environments. Experimental results demonstrate that PhysVLM outperforms existing models, achieving a 14\% improvement over GPT-4o on EQA-phys and surpassing advanced embodied VLMs such as RoboMamba and SpatialVLM on the RoboVQA-val and OpenEQA benchmarks. Additionally, the S-P Map shows strong compatibility with various VLMs, and its integration into GPT-4o-mini yields a 7.1\% performance improvement.

arxiv情報

著者 Weijie Zhou,Manli Tao,Chaoyang Zhao,Haiyun Guo,Honghui Dong,Ming Tang,Jinqiao Wang
発行日 2025-03-13 11:19:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | PhysVLM: Enabling Visual Language Models to Understand Robotic Physical Reachability はコメントを受け付けていません

SurgRAW: Multi-Agent Workflow with Chain-of-Thought Reasoning for Surgical Intelligence

要約

外科的知能における視覚言語モデル(VLM)の統合は、幻覚、ドメインの知識のギャップ、および外科シーン内のタスクの相互依存性の限られた理解によって妨げられ、臨床的信頼性が損なわれます。
最近のVLMは強力な一般的な推論と思考能力を示していますが、正確な外科シーンの解釈に必要なドメインの専門知識とタスク認識がまだ欠けています。
チェーンオブ考え(COT)はより効果的に推論を構築できますが、現在のアプローチは自己生成されたCOTステップに依存しています。
これを克服するために、ロボット支援手術のほとんどのタスクに対して透明で解釈可能な洞察を提供するCOT駆動型のマルチエージェントフレームワークであるSurgrawを提示します。
機器認識、アクション認識、アクション予測、患者データ抽出、および結果評価の5つのタスクにわたって特殊なCOTプロンプトを採用することにより、Surgrawは構造化されたドメイン対応の推論を通じて幻覚を軽減します。
検索された生成(RAG)は、ドメインのギャップを橋渡しし、応答の信頼性を向上させるために、外部の医療知識に統合されています。
最も重要なことは、階層エージェントシステムは、パネルディスカッションメカニズムを備えたタスクの相互依存性を理解しながら、COT埋め込まれたVLMエージェントが効果的に協力して、論理的な一貫性を促進することです。
この方法を評価するために、構造化されたフレームレベルの注釈を備えた最初の推論ベースのデータセットであるSurgCotbenchを紹介します。
包括的な実験により、12のロボット手順でベースラインVLMSよりも29.32%の精度改善を伴う提案されたサーグローの有効性を実証し、最先端のパフォーマンスを達成し、説明可能で信頼できる、自律的な外科的支援を進めます。

要約(オリジナル)

Integration of Vision-Language Models (VLMs) in surgical intelligence is hindered by hallucinations, domain knowledge gaps, and limited understanding of task interdependencies within surgical scenes, undermining clinical reliability. While recent VLMs demonstrate strong general reasoning and thinking capabilities, they still lack the domain expertise and task-awareness required for precise surgical scene interpretation. Although Chain-of-Thought (CoT) can structure reasoning more effectively, current approaches rely on self-generated CoT steps, which often exacerbate inherent domain gaps and hallucinations. To overcome this, we present SurgRAW, a CoT-driven multi-agent framework that delivers transparent, interpretable insights for most tasks in robotic-assisted surgery. By employing specialized CoT prompts across five tasks: instrument recognition, action recognition, action prediction, patient data extraction, and outcome assessment, SurgRAW mitigates hallucinations through structured, domain-aware reasoning. Retrieval-Augmented Generation (RAG) is also integrated to external medical knowledge to bridge domain gaps and improve response reliability. Most importantly, a hierarchical agentic system ensures that CoT-embedded VLM agents collaborate effectively while understanding task interdependencies, with a panel discussion mechanism promotes logical consistency. To evaluate our method, we introduce SurgCoTBench, the first reasoning-based dataset with structured frame-level annotations. With comprehensive experiments, we demonstrate the effectiveness of proposed SurgRAW with 29.32% accuracy improvement over baseline VLMs on 12 robotic procedures, achieving the state-of-the-art performance and advancing explainable, trustworthy, and autonomous surgical assistance.

arxiv情報

著者 Chang Han Low,Ziyue Wang,Tianyi Zhang,Zhitao Zeng,Zhu Zhuo,Evangelos B. Mazomenos,Yueming Jin
発行日 2025-03-13 11:23:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | SurgRAW: Multi-Agent Workflow with Chain-of-Thought Reasoning for Surgical Intelligence はコメントを受け付けていません