Gait in Eight: Efficient On-Robot Learning for Omnidirectional Quadruped Locomotion

要約

ロボット補強学習は、脚のあるロボットの具体化されたポリシーを訓練するための有望なアプローチです。
ただし、ロボットでのリアルタイム学習の計算上の制約は、大きな課題をもたらします。
サンプル効率と新しいオフポリシーアルゴリズムCrossqの最小限の計算オーバーヘッドを利用して、わずか8分間の生のリアルタイムトレーニングで四分流運動を効率的に学習するためのフレームワークを提示します。
2つの制御アーキテクチャを調査します。アジャイル、高速移動のジョイントターゲット位置と、安定した自然な歩行の中央パターンジェネレーターの予測です。
以前の作業は単純なフォワードゲートの学習に焦点を当てていましたが、私たちのフレームワークは、オンラボット学習を全指向性の移動に拡張します。
さまざまな屋内および屋外環境でのアプローチの堅牢性を示しています。

要約(オリジナル)

On-robot Reinforcement Learning is a promising approach to train embodiment-aware policies for legged robots. However, the computational constraints of real-time learning on robots pose a significant challenge. We present a framework for efficiently learning quadruped locomotion in just 8 minutes of raw real-time training utilizing the sample efficiency and minimal computational overhead of the new off-policy algorithm CrossQ. We investigate two control architectures: Predicting joint target positions for agile, high-speed locomotion and Central Pattern Generators for stable, natural gaits. While prior work focused on learning simple forward gaits, our framework extends on-robot learning to omnidirectional locomotion. We demonstrate the robustness of our approach in different indoor and outdoor environments.

arxiv情報

著者 Nico Bohlinger,Jonathan Kinzel,Daniel Palenicek,Lukasz Antczak,Jan Peters
発行日 2025-03-11 12:32:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | Gait in Eight: Efficient On-Robot Learning for Omnidirectional Quadruped Locomotion はコメントを受け付けていません

Leveraging Symmetry in RL-based Legged Locomotion Control

要約

モデルフリーの強化学習は、挑戦的なロボット制御制御の問題を自律的に解決するための有望なアプローチですが、ロボットの運動学とダイナミクスの形態の情報なしに探索の難しさに直面しています。
対称状態を備えた複数のモダリティの普及不足は、しばしば不自然で亜最適である行動につながります。
この問題は、結果として生じる非対称および非周期的行動がパフォーマンス、堅牢性、および実際のハードウェアへの転送可能性を損なう脚のロボットなど、形態学的対称性を備えたロボットシステムのコンテキストで特に顕著になります。
この課題を緩和するために、対称性を活用して、等語/不変性の制約を介して政策学習の探求を導き、改善することができます。
この論文では、対称性を組み込むための2つのアプローチの有効性を調査します。ネットワークアーキテクチャを厳密に等しい/不変にするように変更し、データの増強を活用して、等間/不均一なアクタークリティクスを近似します。
挑戦的な局所操作と二足歩行の移動タスクに関する方法を実装し、制約のないベースラインと比較します。
厳密に等しいポリシーは、シミュレーションのサンプル効率とタスクパフォ​​ーマンスの他の方法よりも一貫して優れていることがわかります。
さらに、対称性に組み込まれたアプローチは、より良い歩行品質、より高い堅牢性を示し、実際の実験でゼロショットを展開できます。

要約(オリジナル)

Model-free reinforcement learning is a promising approach for autonomously solving challenging robotics control problems, but faces exploration difficulty without information of the robot’s kinematics and dynamics morphology. The under-exploration of multiple modalities with symmetric states leads to behaviors that are often unnatural and sub-optimal. This issue becomes particularly pronounced in the context of robotic systems with morphological symmetries, such as legged robots for which the resulting asymmetric and aperiodic behaviors compromise performance, robustness, and transferability to real hardware. To mitigate this challenge, we can leverage symmetry to guide and improve the exploration in policy learning via equivariance/invariance constraints. In this paper, we investigate the efficacy of two approaches to incorporate symmetry: modifying the network architectures to be strictly equivariant/invariant, and leveraging data augmentation to approximate equivariant/invariant actor-critics. We implement the methods on challenging loco-manipulation and bipedal locomotion tasks and compare with an unconstrained baseline. We find that the strictly equivariant policy consistently outperforms other methods in sample efficiency and task performance in simulation. In addition, symmetry-incorporated approaches exhibit better gait quality, higher robustness and can be deployed zero-shot in real-world experiments.

arxiv情報

著者 Zhi Su,Xiaoyu Huang,Daniel Ordoñez-Apraez,Yunfei Li,Zhongyu Li,Qiayuan Liao,Giulio Turrisi,Massimiliano Pontil,Claudio Semini,Yi Wu,Koushil Sreenath
発行日 2025-03-11 12:43:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Leveraging Symmetry in RL-based Legged Locomotion Control はコメントを受け付けていません

V-Max: Making RL practical for Autonomous Driving

要約

学習ベースの意思決定には、一般化可能な自律運転(AD)ポリシーを可能にする可能性があり、ルールベースのアプローチのエンジニアリングオーバーヘッドを削減します。
模倣学習(IL)は依然として支配的なパラダイムであり、大規模な人間のデモデータセットの恩恵を受けていますが、分布シフトや模倣ギャップなどの固有の制限に苦しんでいます。
強化学習(RL)は有望な代替案を提示しますが、標準化された効率的な研究フレームワークがないため、ADでの採用は依然として限られたままです。
この目的のために、ADのRLを実用的にするために必要なすべてのツールを提供するオープンな研究フレームワークであるV-Maxを紹介します。
V-Maxは、大規模な実験用に設計されたハードウェアアクセラレーションの広告シミュレーターであるWayMax上に構築されています。
シナリオネットのアプローチを使用して拡張し、多様な広告データセットの高速シミュレーションを可能にします。
V-Maxは、一連の観測および報酬機能、変圧器ベースのエンコーダー、およびトレーニングパイプラインを統合します。
さらに、敵対的な評価設定と広範な評価メトリックセットが含まれています。
大規模なベンチマークを通じて、ネットワークアーキテクチャ、観察機能、トレーニングデータ、および報酬の形成RLパフォーマンスを分析します。

要約(オリジナル)

Learning-based decision-making has the potential to enable generalizable Autonomous Driving (AD) policies, reducing the engineering overhead of rule-based approaches. Imitation Learning (IL) remains the dominant paradigm, benefiting from large-scale human demonstration datasets, but it suffers from inherent limitations such as distribution shift and imitation gaps. Reinforcement Learning (RL) presents a promising alternative, yet its adoption in AD remains limited due to the lack of standardized and efficient research frameworks. To this end, we introduce V-Max, an open research framework providing all the necessary tools to make RL practical for AD. V-Max is built on Waymax, a hardware-accelerated AD simulator designed for large-scale experimentation. We extend it using ScenarioNet’s approach, enabling the fast simulation of diverse AD datasets. V-Max integrates a set of observation and reward functions, transformer-based encoders, and training pipelines. Additionally, it includes adversarial evaluation settings and an extensive set of evaluation metrics. Through a large-scale benchmark, we analyze how network architectures, observation functions, training data, and reward shaping impact RL performance.

arxiv情報

著者 Valentin Charraut,Thomas Tournaire,Waël Doulazmi,Thibault Buhet
発行日 2025-03-11 12:53:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | V-Max: Making RL practical for Autonomous Driving はコメントを受け付けていません

CrackESS: A Self-Prompting Crack Segmentation System for Edge Devices

要約

構造的健康監視(SHM)は、インフラストラクチャのメンテナンスに持続可能かつ不可欠なアプローチであり、構造的欠陥の早期検出を可能にします。
自動インフラストラクチャモニタリングのためのコンピュータービジョン(CV)方法を活用すると、モニタリングの効率と精度が大幅に向上する可能性があります。
ただし、これらの方法は、特に複雑な環境での効率と精度の課題に直面することがよくあります。
最近のCNNベースおよびSAMベースのアプローチは、亀裂セグメンテーションで優れたパフォーマンスを実証していますが、それらの高い計算需要はエッジデバイスへの適用性を制限しています。
このペーパーでは、コンクリートの亀裂を検出してセグメント化するための新しいシステムであるひびつきを紹介します。
このアプローチは、最初に自己促進のためのYolov8モデルと亀裂セグメンテーション用のロラベースの微調整されたSAMモデルを利用し、その後、提案された亀裂マスク洗練モジュール(CMRM)を介してセグメンテーションマスクを改良します。
3つのデータセット(Khanhhaのデータセット、Crack500、Crackcr)で実験を実施し、クライミングロボットシステムのクラックを検証して、アプローチの利点と有効性を実証します。

要約(オリジナル)

Structural Health Monitoring (SHM) is a sustainable and essential approach for infrastructure maintenance, enabling the early detection of structural defects. Leveraging computer vision (CV) methods for automated infrastructure monitoring can significantly enhance monitoring efficiency and precision. However, these methods often face challenges in efficiency and accuracy, particularly in complex environments. Recent CNN-based and SAM-based approaches have demonstrated excellent performance in crack segmentation, but their high computational demands limit their applicability on edge devices. This paper introduces CrackESS, a novel system for detecting and segmenting concrete cracks. The approach first utilizes a YOLOv8 model for self-prompting and a LoRA-based fine-tuned SAM model for crack segmentation, followed by refining the segmentation masks through the proposed Crack Mask Refinement Module (CMRM). We conduct experiments on three datasets(Khanhha’s dataset, Crack500, CrackCR) and validate CrackESS on a climbing robot system to demonstrate the advantage and effectiveness of our approach.

arxiv情報

著者 Yingchu Wang,Ji He,Shijie Yu
発行日 2025-03-11 12:55:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO | CrackESS: A Self-Prompting Crack Segmentation System for Edge Devices はコメントを受け付けていません

Surgical SAM 2: Real-time Segment Anything in Surgical Video by Efficient Frame Pruning

要約

外科的ビデオセグメンテーションは、コンピューター支援手術における重要なタスクであり、手術の質と患者の転帰を高めるために不可欠です。
最近、セグメントAnything Model 2(SAM2)フレームワークは、画像およびビデオセグメンテーションの優れた進歩を示しています。
ただし、SAM2は、手術ビデオで高解像度画像と複雑で長距離の時間的ダイナミクスを処理するための高い計算需要のために効率に苦しんでいます。
これらの課題に対処するために、リアルタイムの外科的ビデオセグメンテーションを容易にするために、効率的なフレームプルーニング(EFP)メカニズムでSAM2を利用する高度なモデルであるSurgical SAM 2(SurgSAM2)を導入します。
EFPメカニズムは、最も有益なフレームのみを選択的に保持することにより、メモリバンクを動的に管理し、高いセグメンテーションの精度を維持しながらメモリの使用量と計算コストを削減します。
私たちの広範な実験は、Surgsam2がバニラSAM2と比較して効率とセグメンテーションの精度の両方を大幅に改善することを示しています。
驚くべきことに、SurgSam2はSAM2と比較して3 $ \ Times $ FPSを達成し、低解像度データで微調整した後に最新のパフォーマンスも提供します。
これらの進歩により、SurgSAM2は外科的ビデオ分析の主要なモデルとして確立され、リソースが制約された環境でのリアルタイムの外科的ビデオセグメンテーションを現実にします。
ソースコードは、https://github.com/jinlab-imvr/surgical-sam-2で入手できます。

要約(オリジナル)

Surgical video segmentation is a critical task in computer-assisted surgery and is vital for enhancing surgical quality and patient outcomes. Recently, the Segment Anything Model 2 (SAM2) framework has shown superior advancements in image and video segmentation. However, SAM2 struggles with efficiency due to the high computational demands of processing high-resolution images and complex and long-range temporal dynamics in surgical videos. To address these challenges, we introduce Surgical SAM 2 (SurgSAM2), an advanced model to utilize SAM2 with an Efficient Frame Pruning (EFP) mechanism, to facilitate real-time surgical video segmentation. The EFP mechanism dynamically manages the memory bank by selectively retaining only the most informative frames, reducing memory usage and computational cost while maintaining high segmentation accuracy. Our extensive experiments demonstrate that SurgSAM2 significantly improves both efficiency and segmentation accuracy compared to the vanilla SAM2. Remarkably, SurgSAM2 achieves a 3$\times$ FPS compared with SAM2, while also delivering state-of-the-art performance after fine-tuning with lower-resolution data. These advancements establish SurgSAM2 as a leading model for surgical video analysis, making real-time surgical video segmentation in resource-constrained environments a reality. Our source code is available at https://github.com/jinlab-imvr/Surgical-SAM-2.

arxiv情報

著者 Haofeng Liu,Erli Zhang,Junde Wu,Mingxuan Hong,Yueming Jin
発行日 2025-03-11 12:57:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO, eess.IV | Surgical SAM 2: Real-time Segment Anything in Surgical Video by Efficient Frame Pruning はコメントを受け付けていません

Enhancing Autonomous Navigation by Imaging Hidden Objects using Single-Photon LiDAR

要約

視認性が限られている環境での堅牢な自律ナビゲーションは、ロボット工学における重要な課題のままです。
単一光子LIDARを使用して、視界を向上させ、自律ナビゲーションを強化するために、非表示(NLOS)センシングを活用する新しいアプローチを提示します。
私たちの方法により、マルチバウンスの光情報を利用して、追加のインフラストラクチャなしで知覚範囲を効果的に拡大することにより、モバイルロボットが「コーナーの周りを見る」ことができます。
3モジュールパイプラインを提案します。(1)SPADベースのLIDARを使用してマルチバウンスヒストグラムをキャプチャするセンシング。
(2)畳み込みニューラルネットワークを使用して、これらのヒストグラムから隠された領域の占有マップを推定する知覚。
(3)コントロール。これにより、ロボットは推定占有率に基づいて安全なパスをたどることができます。
隠れた障害物を備えたL字型の廊下をナビゲートするモバイルロボットでのシミュレーションと現実世界の実験を通じてアプローチを評価します。
私たちの作品は、自律的なナビゲーションのためのNLOSイメージングの最初の実験的デモンストレーションを表しており、複雑な環境で動作するより安全で効率的なロボットシステムへの道を開いています。
また、NLOSシナリオをシミュレートするための新しいダイナミクス統合された過渡レンダリングフレームワークを提供し、このドメインでの将来の研究を促進します。

要約(オリジナル)

Robust autonomous navigation in environments with limited visibility remains a critical challenge in robotics. We present a novel approach that leverages Non-Line-of-Sight (NLOS) sensing using single-photon LiDAR to improve visibility and enhance autonomous navigation. Our method enables mobile robots to ‘see around corners’ by utilizing multi-bounce light information, effectively expanding their perceptual range without additional infrastructure. We propose a three-module pipeline: (1) Sensing, which captures multi-bounce histograms using SPAD-based LiDAR; (2) Perception, which estimates occupancy maps of hidden regions from these histograms using a convolutional neural network; and (3) Control, which allows a robot to follow safe paths based on the estimated occupancy. We evaluate our approach through simulations and real-world experiments on a mobile robot navigating an L-shaped corridor with hidden obstacles. Our work represents the first experimental demonstration of NLOS imaging for autonomous navigation, paving the way for safer and more efficient robotic systems operating in complex environments. We also contribute a novel dynamics-integrated transient rendering framework for simulating NLOS scenarios, facilitating future research in this domain.

arxiv情報

著者 Aaron Young,Nevindu M. Batagoda,Harry Zhang,Akshat Dave,Adithya Pediredla,Dan Negrut,Ramesh Raskar
発行日 2025-03-11 13:10:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Enhancing Autonomous Navigation by Imaging Hidden Objects using Single-Photon LiDAR はコメントを受け付けていません

ICPR 2024 Competition on Rider Intention Prediction

要約

車両市場の最近の急増は、交通事故の驚くべき増加をもたらしました。
これは、特にモーターサイクリストのような脆弱な道路利用者にとって、交通安全対策を強化することの重要な重要性を強調しています。
したがって、ライダーの意図予測(RIP)競争を導入します。これは、ライダーの安全性の課題に対処することを目的としています。
この機能により、ライダーは、高度なドライバー支援システム(ADA)によってフラグが立てられた潜在的な誤った操作に対応できます。
新しいデータセット、つまり、シングルビューRIPとマルチビューRIPの2つのタスクで構成される競合のライダーアクション予測データセット(RAAD)を収集します。
データセットには、さまざまな照明条件がある道路上の交通条件と挑戦的なナビゲーション操作が組み込まれています。
競争では、RIPタスクの両方で上位3つのパフォーマンスチームの方法を比較した75の登録と5つのチームの提出を受け取りました:1つの状態空間モデル(MAMBA2)と2つの学習ベースのアプローチ(SVMとCNN-LSTM)。
結果は、状態空間モデルがデータセット全体で他のメソッドよりも優れており、操作クラス全体でバランスの取れたパフォーマンスを提供することを示しています。
SVMベースのRIPメソッドは、ランダムサンプリングとスモートを使用するときに2番目に良いパフォーマンスを示しました。
ただし、CNN-LSTMメソッドは、主にクラスの不均衡の問題、特に少数派のクラスに苦労しているため、パフォーマンスが低下しています。
このペーパーでは、提案されているRaadデータセットの詳細を説明し、RIP 2024コンペティションの提出物の要約を示しています。

要約(オリジナル)

The recent surge in the vehicle market has led to an alarming increase in road accidents. This underscores the critical importance of enhancing road safety measures, particularly for vulnerable road users like motorcyclists. Hence, we introduce the rider intention prediction (RIP) competition that aims to address challenges in rider safety by proactively predicting maneuvers before they occur, thereby strengthening rider safety. This capability enables the riders to react to the potential incorrect maneuvers flagged by advanced driver assistance systems (ADAS). We collect a new dataset, namely, rider action anticipation dataset (RAAD) for the competition consisting of two tasks: single-view RIP and multi-view RIP. The dataset incorporates a spectrum of traffic conditions and challenging navigational maneuvers on roads with varying lighting conditions. For the competition, we received seventy-five registrations and five team submissions for inference of which we compared the methods of the top three performing teams on both the RIP tasks: one state-space model (Mamba2) and two learning-based approaches (SVM and CNN-LSTM). The results indicate that the state-space model outperformed the other methods across the entire dataset, providing a balanced performance across maneuver classes. The SVM-based RIP method showed the second-best performance when using random sampling and SMOTE. However, the CNN-LSTM method underperformed, primarily due to class imbalance issues, particularly struggling with minority classes. This paper details the proposed RAAD dataset and provides a summary of the submissions for the RIP 2024 competition.

arxiv情報

著者 Shankar Gangisetty,Abdul Wasi,Shyam Nandan Rai,C. V. Jawahar,Sajay Raj,Manish Prajapati,Ayesha Choudhary,Aaryadev Chandra,Dev Chandan,Shireen Chand,Suvaditya Mukherjee
発行日 2025-03-11 13:50:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.HC, cs.RO | ICPR 2024 Competition on Rider Intention Prediction はコメントを受け付けていません

LLM-Pack: Intuitive Grocery Handling for Logistics Applications

要約

ロボット工学と自動化は、ロジスティクスにますます影響力がありますが、従来の倉庫に大きく限定されています。
食料品の小売業では、レジ係のないスーパーマーケットなどの進歩が存在しますが、顧客はまだ手動で食料品を選んで詰め込んでいます。
ビンピッキングの問題にロボット工学にかなりの焦点がありましたが、オブジェクトと食料品を梱包するタスクはほとんど手つかずのままです。
ただし、食料品のアイテムを適切な順序で梱包することは、製品の損傷を防ぐために重要です。たとえば、重いオブジェクトを脆弱なものの上に置くべきではありません。
ただし、適切な梱包順序の正確な基準は、特に店舗で一般的に見られる多様なオブジェクトを考えると、定義するのが困難です。
この論文では、食料品の梱包のための新しいアプローチであるLLM-Packを紹介します。
LLM-Packは、食料品を識別し、人間の梱包戦略を模倣する梱包シーケンスを生成するための言語とVision Foundationモデルを活用します。
LLMパックでは、新しい食料品アイテムを処理するための専用のトレーニングは必要ありません。そのモジュール性により、基礎となる基礎モデルの簡単なアップグレードが可能になります。
そのアプローチを広範囲に評価して、そのパフォーマンスを実証します。
この原稿の公開時に、LLMPackのソースコードを公開します。

要約(オリジナル)

Robotics and automation are increasingly influential in logistics but remain largely confined to traditional warehouses. In grocery retail, advancements such as cashier-less supermarkets exist, yet customers still manually pick and pack groceries. While there has been a substantial focus in robotics on the bin picking problem, the task of packing objects and groceries has remained largely untouched. However, packing grocery items in the right order is crucial for preventing product damage, e.g., heavy objects should not be placed on top of fragile ones. However, the exact criteria for the right packing order are hard to define, in particular given the huge variety of objects typically found in stores. In this paper, we introduce LLM-Pack, a novel approach for grocery packing. LLM-Pack leverages language and vision foundation models for identifying groceries and generating a packing sequence that mimics human packing strategy. LLM-Pack does not require dedicated training to handle new grocery items and its modularity allows easy upgrades of the underlying foundation models. We extensively evaluate our approach to demonstrate its performance. We will make the source code of LLMPack publicly available upon the publication of this manuscript.

arxiv情報

著者 Yannik Blei,Michael Krawez,Tobias Jülg,Pierre Krack,Florian Walter,Wolfram Burgard
発行日 2025-03-11 13:56:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | LLM-Pack: Intuitive Grocery Handling for Logistics Applications はコメントを受け付けていません

QUART-Online: Latency-Free Large Multimodal Language Model for Quadruped Robot Learning

要約

このペーパーでは、四足動物言語アクション(quar-VLA)タスクにマルチモーダルラージランゲージモデル(MLLM)の展開に関連する固有の推論潜在性の課題に対処します。
私たちの調査は、従来のパラメーター削減手法が最終的に、アクション命令調整段階で言語基盤モデルのパフォーマンスを損ない、この目的には不適切であることを明らかにしています。
言語基礎モデルのパフォーマンスを低下させることなく推論効率を高めるように設計された、Quart-Onlineと呼ばれる、新しいレイテンシフリーのクアドゥルアップMLLMモデルを導入します。
アクションチャンク離散化(ACD)を組み込むことにより、元のアクション表現スペースを圧縮し、重要な情報を保存しながら、より小さなディスクリート代表ベクトルのセットに連続的なアクション値をマッピングします。
その後、MLLMを微調整して、ビジョン、言語、および圧縮アクションを統合されたセマンティックスペースに統合します。
実験結果は、Quart-Onlineが既存のMLLMシステムと連携して動作し、基礎となるコントローラー周波数と同期してリアルタイムの推論を達成し、さまざまなタスクの成功率を65%上昇させることを示しています。
プロジェクトページはhttps://quart-online.github.ioです。

要約(オリジナル)

This paper addresses the inherent inference latency challenges associated with deploying multimodal large language models (MLLM) in quadruped vision-language-action (QUAR-VLA) tasks. Our investigation reveals that conventional parameter reduction techniques ultimately impair the performance of the language foundation model during the action instruction tuning phase, making them unsuitable for this purpose. We introduce a novel latency-free quadruped MLLM model, dubbed QUART-Online, designed to enhance inference efficiency without degrading the performance of the language foundation model. By incorporating Action Chunk Discretization (ACD), we compress the original action representation space, mapping continuous action values onto a smaller set of discrete representative vectors while preserving critical information. Subsequently, we fine-tune the MLLM to integrate vision, language, and compressed actions into a unified semantic space. Experimental results demonstrate that QUART-Online operates in tandem with the existing MLLM system, achieving real-time inference in sync with the underlying controller frequency, significantly boosting the success rate across various tasks by 65%. Our project page is https://quart-online.github.io.

arxiv情報

著者 Xinyang Tong,Pengxiang Ding,Yiguo Fan,Donglin Wang,Wenjie Zhang,Can Cui,Mingyang Sun,Han Zhao,Hongyin Zhang,Yonghao Dang,Siteng Huang,Shangke Lyu
発行日 2025-03-11 14:09:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | QUART-Online: Latency-Free Large Multimodal Language Model for Quadruped Robot Learning はコメントを受け付けていません

Automatic Robotic-Assisted Diffuse Reflectance Spectroscopy Scanning System

要約

びまん性反射率分光法(DRS)は、腫瘍検出について臨床的に評価されており、癌組織の完全な除去を確保するための組織組成評価のための確立された光学技術です。
ポイントごとの評価には多くの潜在的なアプリケーションがありますが、自動化された大型エリアスキャンを組み込むことで、より高い一貫性で全体的な組織サンプリングが可能になります。
ハイブリッド視覚サーボ制御で自律DRSスキャンを促進するためのロボットシステムを提案します。
特別に設計された高さ補償モジュールにより、正確な接触条件制御が可能になります。
評価結果は、システムがスキャンコマンドを正確に実行し、一貫したDRSスペクトルを取得できることを示しています。
提案されたシステムを手術に統合することは、自律的な術中DRS組織評価の基礎となり、高い信頼性と再現性を備えています。
これにより、臨床診療で完全な腫瘍除去を確保しながら、外科医による手動スキャンの必要性が減少する可能性があります。

要約(オリジナル)

Diffuse Reflectance Spectroscopy (DRS) is a well-established optical technique for tissue composition assessment which has been clinically evaluated for tumour detection to ensure the complete removal of cancerous tissue. While point-wise assessment has many potential applications, incorporating automated large-area scanning would enable holistic tissue sampling with higher consistency. We propose a robotic system to facilitate autonomous DRS scanning with hybrid visual servoing control. A specially designed height compensation module enables precise contact condition control. The evaluation results show that the system can accurately execute the scanning command and acquire consistent DRS spectra with comparable results to the manual collection, which is the current gold standard protocol. Integrating the proposed system into surgery lays the groundwork for autonomous intra-operative DRS tissue assessment with high reliability and repeatability. This could reduce the need for manual scanning by the surgeon while ensuring complete tumor removal in clinical practice.

arxiv情報

著者 Kaizhong Deng,Christopher J. Peters,George P. Mylonas,Daniel S. Elson
発行日 2025-03-11 14:16:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Automatic Robotic-Assisted Diffuse Reflectance Spectroscopy Scanning System はコメントを受け付けていません