NeRF-Aug: Data Augmentation for Robotics with Neural Radiance Fields

要約

未知のオブジェクトに一般化できるポリシーをトレーニングすることは、ロボット工学の分野における長年の課題です。
トレーニング中にシーン内のオブジェクトが表示されなかった状況では、ポリシーのパフォーマンスが大幅に低下することがよくあります。
この問題を解決するために、データセット内に存在しないオブジェクトと対話するようにポリシーを教えることができる新しい方法である NeRF-Aug を紹介します。
このアプローチは、拡張に神経放射フィールドの速度とフォトリアリズムを活用するという点で既存のアプローチとは異なります。
NeRF-Aug は、より写真のようにリアルなデータを作成し、既存の方法より 3.83 倍高速に実行します。
専門家による実証データのない 11 個の新規オブジェクトを使用した 4 つのタスクで、この方法の有効性を実証します。
既存の方法と比較して、平均 69.1% の成功率の向上を達成します。
https://nerf-aug.github.io でビデオ結果をご覧ください。

要約(オリジナル)

Training a policy that can generalize to unknown objects is a long standing challenge within the field of robotics. The performance of a policy often drops significantly in situations where an object in the scene was not seen during training. To solve this problem, we present NeRF-Aug, a novel method that is capable of teaching a policy to interact with objects that are not present in the dataset. This approach differs from existing approaches by leveraging the speed and photorealism of a neural radiance field for augmentation. NeRF- Aug both creates more photorealistic data and runs 3.83 times faster than existing methods. We demonstrate the effectiveness of our method on 4 tasks with 11 novel objects that have no expert demonstration data. We achieve an average 69.1% success rate increase over existing methods. See video results at https://nerf-aug.github.io.

arxiv情報

著者 Eric Zhu,Mara Levy,Matthew Gwilliam,Abhinav Shrivastava
発行日 2024-11-04 18:59:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO | コメントする

SPACE: 3D Spatial Co-operation and Exploration Framework for Robust Mapping and Coverage with Multi-Robot Systems

要約

屋内環境では、マルチロボット ビジュアル (RGB-D) マッピングと探索は、家事サービスや物流などの分野で応用できる計り知れない可能性を秘めており、同じ環境に複数のロボットを導入することで効率が大幅に向上します。
ただし、主な課題が 2 つあります。(1) 点群再構成の精度と品質に影響を与えるロボットのビューの重なりによって発生する「ゴースト トレイル」効果、(2) 最も効果的なものを選択する際の視覚的再構成の見落とし
探検のためのフロンティア。
これらの課題が相互に関連していることを考慮して、強化されたカバレッジと 3D マッピングを可能にする屋内環境での空間連携のための新しい半分散フレームワーク (SPACE) を提案することで、これらの課題に一緒に対処します。
SPACE は、「相互認識」や「動的ロボット フィルター」などの幾何学的手法を活用して、空間マッピングの制約を克服します。
さらに、新しい空間フロンティア検出システムと地図マージを導入し、適応フロンティア アサイナーと統合して、探索と再構築の目的のバランスをとった最適なカバレッジを実現します。
広範な ROS-Gazebo シミュレーションにおいて、SPACE は、探索とマッピングのメトリクスの両方において、最先端のアプローチよりも優れたパフォーマンスを実証しました。

要約(オリジナル)

In indoor environments, multi-robot visual (RGB-D) mapping and exploration hold immense potential for application in domains such as domestic service and logistics, where deploying multiple robots in the same environment can significantly enhance efficiency. However, there are two primary challenges: (1) the ‘ghosting trail’ effect, which occurs due to overlapping views of robots impacting the accuracy and quality of point cloud reconstruction, and (2) the oversight of visual reconstructions in selecting the most effective frontiers for exploration. Given these challenges are interrelated, we address them together by proposing a new semi-distributed framework (SPACE) for spatial cooperation in indoor environments that enables enhanced coverage and 3D mapping. SPACE leverages geometric techniques, including ‘mutual awareness’ and a ‘dynamic robot filter,’ to overcome spatial mapping constraints. Additionally, we introduce a novel spatial frontier detection system and map merger, integrated with an adaptive frontier assigner for optimal coverage balancing the exploration and reconstruction objectives. In extensive ROS-Gazebo simulations, SPACE demonstrated superior performance over state-of-the-art approaches in both exploration and mapping metrics.

arxiv情報

著者 Sai Krishna Ghanta,Ramviyas Parasuraman
発行日 2024-11-04 19:04:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MA, cs.RO | コメントする

Modeling Uncertainty in 3D Gaussian Splatting through Continuous Semantic Splatting

要約

この論文では、3D ガウス スプラッティング (3D-GS) 内でセマンティック マップを確率的に更新およびラスタライズするための新しいアルゴリズムを紹介します。
これまでの方法では、シーンの理解を強化するために 3D-GS でフィーチャをラスタライズすることを学習するアルゴリズムが導入されていましたが、3D-GS は警告なしに失敗する可能性があり、安全性が重要なロボット アプリケーションにとっては課題となります。
このギャップに対処するために、我々は、3D-GS の正確な構造と確率的ロボット マップの不確実性を定量化する機能を組み合わせて、ボクセルから楕円体への連続意味論的マッピングの文献を前進させる方法を提案します。
画像のセットが与えられると、私たちのアルゴリズムは 3D 楕円体上で確率的意味論的な更新を直接実行し、共役事前分布の使用を通じて期待値と分散を取得します。
また、定量化可能な不確実性を伴うピクセルごとのセグメンテーション予測を返す確率的ラスタライゼーションも提案します。
私たちの方法を同様の確率的ボクセルベースの方法と比較して、3D楕円体への拡張を検証し、不確実性の定量化と時間的平滑化に関するアブレーション研究を実行します。

要約(オリジナル)

In this paper, we present a novel algorithm for probabilistically updating and rasterizing semantic maps within 3D Gaussian Splatting (3D-GS). Although previous methods have introduced algorithms which learn to rasterize features in 3D-GS for enhanced scene understanding, 3D-GS can fail without warning which presents a challenge for safety-critical robotic applications. To address this gap, we propose a method which advances the literature of continuous semantic mapping from voxels to ellipsoids, combining the precise structure of 3D-GS with the ability to quantify uncertainty of probabilistic robotic maps. Given a set of images, our algorithm performs a probabilistic semantic update directly on the 3D ellipsoids to obtain an expectation and variance through the use of conjugate priors. We also propose a probabilistic rasterization which returns per-pixel segmentation predictions with quantifiable uncertainty. We compare our method with similar probabilistic voxel-based methods to verify our extension to 3D ellipsoids, and perform ablation studies on uncertainty quantification and temporal smoothing.

arxiv情報

著者 Joey Wilson,Marcelino Almeida,Min Sun,Sachit Mahajan,Maani Ghaffari,Parker Ewen,Omid Ghasemalizadeh,Cheng-Hao Kuo,Arnie Sen
発行日 2024-11-04 19:31:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | コメントする

Map++: Towards User-Participatory Visual SLAM Systems with Efficient Map Expansion and Sharing

要約

正確な 3D マップの構築は、自動運転やナビゲーションなどの将来の地図ベースのシステムの開発にとって重要です。
ただし、立体駐車場やショッピング モールなどの複雑な環境でこれらのマップを生成することは、依然として困難な課題です。
このペーパーでは、地図作成タスクを地図ユーザーに委任することで、費用対効果が高く継続的なデータ収集を可能にする参加型センシング アプローチを紹介します。
提案された方法は、ユーザーの共同の努力を活用し、環境の進化に応じたマップの拡張と継続的な更新を容易にします。
私たちは、プラグアンドプレイ拡張機能として機能し、既存の SLAM アルゴリズムに基づいた参加型マップ構築をサポートする効率的なシステムである Map++ を開発することで、このアプローチを実現しました。
Map++ は、一連の軽量のアプリケーション層プロトコルを提案することで、この参加型地図構築システムにおける多くのスケーラビリティの問題に対処します。
私たちは、屋内ガレージ、屋外広場、公共 SLAM ベンチマーク、模擬環境という 4 つの代表的な環境で Map++ を評価しました。
結果は、Map++ がマッピング精度の低下を無視できる程度 (つまり、ベースライン システムと比較して 0.03 メートル未満) でトラフィック量を約 46% 削減できることを示しています。
同じネットワーク帯域幅で、ベースラインの約 2 倍の同時ユーザーをサポートできます。
さらに、すでにマップされた軌跡を移動するユーザーは、既存のマップをローカリゼーションに直接利用して、CPU 使用率を 47% 節約できます。

要約(オリジナル)

Constructing precise 3D maps is crucial for the development of future map-based systems such as self-driving and navigation. However, generating these maps in complex environments, such as multi-level parking garages or shopping malls, remains a formidable challenge. In this paper, we introduce a participatory sensing approach that delegates map-building tasks to map users, thereby enabling cost-effective and continuous data collection. The proposed method harnesses the collective efforts of users, facilitating the expansion and ongoing update of the maps as the environment evolves. We realized this approach by developing Map++, an efficient system that functions as a plug-and-play extension, supporting participatory map-building based on existing SLAM algorithms. Map++ addresses a plethora of scalability issues in this participatory map-building system by proposing a set of lightweight, application-layer protocols. We evaluated Map++ in four representative settings: an indoor garage, an outdoor plaza, a public SLAM benchmark, and a simulated environment. The results demonstrate that Map++ can reduce traffic volume by approximately 46% with negligible degradation in mapping accuracy, i.e., less than 0.03m compared to the baseline system. It can support approximately $2 \times$ as many concurrent users as the baseline under the same network bandwidth. Additionally, for users who travel on already-mapped trajectories, they can directly utilize the existing maps for localization and save 47% of the CPU usage.

arxiv情報

著者 Xinran Zhang,Hanqi Zhu,Yifan Duan,Wuyang Zhang,Longfei Shangguan,Yu Zhang,Jianmin Ji,Yanyong Zhang
発行日 2024-11-04 19:35:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | コメントする

Incorporating Control Inputs in Continuous-Time Gaussian Process State Estimation for Robotics

要約

ガウス プロセスを使用した連続時間バッチ状態推定は、時間の経過に伴うロボットの軌道を推定するための効率的なアプローチです。
これまで、このようなアプローチには、一定の速度や加速度などの仮定を使用した、比較的単純な物理学に基づく事前確率が検討されてきました。
この論文では、速度や加速度コマンドなどの外部制御入力を連続ガウス プロセス状態推定フレームワークに組み込むアプローチを紹介します。
このアプローチはロボット工学のさまざまな領域にわたって一般化され、移動ロボットの連続時間軌道の推定と準静的な連続ロボットの形状の推定の両方に適用できることが示されています。
結果は、制御入力を組み込むと、より多くの情報に基づいた事前分布が得られ、正確な推定値を取得するために必要な測定ノードと推定ノードが減少する可能性があることを示しています。
これにより、このアプローチは、利用可能なセンシングが限られている状況で特に役立ちます。

要約(オリジナル)

Continuous-time batch state estimation using Gaussian processes is an efficient approach to estimate the trajectories of robots over time. In the past, relatively simple physics-motivated priors have been considered for such approaches, using assumptions such as constant velocity or acceleration. This paper presents an approach to incorporating exogenous control inputs, such as velocity or acceleration commands, into the continuous Gaussian process state-estimation framework. It is shown that this approach generalizes across different domains in robotics, making it applicable to both the estimation of continuous-time trajectories for mobile robots and the estimation of quasi-static continuum robot shapes. Results show that incorporating control inputs leads to more informed priors, potentially requiring less measurements and estimation nodes to obtain accurate estimates. This makes the approach particularly useful in situations in which limited sensing is available.

arxiv情報

著者 Sven Lilge,Timothy D. Barfoot
発行日 2024-11-04 19:35:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

Vocal Sandbox: Continual Learning and Adaptation for Situated Human-Robot Collaboration

要約

位置環境で人間とロボットのシームレスなコラボレーションを可能にするフレームワークである Vocal Sandbox を紹介します。
私たちのフレームワークのシステムは、音声対話、オブジェクトのキーポイント、運動感覚のデモンストレーションなど、さまざまな教育方法から複数の抽象レベルで適応し、継続的に学習する能力を特徴としています。
このような適応を可能にするために、ユーザーが新しい動作を教えながらロボットの能力をリアルタイムで理解し、同時に適応できるようにする、軽量で解釈可能な学習アルゴリズムを設計します。
たとえば、オブジェクトの「周囲を追跡する」ための新しい低レベルのスキルをデモンストレーションした後、ユーザーは、新しいオブジェクトを追跡するように求められたときに、ロボットの意図した動きの軌跡を視覚化して提供されます。
同様に、ユーザーは音声対話を通じて高レベルの計画行動を教え、事前にトレーニングされた言語モデルを使用して、再利用および構築できる低レベルのスキル $-$ 概念の構成として「物体を片付ける」などの行動を合成します。
Vocal Sandbox を 2 つの設定 (共同ギフトバッグの組み立てと LEGO ストップモーション アニメーション) で評価します。
最初の設定では、専門家以外の参加者 8 名を対象に体系的なアブレーションとユーザー調査を実施し、マルチレベル指導の影響を強調します。
ロボットとの合計対話時間 23 時間で、ユーザーは平均 16 の新しい低レベルのスキルを使用して 17 の新しい高レベルの動作を教え、ベースラインと比較して必要なアクティブな監視が 22.1% 減少し、少ない時間でより複雑な自律パフォーマンス (+19.7%) を実現します。
失敗 (-67.1%)。
定性的には、ユーザーは使いやすさ (+20.6%) と全体的なパフォーマンス (+13.9%) により、ボーカル サンドボックス システムを強く好みます。
最後に、経験豊富なシステム ユーザーとロボットを組み合わせてストップモーション アニメーションを撮影します。
2 時間の継続的なコラボレーションを通じて、ユーザーは 52 秒 (232 フレーム) のムービーを撮影するためのより複雑なモーション スキルを徐々に習得します。

要約(オリジナル)

We introduce Vocal Sandbox, a framework for enabling seamless human-robot collaboration in situated environments. Systems in our framework are characterized by their ability to adapt and continually learn at multiple levels of abstraction from diverse teaching modalities such as spoken dialogue, object keypoints, and kinesthetic demonstrations. To enable such adaptation, we design lightweight and interpretable learning algorithms that allow users to build an understanding and co-adapt to a robot’s capabilities in real-time, as they teach new behaviors. For example, after demonstrating a new low-level skill for ‘tracking around’ an object, users are provided with trajectory visualizations of the robot’s intended motion when asked to track a new object. Similarly, users teach high-level planning behaviors through spoken dialogue, using pretrained language models to synthesize behaviors such as ‘packing an object away’ as compositions of low-level skills $-$ concepts that can be reused and built upon. We evaluate Vocal Sandbox in two settings: collaborative gift bag assembly and LEGO stop-motion animation. In the first setting, we run systematic ablations and user studies with 8 non-expert participants, highlighting the impact of multi-level teaching. Across 23 hours of total robot interaction time, users teach 17 new high-level behaviors with an average of 16 novel low-level skills, requiring 22.1% less active supervision compared to baselines and yielding more complex autonomous performance (+19.7%) with fewer failures (-67.1%). Qualitatively, users strongly prefer Vocal Sandbox systems due to their ease of use (+20.6%) and overall performance (+13.9%). Finally, we pair an experienced system-user with a robot to film a stop-motion animation; over two hours of continuous collaboration, the user teaches progressively more complex motion skills to shoot a 52 second (232 frame) movie.

arxiv情報

著者 Jennifer Grannen,Siddharth Karamcheti,Suvir Mirchandani,Percy Liang,Dorsa Sadigh
発行日 2024-11-04 20:44:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.HC, cs.LG, cs.RO | コメントする

MOSAIC: A Modular System for Assistive and Interactive Cooking

要約

私たちは、家庭用ロボットが日常のユーザーと一緒に料理をするなどの複雑な共同作業を実行するためのモジュラー アーキテクチャである MOSAIC を紹介します。
MOSAIC は人間と緊密に連携し、自然言語を使用してユーザーと対話し、複数のロボットを調整し、日常の物体のオープンな語彙を管理します。
MOSAIC はその中核としてモジュール性を採用しています。つまり、言語や画像認識などの一般的なタスクに複数の大規模な事前トレーニング済みモデルを活用すると同時に、タスク固有の制御用に設計された合理化されたモジュールを使用します。
私たちは、2 台のロボットが人間のユーザーと協力して 6 つのレシピを組み合わせて調理する 60 のエンドツーエンドのトライアルで MOSAIC を広範囲に評価しました。
また、視覚モーターピッキングの 180 エピソード、人間の動作予測の 60 エピソード、タスク プランナーのオンライン ユーザー評価 46 件を使用して、個々のモジュールを広範囲にテストしています。
私たちは、MOSAIC が実際の人間のユーザーとシステム全体をエンドツーエンドで実行することにより人間と効率的に共同作業できることを示し、サブタスク完了率 91.6% で 6 つの異なるレシピの共同調理試行を 68.3% (41/60) 完了しました。

最後に、現在のシステムの限界と、この領域における興味深い未解決の課題について説明します。
プロジェクトの Web サイトは https://portal-cornell.github.io/MOSAIC/ にあります。

要約(オリジナル)

We present MOSAIC, a modular architecture for home robots to perform complex collaborative tasks, such as cooking with everyday users. MOSAIC tightly collaborates with humans, interacts with users using natural language, coordinates multiple robots, and manages an open vocabulary of everyday objects. At its core, MOSAIC employs modularity: it leverages multiple large-scale pre-trained models for general tasks like language and image recognition, while using streamlined modules designed for task-specific control. We extensively evaluate MOSAIC on 60 end-to-end trials where two robots collaborate with a human user to cook a combination of 6 recipes. We also extensively test individual modules with 180 episodes of visuomotor picking, 60 episodes of human motion forecasting, and 46 online user evaluations of the task planner. We show that MOSAIC is able to efficiently collaborate with humans by running the overall system end-to-end with a real human user, completing 68.3% (41/60) collaborative cooking trials of 6 different recipes with a subtask completion rate of 91.6%. Finally, we discuss the limitations of the current system and exciting open challenges in this domain. The project’s website is at https://portal-cornell.github.io/MOSAIC/

arxiv情報

著者 Huaxiaoyue Wang,Kushal Kedia,Juntao Ren,Rahma Abdullah,Atiksh Bhardwaj,Angela Chao,Kelly Y Chen,Nathaniel Chin,Prithwish Dan,Xinyi Fan,Gonzalo Gonzalez-Pumariega,Aditya Kompella,Maximus Adrian Pace,Yash Sharma,Xiangwan Sun,Neha Sunkara,Sanjiban Choudhury
発行日 2024-11-04 20:58:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

Advanced XR-Based 6-DOF Catheter Tracking System for Immersive Cardiac Intervention Training

要約

拡張現実 (XR) テクノロジーは、特に複雑な心臓インターベンションにおける医療トレーニングと手順の指導のための効果的なツールとして注目を集めています。
この論文では、ロール角を正確に測定する、心臓内心エコー検査 (ICE) カテーテルのリアルタイム 3D 追跡および視覚化のための新しいシステムを紹介します。
直交カメラを備えたカスタム 3D プリントのセットアップは、カテーテルのバイプレーン ビデオをキャプチャし、同時に特殊なコンピューター ビジョン アルゴリズムが 3D 軌道を再構築し、サブミリメートルの精度で先端の位置を特定し、ロール角をリアルタイムで追跡します。
システムのデータは、Meta Quest 3 XR ヘッドセットを通じてレンダリングされるインタラクティブな Unity ベースの環境に統合され、動的に追跡されるカテーテルと患者固有の 3D 心臓モデルを組み合わせています。
この没入型環境により、XR の視覚化形式として、2D 投影と比較した 3D 奥行き知覚の重要性をテストできます。
ICE カテーテルを使用して 6 人の参加者とともに実施された私たちの実験研究は、3D 視覚化が XR システムによって提供される 2D ビューよりも必ずしも有益ではないことを示唆しています。
ただし、すべての心臓専門医は術前のトレーニング、計画、術中の指導にその有用性を認識していました。
提案されたシステムは、視覚化、対話性、およびスキル開発を改善することにより、カテーテルベースの介入、特に ICE 処置を変革する上で大きな期待を定性的に示しています。

要約(オリジナル)

Extended Reality (XR) technologies are gaining traction as effective tools for medical training and procedural guidance, particularly in complex cardiac interventions. This paper presents a novel system for real-time 3D tracking and visualization of intracardiac echocardiography (ICE) catheters, with precise measurement of the roll angle. A custom 3D-printed setup, featuring orthogonal cameras, captures biplane video of the catheter, while a specialized computer vision algorithm reconstructs its 3D trajectory, localizing the tip with sub-millimeter accuracy and tracking the roll angle in real-time. The system’s data is integrated into an interactive Unity-based environment, rendered through the Meta Quest 3 XR headset, combining a dynamically tracked catheter with a patient-specific 3D heart model. This immersive environment allows the testing of the importance of 3D depth perception, in comparison to 2D projections, as a form of visualization in XR. Our experimental study, conducted using the ICE catheter with six participants, suggests that 3D visualization is not necessarily beneficial over 2D views offered by the XR system; although all cardiologists saw its utility for pre-operative training, planning, and intra-operative guidance. The proposed system qualitatively shows great promise in transforming catheter-based interventions, particularly ICE procedures, by improving visualization, interactivity, and skill development.

arxiv情報

著者 Mohsen Annabestani,Sandhya Sriram,S. Chiu Wong,Alexandros Sigaras,Bobak Mosadegh
発行日 2024-11-04 21:05:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.GR, cs.HC, cs.RO, eess.IV | コメントする

Tracking Tumors under Deformation from Partial Point Clouds using Occupancy Networks

要約

手術中に腫瘍を追跡するために、術前の CT スキャンからの情報を使用して腫瘍の位置が特定されます。
しかし、外科医が手術を行うと腫瘍が変形する可能性があり、これが腫瘍を正確に切除する上で大きな障害となり、手術の不正確さ、手術時間の増加、過剰なマージンを引き起こす可能性があります。
この問題は、手術中に腎臓が大幅に変形するロボット支援腎部分切除術 (RAPN) で特に顕著です。
これに対処するために、インタラクティブな速度で変形する腎臓ファントム内の腫瘍の位置を特定するための占有ネットワーク ベースの方法を導入します。
外生性および内生性腎腫瘍が埋め込まれた 3D ハイドロゲル腎臓ファントムを導入することにより、私たちの方法を検証します。
実際の組織力学を厳密に模倣して、生体内手術中の腎臓の変形をシミュレートし、優れたコントラストと腫瘍辺縁の明確な描写を提供して、自動閾値ベースのセグメンテーションを可能にします。
我々の調査結果は、提案された方法が、60Hzを超える重要な体積3D情報を提供しながら、6mmから10mmのマージンで中程度に変形している腎臓の腫瘍の位置を特定できることを示しています。
この機能により、ロボット切除などの下流タスクが直接可能になります。

要約(オリジナル)

To track tumors during surgery, information from preoperative CT scans is used to determine their position. However, as the surgeon operates, the tumor may be deformed which presents a major hurdle for accurately resecting the tumor, and can lead to surgical inaccuracy, increased operation time, and excessive margins. This issue is particularly pronounced in robot-assisted partial nephrectomy (RAPN), where the kidney undergoes significant deformations during operation. Toward addressing this, we introduce a occupancy network-based method for the localization of tumors within kidney phantoms undergoing deformations at interactive speeds. We validate our method by introducing a 3D hydrogel kidney phantom embedded with exophytic and endophytic renal tumors. It closely mimics real tissue mechanics to simulate kidney deformation during in vivo surgery, providing excellent contrast and clear delineation of tumor margins to enable automatic threshold-based segmentation. Our findings indicate that the proposed method can localize tumors in moderately deforming kidneys with a margin of 6mm to 10mm, while providing essential volumetric 3D information at over 60Hz. This capability directly enables downstream tasks such as robotic resection.

arxiv情報

著者 Pit Henrich,Jiawei Liu,Jiawei Ge,Samuel Schmidgall,Lauren Shepard,Ahmed Ezzat Ghazi,Franziska Mathis-Ullrich,Axel Krieger
発行日 2024-11-04 21:15:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | コメントする

Enhancing Indoor Mobility with Connected Sensor Nodes: A Real-Time, Delay-Aware Cooperative Perception Approach

要約

この論文では、動的な屋内環境で動作するインテリジェント モビリティ プラットフォーム向けに設計された、新しいリアルタイムの遅延認識協調知覚システムを紹介します。
このシステムには、モビリティ プラットフォームに知覚サービスを集合的に提供するマルチモーダル センサー ノードのネットワークとセントラル ノードが含まれています。
提案されているスキャン パターンを考慮した階層的クラスタリングと地面接触特徴ベースの LiDAR カメラ フュージョンにより、混雑した環境に対するノード内の認識が向上します。
このシステムは、ノード間でデータを同期および集約するための、遅延を考慮したグローバル認識機能も備えています。
私たちのアプローチを検証するために、2 つの屋内センサー ノードによってキャプチャされたデータからコンパイルされた屋内歩行者追跡データセットを導入しました。
私たちの実験では、ベースラインと比較して、検出精度と遅延に対する堅牢性が大幅に向上していることが実証されました。
データセットはリポジトリで入手できます: https://github.com/NingMingHao/MVSLab-IndoorCooperativePerception

要約(オリジナル)

This paper presents a novel real-time, delay-aware cooperative perception system designed for intelligent mobility platforms operating in dynamic indoor environments. The system contains a network of multi-modal sensor nodes and a central node that collectively provide perception services to mobility platforms. The proposed Hierarchical Clustering Considering the Scanning Pattern and Ground Contacting Feature based Lidar Camera Fusion improve intra-node perception for crowded environment. The system also features delay-aware global perception to synchronize and aggregate data across nodes. To validate our approach, we introduced the Indoor Pedestrian Tracking dataset, compiled from data captured by two indoor sensor nodes. Our experiments, compared to baselines, demonstrate significant improvements in detection accuracy and robustness against delays. The dataset is available in the repository: https://github.com/NingMingHao/MVSLab-IndoorCooperativePerception

arxiv情報

著者 Minghao Ning,Yaodong Cui,Yufeng Yang,Shucheng Huang,Zhenan Liu,Ahmad Reza Alghooneh,Ehsan Hashemi,Amir Khajepour
発行日 2024-11-04 21:31:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO | コメントする