StraightTrack: Towards Mixed Reality Navigation System for Percutaneous K-wire Insertion

要約

経皮的骨盤外傷手術では、効果的な骨折固定を確保し、不適切な軌道に沿った皮質骨の破壊による合併症を回避するために、キルシュナー ワイヤー (K ワイヤー) を正確に配置することが重要です。
複合現実 (MR) による手術ナビゲーションは、薄型フォーム ファクターでの正確なワイヤ配置の実現に役立ちます。
この分野における現在のアプローチは、ワイヤーが制御されていないため、正確な視覚的フィードバックを保証できないため、現実世界の展開にはまだ適していません。
正確なフィードバックを保証するために、複雑な解剖学的構造における経皮的ワイヤ配置用に設計された MR ナビゲーション システムである StraightTrack を導入します。
StraightTrack は、軟組織や覆われた骨表面との相互作用によるワイヤーの曲がりを軽減する剛性アクセス カニューレを備えたマーカー本体を備えています。
StraightTrack は、カニューレ本体を追跡できる光学式シースルー ヘッドマウント ディスプレイ (OST HMD) と統合されており、視線を失いがちな外部トラッカーを使用せずに、リアルタイムの 3D 視覚化とガイダンスを提供します。
経験豊富な整形外科医 2 名による仮想実験では、StraightTrack はワイヤー配置の精度を向上させ、同等の方法では 12.08 mm 以上および 4.07 度を超えるのに対し、$5.26 \pm 2.29$ mm および $2.88 \pm 1.49$ 度以内の理想的な軌道を達成しました。
MR ナビゲーション システムが成熟し続けるにつれて、StraightTrack は内部骨折固定やその他の経皮整形外科処置における可能性を認識しています。

要約(オリジナル)

In percutaneous pelvic trauma surgery, accurate placement of Kirschner wires (K-wires) is crucial to ensure effective fracture fixation and avoid complications due to breaching the cortical bone along an unsuitable trajectory. Surgical navigation via mixed reality (MR) can help achieve precise wire placement in a low-profile form factor. Current approaches in this domain are as yet unsuitable for real-world deployment because they fall short of guaranteeing accurate visual feedback due to uncontrolled bending of the wire. To ensure accurate feedback, we introduce StraightTrack, an MR navigation system designed for percutaneous wire placement in complex anatomy. StraightTrack features a marker body equipped with a rigid access cannula that mitigates wire bending due to interactions with soft tissue and a covered bony surface. Integrated with an Optical See-Through Head-Mounted Display (OST HMD) capable of tracking the cannula body, StraightTrack offers real-time 3D visualization and guidance without external trackers, which are prone to losing line-of-sight. In phantom experiments with two experienced orthopedic surgeons, StraightTrack improves wire placement accuracy, achieving the ideal trajectory within $5.26 \pm 2.29$ mm and $2.88 \pm 1.49$ degree, compared to over 12.08 mm and 4.07 degree for comparable methods. As MR navigation systems continue to mature, StraightTrack realizes their potential for internal fracture fixation and other percutaneous orthopedic procedures.

arxiv情報

著者 Han Zhang,Benjamin D. Killeen,Yu-Chun Ku,Lalithkumar Seenivasan,Yuxuan Zhao,Mingxu Liu,Yue Yang,Suxi Gu,Alejandro Martin-Gomez,Russell H. Taylor,Greg Osgood,Mathias Unberath
発行日 2024-10-02 00:45:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

E2Map: Experience-and-Emotion Map for Self-Reflective Robot Navigation with Language Models

要約

大規模言語モデル (LLM) は、ロボット操作やナビゲーションを含むさまざまなタスクにわたって言語命令を実行するように身体化されたエージェントを導く上で、大きな可能性を示しています。
ただし、既存の方法は主に静的環境向けに設計されており、エージェント自身の経験を活用して初期計画を改善することはありません。
現実世界の環境は本質的に確率論的であるため、静的シナリオとは異なり、LLM の一般知識のみに基づいた初期計画は目的を達成できない可能性があります。
この制限に対処するために、この研究では、LLM の知識だけでなくエージェントの実世界の経験を統合し、人間の感情的反応からインスピレーションを得たエクスペリエンスと感情マップ (E2Map) を導入しました。
提案された方法論では、エージェントの経験に基づいて E2Map を更新することで、ワンショットの動作調整が可能になります。
シミュレーションと現実世界のシナリオの両方を含む確率的ナビゲーション環境での評価では、提案された方法が既存の LLM ベースのアプローチと比較して確率的環境でのパフォーマンスが大幅に向上することが実証されています。
コードと補足資料は https://e2map.github.io/ で入手できます。

要約(オリジナル)

Large language models (LLMs) have shown significant potential in guiding embodied agents to execute language instructions across a range of tasks, including robotic manipulation and navigation. However, existing methods are primarily designed for static environments and do not leverage the agent’s own experiences to refine its initial plans. Given that real-world environments are inherently stochastic, initial plans based solely on LLMs’ general knowledge may fail to achieve their objectives, unlike in static scenarios. To address this limitation, this study introduces the Experience-and-Emotion Map (E2Map), which integrates not only LLM knowledge but also the agent’s real-world experiences, drawing inspiration from human emotional responses. The proposed methodology enables one-shot behavior adjustments by updating the E2Map based on the agent’s experiences. Our evaluation in stochastic navigation environments, including both simulations and real-world scenarios, demonstrates that the proposed method significantly enhances performance in stochastic environments compared to existing LLM-based approaches. Code and supplementary materials are available at https://e2map.github.io/.

arxiv情報

著者 Chan Kim,Keonwoo Kim,Mintaek Oh,Hanbi Baek,Jiyang Lee,Donghwi Jung,Soojin Woo,Younkyung Woo,John Tucker,Roya Firoozi,Seung-Woo Seo,Mac Schwager,Seong-Woo Kim
発行日 2024-10-02 00:50:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | コメントする

Large Language Models as Zero-Shot Human Models for Human-Robot Interaction

要約

ヒューマン モデルはヒューマン ロボット インタラクション (HRI) において重要な役割を果たし、ロボットが自分の行動が人に与える影響を考慮し、それに応じて行動を計画できるようにします。
ただし、優れた人体モデルを作成するのは困難です。
コンテキスト依存の人間の行動を捉えるには、重要な事前知識や大量のインタラクション データが必要ですが、どちらも入手するのが困難です。
この研究では、人間が生成した膨大な量のテキスト データを消費する大規模言語モデル (LLM) が、HRI のゼロショット ヒューマン モデルとして機能する可能性を探ります。
3 つの社会データセットに対する私たちの実験では、有望な結果が得られました。
LLM は、専用モデルと同等のパフォーマンスを達成できます。
そうは言っても、プロンプトに対する感度や空間的/数値的推論の誤りなど、現在の制限についても説明します。
私たちの発見に基づいて、LLM ベースの人体モデルをソーシャル ロボットの計画プロセスにどのように統合し、HRI シナリオに適用できるかを示します。
具体的には、信頼ベースのテーブルクリアタスクのシミュレーションに関する 1 つのケーススタディを紹介し、カスタム モデルに依存した過去の結果を再現します。
次に、新しいロボット器具通過実験 (n = 65) を実施します。この実験では、LLM ベースの人体モデルを使用して計画を立てると、基本的な近視計画よりも効果が得られることが暫定結果で示されました。
要約すると、私たちの結果は、LLM が HRI の人間モデリングに対して有望な (しかし不完全な) アプローチを提供することを示しています。

要約(オリジナル)

Human models play a crucial role in human-robot interaction (HRI), enabling robots to consider the impact of their actions on people and plan their behavior accordingly. However, crafting good human models is challenging; capturing context-dependent human behavior requires significant prior knowledge and/or large amounts of interaction data, both of which are difficult to obtain. In this work, we explore the potential of large-language models (LLMs) — which have consumed vast amounts of human-generated text data — to act as zero-shot human models for HRI. Our experiments on three social datasets yield promising results; the LLMs are able to achieve performance comparable to purpose-built models. That said, we also discuss current limitations, such as sensitivity to prompts and spatial/numerical reasoning mishaps. Based on our findings, we demonstrate how LLM-based human models can be integrated into a social robot’s planning process and applied in HRI scenarios. Specifically, we present one case study on a simulated trust-based table-clearing task and replicate past results that relied on custom models. Next, we conduct a new robot utensil-passing experiment (n = 65) where preliminary results show that planning with a LLM-based human model can achieve gains over a basic myopic plan. In summary, our results show that LLMs offer a promising (but incomplete) approach to human modeling for HRI.

arxiv情報

著者 Bowen Zhang,Harold Soh
発行日 2024-10-02 00:57:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.HC, cs.LG, cs.RO | コメントする

Improving Zero-Shot ObjectNav with Generative Communication

要約

我々は、潜在的に利用可能な環境認識をナビゲーション支援に利用することを目的とした、ゼロショット ObjectNav を改善するための新しい方法を提案します。
私たちのアプローチでは、地上職員の視界が制限され、場合によっては視界が遮られる可能性があることを考慮しています。
私たちの定式化は、ターゲット オブジェクトを含むグローバル ビューを持つ支援オーバーヘッド エージェントと難読化されたビューを持つ地上エージェント間の生成コミュニケーション (GC) を促進します。
どちらも、視覚から言語への翻訳のための視覚言語モデル (VLM) を備えています。
この支援セットアップでは、地上エージェントがターゲットに向かってアクションを実行する前に、実体エージェントが環境情報を通信します。
オーバーヘッドエージェントがターゲットに対して全体的な視野を持っているにもかかわらず、完全に協力的な支援スキームのパフォーマンスが、支援なしのベースラインと比較して低下していることに注目します(OSRで-13%、SPLで-13%)。
対照的に、地上エージェントが独立した探索行動を維持する選択的支援スキームでは、10% の OSR と 7.65% の SPL の改善が示されています。
ナビゲーションのパフォーマンスを説明するために、GC の固有の特性を分析し、幻覚と協力の存在を定量化します。
具体的には、具体化された設定における先制幻覚の新しい言語的特徴を特定し、地上エージェントがまだ移動していないときに地上エージェントが対話でアクションを実行したと頭上エージェントが想定し、そのナビゲーションパフォーマンスとの強い相関関係に注目します。
私たちは実際の実験を実施し、ObjectNav のパフォーマンスを向上させるための迅速な微調整によって幻覚を軽減する定性的な例をいくつか紹介します。

要約(オリジナル)

We propose a new method for improving zero-shot ObjectNav that aims to utilize potentially available environmental percepts for navigational assistance. Our approach takes into account that the ground agent may have limited and sometimes obstructed view. Our formulation encourages Generative Communication (GC) between an assistive overhead agent with a global view containing the target object and the ground agent with an obfuscated view; both equipped with Vision-Language Models (VLMs) for vision-to-language translation. In this assisted setup, the embodied agents communicate environmental information before the ground agent executes actions towards a target. Despite the overhead agent having a global view with the target, we note a drop in performance (-13% in OSR and -13% in SPL) of a fully cooperative assistance scheme over an unassisted baseline. In contrast, a selective assistance scheme where the ground agent retains its independent exploratory behaviour shows a 10% OSR and 7.65% SPL improvement. To explain navigation performance, we analyze the GC for unique traits, quantifying the presence of hallucination and cooperation. Specifically, we identify the novel linguistic trait of preemptive hallucination in our embodied setting, where the overhead agent assumes that the ground agent has executed an action in the dialogue when it is yet to move, and note its strong correlation with navigation performance. We conduct real-world experiments and present some qualitative examples where we mitigate hallucinations via prompt finetuning to improve ObjectNav performance.

arxiv情報

著者 Vishnu Sashank Dorbala,Vishnu Dutt Sharma,Pratap Tokekar,Dinesh Manocha
発行日 2024-10-02 01:13:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | コメントする

Effective Tuning Strategies for Generalist Robot Manipulation Policies

要約

汎用的なロボット操作ポリシー (GMP) は、幅広いタスク、デバイス、環境にわたって一般化できる可能性があります。
しかし、既存の政策は、広範に多様な領域をカバーするのに十分な行動データを収集することが本質的に難しいため、配布不能シナリオに引き続き苦戦しています。
微調整は、限られたサンプルで新しいドメインやタスクに GMP を迅速に適応させる実用的な方法を提供しますが、結果として得られる GMP のパフォーマンスは、微調整戦略の設計選択に関して大きく異なることが観察されています。
この研究では、まず詳細な実証研究を実施して、アクションスペース、政策責任者、監督シグナル、調整可能なパラメータの選択をカバーするGMPの微調整戦略における主要な要素の影響を調査します。そこでは2,500のロールアウトが評価されます。
単一の構成。
私たちは体系的に議論して調査結果を要約し、重要な設計の選択肢を特定します。これは、GMP の微調整のための実用的なガイドラインを提供すると信じています。
慎重に選択された微調整戦略を使用した低データ領域では、GMP が最先端の模倣学習アルゴリズムを大幅に上回るパフォーマンスを示していることがわかります。
この研究で提示された結果は、微調整された GMP に関する将来の研究のための新しいベースラインを確立し、コミュニティの GMP ツールボックスに重要な追加を提供します。

要約(オリジナル)

Generalist robot manipulation policies (GMPs) have the potential to generalize across a wide range of tasks, devices, and environments. However, existing policies continue to struggle with out-of-distribution scenarios due to the inherent difficulty of collecting sufficient action data to cover extensively diverse domains. While fine-tuning offers a practical way to quickly adapt a GMPs to novel domains and tasks with limited samples, we observe that the performance of the resulting GMPs differs significantly with respect to the design choices of fine-tuning strategies. In this work, we first conduct an in-depth empirical study to investigate the effect of key factors in GMPs fine-tuning strategies, covering the action space, policy head, supervision signal and the choice of tunable parameters, where 2,500 rollouts are evaluated for a single configuration. We systematically discuss and summarize our findings and identify the key design choices, which we believe give a practical guideline for GMPs fine-tuning. We observe that in a low-data regime, with carefully chosen fine-tuning strategies, a GMPs significantly outperforms the state-of-the-art imitation learning algorithms. The results presented in this work establish a new baseline for future studies on fine-tuned GMPs, and provide a significant addition to the GMPs toolbox for the community.

arxiv情報

著者 Wenbo Zhang,Yang Li,Yanyuan Qiao,Siyuan Huang,Jiajun Liu,Feras Dayoub,Xiao Ma,Lingqiao Liu
発行日 2024-10-02 04:00:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | コメントする

Towards Efficient Moion Planning for UAVs: Lazy A* Search with Motion Primitives

要約

検索ベースの動作計画アルゴリズムは、無人航空機 (UAV) に広く利用されています。
ただし、これらのアルゴリズムを実際の UAV に展開するには、搭載された計算リソースが限られているため、課題に直面します。
アルゴリズムは、高次元の探索空間で解を見つけるのに苦労し、軌道が動的に実行可能であることを確認するのにかなりの時間を必要とします。
この論文では、UAV 上で衝突のない動的に実行可能な軌道をリアルタイムで計画するという重要な問題に対処するために、検索ベースの計画アルゴリズムに遅延探索の概念を組み込んでいます。
遅延探索動作計画アルゴリズムが最適な軌道を効率的に見つけ、計算効率を大幅に向上できることを実証します。

要約(オリジナル)

Search-based motion planning algorithms have been widely utilized for unmanned aerial vehicles (UAVs). However, deploying these algorithms on real UAVs faces challenges due to limited onboard computational resources. The algorithms struggle to find solutions in high-dimensional search spaces and require considerable time to ensure that the trajectories are dynamically feasible. This paper incorporates the lazy search concept into search-based planning algorithms to address the critical issue of real-time planning for collision-free and dynamically feasible trajectories on UAVs. We demonstrate that the lazy search motion planning algorithm can efficiently find optimal trajectories and significantly improve computational efficiency.

arxiv情報

著者 Wentao Wang,Yi Shen,Kaiyang Chen,Kaifan Lu
発行日 2024-10-02 04:16:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

High and Low Resolution Tradeoffs in Roadside Multimodal Sensing

要約

インテリジェントな交通アプリケーション向けの路側センシングを設計するには、特に高解像度センサーと低解像度センサーのどちらかを選択する場合、コストとパフォーマンスのバランスをとる必要があります。
センサーの異質性により、トレードオフは困難であり、センサーが異なれば物理的原理が異なるため、独自のデータ モダリティが生成されます。
高解像度の LiDAR は詳細な点群を提供し、4D ミリ波レーダーは、提供するデータがまばらであるにもかかわらず、移動パターンに基づいて物体を区別するのに役立つ速度情報を提供します。
特に車両と交通弱者 (VRU) の両方を認識する際に、空間解像度の低下がセンサーの豊富な情報によって補えるかどうかを評価するために、3D オブジェクト検出用のマルチモーダル データを融合する Residual Fusion Net (ResFusionNet) を提案します。
これにより、さまざまなモダリティにわたる空間解像度と情報の豊富さの間の定量化可能なトレードオフが可能になります。
さらに、環境または人間関連の要因の影響を受けるセンサーの可視性の不確実性を管理するために、確率モデリングを利用したセンサー配置アルゴリズムを導入します。
実世界のテストベッドでのシミュレーション支援による事前評価を通じて、速度エンコードされたレーダーと LiDAR を組み合わせた場合、VRU の検出がわずかに向上することがわかりました。歩行者では平均 16.7%、自転車では 11% でした。
LiDAR のみの構成に。
さらに、300 回の実行による実験結果では、不確実性要因によりセンサー カバレッジの最大損失が 11.5%、平均で 5.25% であることが明らかになりました。
これらの発見は、空間分解能は低いが情報量が豊富なセンサーを使用して、交通弱者に対する検出機能を強化できる可能性を強調するとともに、実際のアプリケーションでセンサーをトレードオフする際には、センサーモダリティの異質性、交通参加者の多様性、運用の不確実性を徹底的に評価する必要性を強調しています。

要約(オリジナル)

Designing roadside sensing for intelligent transportation applications requires balancing cost and performance,especially when choosing between high and low-resolution sensors. The tradeoff is challenging due to sensor heterogeneity,where different sensors produce unique data modalities due to varying physical principles. High-resolution LiDAR offers detailed point cloud, while 4D millimeter-wave radar, despite providing sparser data, delivers velocity information useful for distinguishing objects based on movement patterns. To assess whether reductions in spatial resolution can be compensated by the informational richness of sensors, particularly in recognizing both vehicles and vulnerable road users (VRUs), we propose Residual Fusion Net (ResFusionNet) to fuse multimodal data for 3D object detection. This enables a quantifiable tradeoff between spatial resolution and information richness across different modalities. Furthermore, we introduce a sensor placement algorithm utilizing probabilistic modeling to manage uncertainties in sensor visibility influenced by environmental or human-related factors. Through simulation-assisted ex-ante evaluation on a real-world testbed, our findings show marked marginal gains in detecting VRUs–an average of 16.7% for pedestrians and 11% for cyclists–when merging velocity-encoded radar with LiDAR, compared to LiDAR only configurations. Additionally, experimental results from 300 runs reveal a maximum loss of 11.5% and a average of 5.25% in sensor coverage due to uncertainty factors. These findings underscore the potential of using low spatial resolution but information-rich sensors to enhance detection capabilities for vulnerable road users while highlighting the necessity of thoroughly evaluating sensor modality heterogeneity, traffic participant diversity, and operational uncertainties when making sensor tradeoffs in practical applications.

arxiv情報

著者 Shaozu Ding,Yihong Tang,Marco De Vincenzi,Dajiang Suo
発行日 2024-10-02 05:49:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

CANVAS: Commonsense-Aware Navigation System for Intuitive Human-Robot Interaction

要約

現実のロボットナビゲーションには、単に目的地に到達するだけではありません。
シナリオ固有の目標に取り組みながら、動きを最適化する必要があります。
人間がこれらの目標を表現する直観的な方法は、口頭での命令や大まかなスケッチなどの抽象的な手がかりを使用することです。
このような人間によるガイダンスは、詳細が不足していたり​​、うるさかったりする場合があります。
それにもかかわらず、私たちはロボットが意図したとおりに移動することを期待しています。
ロボットが人間の期待に沿ってこれらの抽象的な命令を解釈して実行するには、基本的なナビゲーション概念について人間と共通の理解を共有する必要があります。
この目的を達成するために、常識を意識したナビゲーションのための視覚的指示と言語的指示を組み合わせた新しいフレームワークである CANVAS を紹介します。
その成功は、ロボットが人間のナビゲーション行動から学習できるようにする模倣学習によって推進されています。
私たちは、人間が注釈を付けたナビゲーション結果を含む包括的なデータセットである COMMAND を紹介します。このデータセットは 48 時間、219 km を超え、模擬環境で常識を認識したナビゲーション システムをトレーニングするように設計されています。
私たちの実験では、CANVAS がすべての環境において強力なルールベースのシステムである ROS NavStack よりも優れたパフォーマンスを示し、ノイズの多い命令でも優れたパフォーマンスを示していることがわかりました。
特に、果樹園環境では、ROS NavStack が合計成功率 0% を記録しているのに対し、CANVAS は合計成功率 67% を達成しています。
CANVAS は、目に見えない環境であっても、人間のデモンストレーションや常識的な制約とも密接に連携します。
さらに、CANVAS の実世界の展開では、総成功率 69% という驚異的な Sim2Real 転送が示されており、実世界のアプリケーションのシミュレートされた環境で人間のデモンストレーションから学習できる可能性が強調されています。

要約(オリジナル)

Real-life robot navigation involves more than just reaching a destination; it requires optimizing movements while addressing scenario-specific goals. An intuitive way for humans to express these goals is through abstract cues like verbal commands or rough sketches. Such human guidance may lack details or be noisy. Nonetheless, we expect robots to navigate as intended. For robots to interpret and execute these abstract instructions in line with human expectations, they must share a common understanding of basic navigation concepts with humans. To this end, we introduce CANVAS, a novel framework that combines visual and linguistic instructions for commonsense-aware navigation. Its success is driven by imitation learning, enabling the robot to learn from human navigation behavior. We present COMMAND, a comprehensive dataset with human-annotated navigation results, spanning over 48 hours and 219 km, designed to train commonsense-aware navigation systems in simulated environments. Our experiments show that CANVAS outperforms the strong rule-based system ROS NavStack across all environments, demonstrating superior performance with noisy instructions. Notably, in the orchard environment, where ROS NavStack records a 0% total success rate, CANVAS achieves a total success rate of 67%. CANVAS also closely aligns with human demonstrations and commonsense constraints, even in unseen environments. Furthermore, real-world deployment of CANVAS showcases impressive Sim2Real transfer with a total success rate of 69%, highlighting the potential of learning from human demonstrations in simulated environments for real-world applications.

arxiv情報

著者 Suhwan Choi,Yongjun Cho,Minchan Kim,Jaeyoon Jung,Myunchul Joe,Yubeen Park,Minseo Kim,Sungwoong Kim,Sungjae Lee,Hwiseong Park,Jiwan Chung,Youngjae Yu
発行日 2024-10-02 06:34:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO | コメントする

Robust Imitation Learning for Mobile Manipulator Focusing on Task-Related Viewpoints and Regions

要約

移動マニピュレータの視覚運動ポリシーを視覚観察の観点から一般化する方法を研究します。
モバイル マニピュレータは、単一の視点のみを使用する場合には自身の本体によるオクルージョンが発生しやすく、さまざまな状況で展開される場合にはドメインが大きく変化する傾向があります。
しかし、著者の知る限り、オクルージョンとドメインシフトを同時に解決し、堅牢なポリシーを提案できた研究はありません。
本稿では、複数の視点を観察する際に、タスク関連の視点とその空間領域に焦点を当てる、モバイルマニピュレータのためのロバストな模倣学習手法を提案します。
複数視点ポリシーには、拡張データセットで学習される注意メカニズムが含まれており、オクルージョンやドメイン シフトに対する最適な視点と堅牢な視覚的埋め込みを実現します。
さまざまなタスクおよび環境に対する結果を以前の研究の結果と比較すると、提案した方法により成功率が最大 29.3 ポイント向上することが明らかになりました。
また、私たちが提案した方法を使用したアブレーション研究も行っています。
複数の視点データセットからタスク関連の視点を学習すると、独自に定義された視点を使用する場合よりもオクルージョンに対する堅牢性が向上します。
タスク関連領域に焦点を当てることで、ドメイン移行に対する成功率が最大 33.3 ポイント向上します。

要約(オリジナル)

We study how to generalize the visuomotor policy of a mobile manipulator from the perspective of visual observations. The mobile manipulator is prone to occlusion owing to its own body when only a single viewpoint is employed and a significant domain shift when deployed in diverse situations. However, to the best of the authors’ knowledge, no study has been able to solve occlusion and domain shift simultaneously and propose a robust policy. In this paper, we propose a robust imitation learning method for mobile manipulators that focuses on task-related viewpoints and their spatial regions when observing multiple viewpoints. The multiple viewpoint policy includes attention mechanism, which is learned with an augmented dataset, and brings optimal viewpoints and robust visual embedding against occlusion and domain shift. Comparison of our results for different tasks and environments with those of previous studies revealed that our proposed method improves the success rate by up to 29.3 points. We also conduct ablation studies using our proposed method. Learning task-related viewpoints from the multiple viewpoints dataset increases robustness to occlusion than using a uniquely defined viewpoint. Focusing on task-related regions contributes to up to a 33.3-point improvement in the success rate against domain shift.

arxiv情報

著者 Yutaro Ishida,Yuki Noguchi,Takayuki Kanai,Kazuhiro Shintani,Hiroshi Bito
発行日 2024-10-02 07:40:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

Finetuning Pre-trained Model with Limited Data for LiDAR-based 3D Object Detection by Bridging Domain Gaps

要約

LiDAR ベースの 3D 物体検出器は、自律走行車や移動ロボットなどのさまざまなアプリケーションで主に利用されています。
ただし、LiDAR ベースの検出器は、さまざまなセンサー構成 (センサーの種類、空間解像度、FOV など) や位置のシフトを伴うターゲット ドメインにうまく適応できないことがよくあります。
このようなギャップを減らすには、新しいセットアップでデータセットを収集して注釈を付けることが一般に必要ですが、多くの場合、費用と時間がかかります。
最近の研究では、ラベルのない大規模な LiDAR フレームを使用して、事前トレーニングされたバックボーンを自己教師ありの方法で学習できることが示唆されています。
ただし、表現力豊かな表現にもかかわらず、ターゲット ドメインからの大量のデータがなければうまく一般化することは依然として困難です。
そこで、限られたターゲット データ (約 100 個の LiDAR フレーム) で事前トレーニングされたモデルを適応させ、その表現力を維持し、過剰適合を防ぐ、ドメイン適応型蒸留チューニング (DADT) と呼ばれる新しい方法を提案します。
具体的には、正則化機能を使用して、教師と生徒のアーキテクチャにおける事前トレーニングされたモデルと微調整されたモデルの間でオブジェクト レベルとコンテキスト レベルの表現を調整します。
Waymo Open データセットや KITTI などのベンチマークを使用した実験により、私たちの方法が事前トレーニングされたモデルを効果的に微調整し、精度が大幅に向上することが確認されました。

要約(オリジナル)

LiDAR-based 3D object detectors have been largely utilized in various applications, including autonomous vehicles or mobile robots. However, LiDAR-based detectors often fail to adapt well to target domains with different sensor configurations (e.g., types of sensors, spatial resolution, or FOVs) and location shifts. Collecting and annotating datasets in a new setup is commonly required to reduce such gaps, but it is often expensive and time-consuming. Recent studies suggest that pre-trained backbones can be learned in a self-supervised manner with large-scale unlabeled LiDAR frames. However, despite their expressive representations, they remain challenging to generalize well without substantial amounts of data from the target domain. Thus, we propose a novel method, called Domain Adaptive Distill-Tuning (DADT), to adapt a pre-trained model with limited target data (approximately 100 LiDAR frames), retaining its representation power and preventing it from overfitting. Specifically, we use regularizers to align object-level and context-level representations between the pre-trained and finetuned models in a teacher-student architecture. Our experiments with driving benchmarks, i.e., Waymo Open dataset and KITTI, confirm that our method effectively finetunes a pre-trained model, achieving significant gains in accuracy.

arxiv情報

著者 Jiyun Jang,Mincheol Chang,Jongwon Park,Jinkyu Kim
発行日 2024-10-02 08:22:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO | コメントする