Functional Eigen-Grasping Using Approach Heatmaps

要約

この作業では、ボタンやトリガーなどの機能部品を含む毎日のツールを自由に利用するためのマルチフィンガーハンドを備えたロボットのフレームワークを提示します。
アプローチヒートマップは、機能的な指を選択することで生成され、機能的な指がツールの機能部品に接触できるようにするオブジェクトの表面に最適な位置を示します。
ヒートマップを介して手のひらの位置が識別されると、機能的な把握を達成することは、指が固有種を使用して低次元入力でオブジェクトを安定に把握する簡単なプロセスになります。
私たちのアプローチでは人間のデモンストレーションは必要ないため、さまざまなサイズやデザインに簡単に適応し、さまざまなオブジェクトに適用可能性を拡張できます。
私たちのアプローチでは、方向性操作性を使用して、アプローチヒートマップを取得します。
さらに、2種類のエネルギー関数、つまり手のひらエネルギーと機能エネルギー関数を追加して、固有種を実現します。
この方法を使用して、各ロボットグリッパーは、機能的な把握に最適なワークスペースを自律的に識別し、非人類のロボットハンドに適用可能性を拡張できます。
スプレー、ドリル、リモートなどのいくつかの毎日のツールが、擬人化された影の手だけでなく、非人道的なバレットハンドによっても効率的に使用できることを示しています。

要約(オリジナル)

This work presents a framework for a robot with a multi-fingered hand to freely utilize daily tools, including functional parts like buttons and triggers. An approach heatmap is generated by selecting a functional finger, indicating optimal palm positions on the object’s surface that enable the functional finger to contact the tool’s functional part. Once the palm position is identified through the heatmap, achieving the functional grasp becomes a straightforward process where the fingers stably grasp the object with low-dimensional inputs using the eigengrasp. As our approach does not need human demonstrations, it can easily adapt to various sizes and designs, extending its applicability to different objects. In our approach, we use directional manipulability to obtain the approach heatmap. In addition, we add two kinds of energy functions, i.e., palm energy and functional energy functions, to realize the eigengrasp. Using this method, each robotic gripper can autonomously identify its optimal workspace for functional grasping, extending its applicability to non-anthropomorphic robotic hands. We show that several daily tools like spray, drill, and remotes can be efficiently used by not only an anthropomorphic Shadow hand but also a non-anthropomorphic Barrett hand.

arxiv情報

著者 Malek Aburub,Kazuki Higashi,Weiwei Wan,Kensuke Harada
発行日 2025-02-19 02:49:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Functional Eigen-Grasping Using Approach Heatmaps はコメントを受け付けていません

CLIP-RT: Learning Language-Conditioned Robotic Policies from Natural Language Supervision

要約

ロボットを教えると、現実世界の環境でスキルが希望することは、特に非専門家にとっては依然として困難です。
ロボット制御およびテレオ操作システムの専門的な専門知識に依存することにより、非専門家へのアクセシビリティが制限されることがよくあります。
自然言語は、ロボット学習のための直感的でアクセス可能なインターフェイスを提供すると仮定します。
この目的のために、(1)非専門家が自然言語の監督を通じてロボットデータを収集できるようにする(例:「腕を右に移動する」」)、(2)この監督から直接ロボットポリシーを直接学習することを可能にする。
具体的には、自然言語の監督に基づいてロボットデモンストレーションを収集し、これらのデモンストレーションをさらに増強するデータ収集フレームワークを紹介します。
次に、この監督から言語条件の視覚運動ポリシーを学習するビジョン言語アクション(VLA)モデルであるClip-RTを提示します。
Clip-RTは、前処理されたクリップモデルを適応し、対照的な模倣学習を介して言語ベースのモーションプリミティブを予測することを学びます。
オープンなX-embodimentデータセットでClip-RTをトレーニングし、さまざまなスキルを学ぶためにフレームワークによって収集されたドメイン内データでFINTUNEを獲得します。
CLIP-RTは、新しい操作スキルを学習し、最先端のモデルであるOpenVLA(7Bパラメーター)を平均成功率で24%上回る強力な能力を示し、7倍のパラメーター(1B)を使用します。
さらに、Clip-RTが少数のショット一般化の大幅な改善を示していることを観察します。
最後に、人間や大規模な事前に守られたモデルとのコラボレーションを通じて、CLIP-RTが挑戦的なタスクに関する一般化をさらに改善できることを実証します。

要約(オリジナル)

Teaching robots desired skills in real-world environments remains challenging, especially for non-experts. The reliance on specialized expertise in robot control and teleoperation systems often limits accessibility to non-experts. We posit that natural language offers an intuitive and accessible interface for robot learning. To this end, we study two aspects: (1) enabling non-experts to collect robotic data through natural language supervision (e.g., ‘move the arm to the right’) and (2) learning robotic policies directly from this supervision. Specifically, we introduce a data collection framework that collects robot demonstrations based on natural language supervision and further augments these demonstrations. We then present CLIP-RT, a vision-language-action (VLA) model that learns language-conditioned visuomotor policies from this supervision. CLIP-RT adapts the pretrained CLIP models and learns to predict language-based motion primitives via contrastive imitation learning. We train CLIP-RT on the Open X-Embodiment dataset and finetune it on in-domain data collected by our framework to learn diverse skills. CLIP-RT demonstrates strong capabilities in learning novel manipulation skills, outperforming the state-of-the-art model, OpenVLA (7B parameters), by 24% in average success rates, while using 7x fewer parameters (1B). We further observe that CLIP-RT shows significant improvements in few-shot generalization. Finally, through collaboration with humans or large pretrained models, we demonstrate that CLIP-RT can further improve its generalization on challenging tasks.

arxiv情報

著者 Gi-Cheon Kang,Junghyun Kim,Kyuhwan Shim,Jun Ki Lee,Byoung-Tak Zhang
発行日 2025-02-19 03:07:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | CLIP-RT: Learning Language-Conditioned Robotic Policies from Natural Language Supervision はコメントを受け付けていません

Object-Pose Estimation With Neural Population Codes

要約

ロボットアセンブリタスクには、特に費用のかかる機械的制約を回避するタスクの場合、オブジェクトポーズの推定が必要です。
オブジェクトの対称性は、回転が曖昧になり、独自のトレーニングターゲットが欠けているため、オブジェクトの回転への感覚入力の直接マッピングを複雑にします。
提案されたソリューションには、入力に対する複数のポーズ仮説を評価するか、確率分布を予測することが含まれますが、これらのアプローチは重要な計算オーバーヘッドに悩まされています。
ここでは、神経集団コードでオブジェクトの回転を表すことがこれらの制限を克服し、回転とエンドツーエンドの学習への直接マッピングを可能にすることを示します。
その結果、人口コードは迅速かつ正確なポーズ推定を促進します。
T-Lessデータセットでは、Apple M1 CPUの3.2ミリ秒で推論を達成し、グレースケールの画像入力のみを使用して、直接マッピングにポーズをとると69.7%の精度と比較して、84.7%の最大対称性表面距離精度を84.7%に達成します。

要約(オリジナル)

Robotic assembly tasks require object-pose estimation, particularly for tasks that avoid costly mechanical constraints. Object symmetry complicates the direct mapping of sensory input to object rotation, as the rotation becomes ambiguous and lacks a unique training target. Some proposed solutions involve evaluating multiple pose hypotheses against the input or predicting a probability distribution, but these approaches suffer from significant computational overhead. Here, we show that representing object rotation with a neural population code overcomes these limitations, enabling a direct mapping to rotation and end-to-end learning. As a result, population codes facilitate fast and accurate pose estimation. On the T-LESS dataset, we achieve inference in 3.2 milliseconds on an Apple M1 CPU and a Maximum Symmetry-Aware Surface Distance accuracy of 84.7% using only gray-scale image input, compared to 69.7% accuracy when directly mapping to pose.

arxiv情報

著者 Heiko Hoffmann,Richard Hoffmann
発行日 2025-02-19 03:23:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | Object-Pose Estimation With Neural Population Codes はコメントを受け付けていません

Generative Predictive Control: Flow Matching Policies for Dynamic and Difficult-to-Demonstrate Tasks

要約

生成制御ポリシーは最近、ロボット工学の大きな進歩を解き放ちました。
これらの方法は、デモンストレーションによって提供されるトレーニングデータを使用して、拡散またはフローマッチングを介してアクションシーケンスを生成します。
しかし、困難な操作の問題でかなりの成功を収めているにもかかわらず、生成政策には2つの重要な制限があります。
第一に、動作のクローニングには専門家のデモが必要であり、これは時間がかかり、取得するのに費用がかかる場合があります。
第二に、既存の方法は、比較的遅い準静的タスクに限定されています。
この論文では、サンプリングベースの予測制御と生成モデリングとの間の緊密な接続を活用して、これらの各問題に対処します。
特に、シミュレートが簡単だが実証が困難な高速ダイナミクスを備えたタスクの監視された学習フレームワークである生成予測制御を紹介します。
次に、訓練されたフローマッチングポリシーを実行時に温かく起動する方法を示し、時間的一貫性を維持し、高速フィードバックレートを可能にします。
生成予測制御は、既存の行動クローンメソッドに対する補完的なアプローチを提供し、準静的なデモンストレーション指向のタスクを超えて拡大する一般主義政策への道を開くことを望んでいると考えています。

要約(オリジナル)

Generative control policies have recently unlocked major progress in robotics. These methods produce action sequences via diffusion or flow matching, with training data provided by demonstrations. But despite enjoying considerable success on difficult manipulation problems, generative policies come with two key limitations. First, behavior cloning requires expert demonstrations, which can be time-consuming and expensive to obtain. Second, existing methods are limited to relatively slow, quasi-static tasks. In this paper, we leverage a tight connection between sampling-based predictive control and generative modeling to address each of these issues. In particular, we introduce generative predictive control, a supervised learning framework for tasks with fast dynamics that are easy to simulate but difficult to demonstrate. We then show how trained flow-matching policies can be warm-started at run-time, maintaining temporal consistency and enabling fast feedback rates. We believe that generative predictive control offers a complementary approach to existing behavior cloning methods, and hope that it paves the way toward generalist policies that extend beyond quasi-static demonstration-oriented tasks.

arxiv情報

著者 Vince Kurtz,Joel W. Burdick
発行日 2025-02-19 03:33:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO, cs.SY, eess.SY | Generative Predictive Control: Flow Matching Policies for Dynamic and Difficult-to-Demonstrate Tasks はコメントを受け付けていません

Physics-Aware Robotic Palletization with Online Masking Inference

要約

特にアイテムの到着のシーケンスが予測不可能なオンライン設定では、積み重ねボックスの効率的な計画は、現代の倉庫と物流管理における重要な課題のままです。
既存のソリューションは、多くの場合、ボックスサイズのバリエーションに対処しますが、実際のアプリケーションにとって重要な密度や剛性など、本質的および物理的特性を見落としています。
アクションスペースマスキングを使用して有効なアクションにRLポリシーを指示することにより、RENFERTION LEANIS(RL)を使用してこの問題を解決します。
物理的なシナリオで評価が困難なヒューリスティックな安定性評価に依存する以前の方法とは異なり、私たちのフレームワークはオンライン学習を利用してアクションスペースマスクを動的にトレーニングし、手動ヒューリスティックデザインの必要性を排除します。
広範な実験は、提案された方法が既存の最先端を上回ることを示しています。
さらに、学んだタスクプランナーを実際のロボットパレタイザーに展開し、運用設定での実際的な適用性を検証します。

要約(オリジナル)

The efficient planning of stacking boxes, especially in the online setting where the sequence of item arrivals is unpredictable, remains a critical challenge in modern warehouse and logistics management. Existing solutions often address box size variations, but overlook their intrinsic and physical properties, such as density and rigidity, which are crucial for real-world applications. We use reinforcement learning (RL) to solve this problem by employing action space masking to direct the RL policy toward valid actions. Unlike previous methods that rely on heuristic stability assessments which are difficult to assess in physical scenarios, our framework utilizes online learning to dynamically train the action space mask, eliminating the need for manual heuristic design. Extensive experiments demonstrate that our proposed method outperforms existing state-of-the-arts. Furthermore, we deploy our learned task planner in a real-world robotic palletizer, validating its practical applicability in operational settings.

arxiv情報

著者 Tianqi Zhang,Zheng Wu,Yuxin Chen,Yixiao Wang,Boyuan Liang,Scott Moura,Masayoshi Tomizuka,Mingyu Ding,Wei Zhan
発行日 2025-02-19 05:39:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Physics-Aware Robotic Palletization with Online Masking Inference はコメントを受け付けていません

MapNav: A Novel Memory Representation via Annotated Semantic Maps for VLM-based Vision-and-Language Navigation

要約

Vision-and-Language Navigation(VLN)は、具体化されたAIの重要なタスクであり、自然言語の指示に従っている間、エージェントが多様で目に見えない環境をナビゲートする必要があります。
従来のアプローチは、意思決定のための時空間コンテキストとして歴史的観察に大きく依存しており、重要なストレージと計算オーバーヘッドにつながります。
この論文では、注釈付きセマンティックマップ(ASM)を活用して履歴フレームを置き換える新しいエンドツーエンドVLNモデルであるMapNavを紹介します。
具体的には、私たちのアプローチは、各エピソードの開始時にトップダウンのセマンティックマップを構築し、各タイムステップで更新し、正確なオブジェクトマッピングと構造化されたナビゲーション情報を可能にします。
次に、主要な領域の明示的なテキストラベルでこのマップを強化し、抽象セマンティクスを明確なナビゲーションキューに変換し、ASMを生成します。
MAPNAVエージェントは、構築されたASMを入力として使用し、VLMの強力なエンドツーエンド機能を使用してVLNをエンパワーします。
広範な実験は、MapNavがシミュレートされた環境と実世界の両方の環境の両方で最先端の(SOTA)パフォーマンスを達成し、私たちの方法の有効性を検証することを示しています。
さらに、ASM生成ソースコードとデータセットをリリースして、再現性を確保し、貴重なリソースをフィールドに提供します。
提案されたMapNavは、VLNの新しいメモリ表現方法として使用できると考えており、この分野での将来の研究への道を開いています。

要約(オリジナル)

Vision-and-language navigation (VLN) is a key task in Embodied AI, requiring agents to navigate diverse and unseen environments while following natural language instructions. Traditional approaches rely heavily on historical observations as spatio-temporal contexts for decision making, leading to significant storage and computational overhead. In this paper, we introduce MapNav, a novel end-to-end VLN model that leverages Annotated Semantic Map (ASM) to replace historical frames. Specifically, our approach constructs a top-down semantic map at the start of each episode and update it at each timestep, allowing for precise object mapping and structured navigation information. Then, we enhance this map with explicit textual labels for key regions, transforming abstract semantics into clear navigation cues and generate our ASM. MapNav agent using the constructed ASM as input, and use the powerful end-to-end capabilities of VLM to empower VLN. Extensive experiments demonstrate that MapNav achieves state-of-the-art (SOTA) performance in both simulated and real-world environments, validating the effectiveness of our method. Moreover, we will release our ASM generation source code and dataset to ensure reproducibility, contributing valuable resources to the field. We believe that our proposed MapNav can be used as a new memory representation method in VLN, paving the way for future research in this field.

arxiv情報

著者 Lingfeng Zhang,Xiaoshuai Hao,Qinwen Xu,Qiang Zhang,Xinyao Zhang,Pengwei Wang,Jing Zhang,Zhongyuan Wang,Shanghang Zhang,Renjing Xu
発行日 2025-02-19 05:52:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | MapNav: A Novel Memory Representation via Annotated Semantic Maps for VLM-based Vision-and-Language Navigation はコメントを受け付けていません

Ephemerality meets LiDAR-based Lifelong Mapping

要約

生涯マッピングは、動的環境でのロボットの長期的な展開に不可欠です。
このペーパーでは、複数のセッションデータをシームレスに整列させ、動的オブジェクトを削除し、エンドツーエンドのファッションでマップを更新できるエフェミラリティベースのLidarベースのLifelongマッピングフレームワークであるEliteを紹介します。
マップ要素は通常、静的または動的に分類されますが、駐車中の車のようなケースは、バイナリよりも詳細なカテゴリの必要性を示しています。
私たちのアプローチの中心は、世界の2段階の$ \ textit {ephemerality} $への確率的モデリングです。これは、2つの異なる時間スケール内のマップ内のポイントの一時性を表しています。
短命でエンコードされた時空のコンテキストを活用することにより、エリートは一時的なマップ要素を正確に推測し、信頼できる最新の静的マップを維持し、より微調整された方法で新しいデータを調整する際の堅牢性を向上させることができます。
長期データセットでの広範な実世界の実験は、システムの堅牢性と有効性を示しています。
ソースコードは、ロボットコミュニティhttps://github.com/dongjae0107/eliteで公開されています。

要約(オリジナル)

Lifelong mapping is crucial for the long-term deployment of robots in dynamic environments. In this paper, we present ELite, an ephemerality-aided LiDAR-based lifelong mapping framework which can seamlessly align multiple session data, remove dynamic objects, and update maps in an end-to-end fashion. Map elements are typically classified as static or dynamic, but cases like parked cars indicate the need for more detailed categories than binary. Central to our approach is the probabilistic modeling of the world into two-stage $\textit{ephemerality}$, which represent the transiency of points in the map within two different time scales. By leveraging the spatiotemporal context encoded in ephemeralities, ELite can accurately infer transient map elements, maintain a reliable up-to-date static map, and improve robustness in aligning the new data in a more fine-grained manner. Extensive real-world experiments on long-term datasets demonstrate the robustness and effectiveness of our system. The source code is publicly available for the robotics community: https://github.com/dongjae0107/ELite.

arxiv情報

著者 Hyeonjae Gil,Dongjae Lee,Giseop Kim,Ayoung Kim
発行日 2025-02-19 05:58:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Ephemerality meets LiDAR-based Lifelong Mapping はコメントを受け付けていません

BFA: Best-Feature-Aware Fusion for Multi-View Fine-grained Manipulation

要約

実際のシナリオでは、通常、マルチビューカメラが微調整された操作タスクに採用されています。
既存のアプローチ(ACTなど)は、マルチビュー機能を等しく扱い、ポリシー学習のためにそれらを直接連結する傾向があります。
ただし、冗長な視覚情報を導入し、より高い計算コストをもたらし、効果のない操作につながります。
きめ細かい操作タスクの場合、複数の段階を巻き込む傾向がありますが、さまざまな段階の最も寄与されているビューは時間とともに変化します。
このホワイトペーパーでは、さまざまなポリシーに適応できるマルチビュー操作タスクのプラグアンドプレイベストフィーチャーアウェア(BFA)融合戦略を提案します。
ポリシーネットワークの視覚的なバックボーンに基づいて構築され、各ビューの重要性スコアを予測するための軽量ネットワークを設計します。
予測された重要性スコアに基づいて、再航行されたマルチビュー機能はその後融合され、エンドツーエンドポリシーネットワークに入力され、シームレスな統合が可能になります。
特に、私たちの方法は、きめ細かい操作における優れたパフォーマンスを示しています。
実験結果は、私たちのアプローチが異なるタスクで22〜46%の成功率よりも複数のベースラインを上回ることを示しています。
私たちの作品は、細かい操作における重要な課題に取り組むための新しい洞察とインスピレーションを提供します。

要約(オリジナル)

In real-world scenarios, multi-view cameras are typically employed for fine-grained manipulation tasks. Existing approaches (e.g., ACT) tend to treat multi-view features equally and directly concatenate them for policy learning. However, it will introduce redundant visual information and bring higher computational costs, leading to ineffective manipulation. For a fine-grained manipulation task, it tends to involve multiple stages while the most contributed view for different stages is varied over time. In this paper, we propose a plug-and-play best-feature-aware (BFA) fusion strategy for multi-view manipulation tasks, which is adaptable to various policies. Built upon the visual backbone of the policy network, we design a lightweight network to predict the importance score of each view. Based on the predicted importance scores, the reweighted multi-view features are subsequently fused and input into the end-to-end policy network, enabling seamless integration. Notably, our method demonstrates outstanding performance in fine-grained manipulations. Experimental results show that our approach outperforms multiple baselines by 22-46% success rate on different tasks. Our work provides new insights and inspiration for tackling key challenges in fine-grained manipulations.

arxiv情報

著者 Zihan Lan,Weixin Mao,Haosheng Li,Le Wang,Tiancai Wang,Haoqiang Fan,Osamu Yoshie
発行日 2025-02-19 07:10:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | BFA: Best-Feature-Aware Fusion for Multi-View Fine-grained Manipulation はコメントを受け付けていません

Reinforcement Learning of Multi-robot Task Allocation for Multi-object Transportation with Infeasible Tasks

要約

マルチロボットシステムを使用したマルチオブジェクト輸送には、効率的な個別およびスケーラブルな協同輸送のため、配信サービスなどの多様な実用的なアプリケーションの可能性があります。
ただし、ウェイトが不明なオブジェクトの輸送タスクを割り当てることは依然として困難です。
さらに、実行不可能なタスク(輸送不可能なオブジェクト)の存在は、ロボット停止(デッドロック)につながる可能性があります。
このペーパーでは、ロボットの数に関してスケーラブルな方法で各タスクのタスクエクスペリエンスを保存することを伴う動的タスク割り当てのフレームワークを提案します。
まず、これらのエクスペリエンスは、クラウドサーバーからロボットシステム全体にブロードキャストされます。
その後、各ロボットは、これらのタスクエクスペリエンスに基づいて各タスクの除外レベルを学習し、実行不可能なタスクを除外し、タスクの優先順位をリセットできるようにします。
最後に、個々の輸送、協同組合輸送、および実行不可能と見なされるタスクの一時的な除外が達成されます。
提案された方法のスケーラビリティと汎用性は、未学習の重量オブジェクトを含むロボットとオブジェクトの数が増加した数値実験によって確認されました。
一時的なデッドロック回避の有効性も、エピソード内に追加のロボットを導入することで確認されました。
提案された方法により、実行可能性を事前に考慮せずに、さまざまな数のロボットやさまざまな輸送タスクで実行可能なタスク割り当て戦略の実装が可能になります。

要約(オリジナル)

Multi-object transport using multi-robot systems has the potential for diverse practical applications such as delivery services owing to its efficient individual and scalable cooperative transport. However, allocating transportation tasks of objects with unknown weights remains challenging. Moreover, the presence of infeasible tasks (untransportable objects) can lead to robot stoppage (deadlock). This paper proposes a framework for dynamic task allocation that involves storing task experiences for each task in a scalable manner with respect to the number of robots. First, these experiences are broadcasted from the cloud server to the entire robot system. Subsequently, each robot learns the exclusion levels for each task based on those task experiences, enabling it to exclude infeasible tasks and reset its task priorities. Finally, individual transportation, cooperative transportation, and the temporary exclusion of tasks considered infeasible are achieved. The scalability and versatility of the proposed method were confirmed through numerical experiments with an increased number of robots and objects, including unlearned weight objects. The effectiveness of the temporary deadlock avoidance was also confirmed by introducing additional robots within an episode. The proposed method enables the implementation of task allocation strategies that are feasible for different numbers of robots and various transport tasks without prior consideration of feasibility.

arxiv情報

著者 Yuma Shida,Tomohiko Jimbo,Tadashi Odashima,Takamitsu Matsubara
発行日 2025-02-19 07:18:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Reinforcement Learning of Multi-robot Task Allocation for Multi-object Transportation with Infeasible Tasks はコメントを受け付けていません

Improving Collision-Free Success Rate For Object Goal Visual Navigation Via Two-Stage Training With Collision Prediction

要約

オブジェクト目標の視覚ナビゲーションは、エゴセントリックな視覚観測を使用して特定のターゲットオブジェクトにナビゲートするタスクです。
深い強化学習に基づく最近のエンドツーエンドのナビゲーションモデルは、ターゲットオブジェクトを見つけて到達する際に顕著なパフォーマンスを達成しています。
ただし、ナビゲーション中のこれらのモデルの衝突問題は、成功を評価するときに衝突が通常無視されるため、解決されていないままです。
トレーニング中の衝突に対する否定的な報酬を組み込むことは簡単に見えますが、より保守的なポリシーをもたらし、それによりエージェントのターゲットに到達する能力が制限されます。
さらに、これらのモデルの多くはRGB観測のみを利用しており、深さ情報なしで衝突回避の難しさをさらに高めます。
これらの制限に対処するために、新しい概念 – 衝突のない成功が導入され、ナビゲーションモデルがターゲットオブジェクトに向かって衝突のないパスを見つける能力を評価します。
RGB観測を使用して、既存のナビゲーションモデルの衝突のない成功率を改善するために、衝突予測を備えた2段階のトレーニング方法が提案されています。
最初のトレーニング段階では、衝突予測モジュールが探査中にエージェントの衝突状態を監督し、衝突の可能性を予測することを学びます。
第2段階では、訓練された衝突予測を活用して、エージェントは衝突せずにターゲットに移動することを学びます。
AI2-THOR環境での実験結果は、提案された方法が異なるナビゲーションモデルの衝突のない成功率を大幅に改善し、他の同等の衝突回避方法を上回ることを示しています。

要約(オリジナル)

The object goal visual navigation is the task of navigating to a specific target object using egocentric visual observations. Recent end-to-end navigation models based on deep reinforcement learning have achieved remarkable performance in finding and reaching target objects. However, the collision problem of these models during navigation remains unresolved, since the collision is typically neglected when evaluating the success. Although incorporating a negative reward for collision during training appears straightforward, it results in a more conservative policy, thereby limiting the agent’s ability to reach targets. In addition, many of these models utilize only RGB observations, further increasing the difficulty of collision avoidance without depth information. To address these limitations, a new concept — collision-free success is introduced to evaluate the ability of navigation models to find a collision-free path towards the target object. A two-stage training method with collision prediction is proposed to improve the collision-free success rate of the existing navigation models using RGB observations. In the first training stage, the collision prediction module supervises the agent’s collision states during exploration to learn to predict the possible collision. In the second stage, leveraging the trained collision prediction, the agent learns to navigate to the target without collision. The experimental results in the AI2-THOR environment demonstrate that the proposed method greatly improves the collision-free success rate of different navigation models and outperforms other comparable collision-avoidance methods.

arxiv情報

著者 Shiwei Lian,Feitian Zhang
発行日 2025-02-19 07:33:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Improving Collision-Free Success Rate For Object Goal Visual Navigation Via Two-Stage Training With Collision Prediction はコメントを受け付けていません