MapNav: A Novel Memory Representation via Annotated Semantic Maps for VLM-based Vision-and-Language Navigation

要約

Vision-and-Language Navigation(VLN)は、具体化されたAIの重要なタスクであり、自然言語の指示に従っている間、エージェントが多様で目に見えない環境をナビゲートする必要があります。
従来のアプローチは、意思決定のための時空間コンテキストとして歴史的観察に大きく依存しており、重要なストレージと計算オーバーヘッドにつながります。
この論文では、注釈付きセマンティックマップ(ASM)を活用して履歴フレームを置き換える新しいエンドツーエンドVLNモデルであるMapNavを紹介します。
具体的には、私たちのアプローチは、各エピソードの開始時にトップダウンのセマンティックマップを構築し、各タイムステップで更新し、正確なオブジェクトマッピングと構造化されたナビゲーション情報を可能にします。
次に、主要な領域の明示的なテキストラベルでこのマップを強化し、抽象セマンティクスを明確なナビゲーションキューに変換し、ASMを生成します。
MAPNAVエージェントは、構築されたASMを入力として使用し、VLMの強力なエンドツーエンド機能を使用してVLNをエンパワーします。
広範な実験は、MapNavがシミュレートされた環境と実世界の両方の環境の両方で最先端の(SOTA)パフォーマンスを達成し、私たちの方法の有効性を検証することを示しています。
さらに、ASM生成ソースコードとデータセットをリリースして、再現性を確保し、貴重なリソースをフィールドに提供します。
提案されたMapNavは、VLNの新しいメモリ表現方法として使用できると考えており、この分野での将来の研究への道を開いています。

要約(オリジナル)

Vision-and-language navigation (VLN) is a key task in Embodied AI, requiring agents to navigate diverse and unseen environments while following natural language instructions. Traditional approaches rely heavily on historical observations as spatio-temporal contexts for decision making, leading to significant storage and computational overhead. In this paper, we introduce MapNav, a novel end-to-end VLN model that leverages Annotated Semantic Map (ASM) to replace historical frames. Specifically, our approach constructs a top-down semantic map at the start of each episode and update it at each timestep, allowing for precise object mapping and structured navigation information. Then, we enhance this map with explicit textual labels for key regions, transforming abstract semantics into clear navigation cues and generate our ASM. MapNav agent using the constructed ASM as input, and use the powerful end-to-end capabilities of VLM to empower VLN. Extensive experiments demonstrate that MapNav achieves state-of-the-art (SOTA) performance in both simulated and real-world environments, validating the effectiveness of our method. Moreover, we will release our ASM generation source code and dataset to ensure reproducibility, contributing valuable resources to the field. We believe that our proposed MapNav can be used as a new memory representation method in VLN, paving the way for future research in this field.

arxiv情報

著者 Lingfeng Zhang,Xiaoshuai Hao,Qinwen Xu,Qiang Zhang,Xinyao Zhang,Pengwei Wang,Jing Zhang,Zhongyuan Wang,Shanghang Zhang,Renjing Xu
発行日 2025-02-19 05:52:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | MapNav: A Novel Memory Representation via Annotated Semantic Maps for VLM-based Vision-and-Language Navigation はコメントを受け付けていません

Ephemerality meets LiDAR-based Lifelong Mapping

要約

生涯マッピングは、動的環境でのロボットの長期的な展開に不可欠です。
このペーパーでは、複数のセッションデータをシームレスに整列させ、動的オブジェクトを削除し、エンドツーエンドのファッションでマップを更新できるエフェミラリティベースのLidarベースのLifelongマッピングフレームワークであるEliteを紹介します。
マップ要素は通常、静的または動的に分類されますが、駐車中の車のようなケースは、バイナリよりも詳細なカテゴリの必要性を示しています。
私たちのアプローチの中心は、世界の2段階の$ \ textit {ephemerality} $への確率的モデリングです。これは、2つの異なる時間スケール内のマップ内のポイントの一時性を表しています。
短命でエンコードされた時空のコンテキストを活用することにより、エリートは一時的なマップ要素を正確に推測し、信頼できる最新の静的マップを維持し、より微調整された方法で新しいデータを調整する際の堅牢性を向上させることができます。
長期データセットでの広範な実世界の実験は、システムの堅牢性と有効性を示しています。
ソースコードは、ロボットコミュニティhttps://github.com/dongjae0107/eliteで公開されています。

要約(オリジナル)

Lifelong mapping is crucial for the long-term deployment of robots in dynamic environments. In this paper, we present ELite, an ephemerality-aided LiDAR-based lifelong mapping framework which can seamlessly align multiple session data, remove dynamic objects, and update maps in an end-to-end fashion. Map elements are typically classified as static or dynamic, but cases like parked cars indicate the need for more detailed categories than binary. Central to our approach is the probabilistic modeling of the world into two-stage $\textit{ephemerality}$, which represent the transiency of points in the map within two different time scales. By leveraging the spatiotemporal context encoded in ephemeralities, ELite can accurately infer transient map elements, maintain a reliable up-to-date static map, and improve robustness in aligning the new data in a more fine-grained manner. Extensive real-world experiments on long-term datasets demonstrate the robustness and effectiveness of our system. The source code is publicly available for the robotics community: https://github.com/dongjae0107/ELite.

arxiv情報

著者 Hyeonjae Gil,Dongjae Lee,Giseop Kim,Ayoung Kim
発行日 2025-02-19 05:58:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Ephemerality meets LiDAR-based Lifelong Mapping はコメントを受け付けていません

BFA: Best-Feature-Aware Fusion for Multi-View Fine-grained Manipulation

要約

実際のシナリオでは、通常、マルチビューカメラが微調整された操作タスクに採用されています。
既存のアプローチ(ACTなど)は、マルチビュー機能を等しく扱い、ポリシー学習のためにそれらを直接連結する傾向があります。
ただし、冗長な視覚情報を導入し、より高い計算コストをもたらし、効果のない操作につながります。
きめ細かい操作タスクの場合、複数の段階を巻き込む傾向がありますが、さまざまな段階の最も寄与されているビューは時間とともに変化します。
このホワイトペーパーでは、さまざまなポリシーに適応できるマルチビュー操作タスクのプラグアンドプレイベストフィーチャーアウェア(BFA)融合戦略を提案します。
ポリシーネットワークの視覚的なバックボーンに基づいて構築され、各ビューの重要性スコアを予測するための軽量ネットワークを設計します。
予測された重要性スコアに基づいて、再航行されたマルチビュー機能はその後融合され、エンドツーエンドポリシーネットワークに入力され、シームレスな統合が可能になります。
特に、私たちの方法は、きめ細かい操作における優れたパフォーマンスを示しています。
実験結果は、私たちのアプローチが異なるタスクで22〜46%の成功率よりも複数のベースラインを上回ることを示しています。
私たちの作品は、細かい操作における重要な課題に取り組むための新しい洞察とインスピレーションを提供します。

要約(オリジナル)

In real-world scenarios, multi-view cameras are typically employed for fine-grained manipulation tasks. Existing approaches (e.g., ACT) tend to treat multi-view features equally and directly concatenate them for policy learning. However, it will introduce redundant visual information and bring higher computational costs, leading to ineffective manipulation. For a fine-grained manipulation task, it tends to involve multiple stages while the most contributed view for different stages is varied over time. In this paper, we propose a plug-and-play best-feature-aware (BFA) fusion strategy for multi-view manipulation tasks, which is adaptable to various policies. Built upon the visual backbone of the policy network, we design a lightweight network to predict the importance score of each view. Based on the predicted importance scores, the reweighted multi-view features are subsequently fused and input into the end-to-end policy network, enabling seamless integration. Notably, our method demonstrates outstanding performance in fine-grained manipulations. Experimental results show that our approach outperforms multiple baselines by 22-46% success rate on different tasks. Our work provides new insights and inspiration for tackling key challenges in fine-grained manipulations.

arxiv情報

著者 Zihan Lan,Weixin Mao,Haosheng Li,Le Wang,Tiancai Wang,Haoqiang Fan,Osamu Yoshie
発行日 2025-02-19 07:10:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | BFA: Best-Feature-Aware Fusion for Multi-View Fine-grained Manipulation はコメントを受け付けていません

Reinforcement Learning of Multi-robot Task Allocation for Multi-object Transportation with Infeasible Tasks

要約

マルチロボットシステムを使用したマルチオブジェクト輸送には、効率的な個別およびスケーラブルな協同輸送のため、配信サービスなどの多様な実用的なアプリケーションの可能性があります。
ただし、ウェイトが不明なオブジェクトの輸送タスクを割り当てることは依然として困難です。
さらに、実行不可能なタスク(輸送不可能なオブジェクト)の存在は、ロボット停止(デッドロック)につながる可能性があります。
このペーパーでは、ロボットの数に関してスケーラブルな方法で各タスクのタスクエクスペリエンスを保存することを伴う動的タスク割り当てのフレームワークを提案します。
まず、これらのエクスペリエンスは、クラウドサーバーからロボットシステム全体にブロードキャストされます。
その後、各ロボットは、これらのタスクエクスペリエンスに基づいて各タスクの除外レベルを学習し、実行不可能なタスクを除外し、タスクの優先順位をリセットできるようにします。
最後に、個々の輸送、協同組合輸送、および実行不可能と見なされるタスクの一時的な除外が達成されます。
提案された方法のスケーラビリティと汎用性は、未学習の重量オブジェクトを含むロボットとオブジェクトの数が増加した数値実験によって確認されました。
一時的なデッドロック回避の有効性も、エピソード内に追加のロボットを導入することで確認されました。
提案された方法により、実行可能性を事前に考慮せずに、さまざまな数のロボットやさまざまな輸送タスクで実行可能なタスク割り当て戦略の実装が可能になります。

要約(オリジナル)

Multi-object transport using multi-robot systems has the potential for diverse practical applications such as delivery services owing to its efficient individual and scalable cooperative transport. However, allocating transportation tasks of objects with unknown weights remains challenging. Moreover, the presence of infeasible tasks (untransportable objects) can lead to robot stoppage (deadlock). This paper proposes a framework for dynamic task allocation that involves storing task experiences for each task in a scalable manner with respect to the number of robots. First, these experiences are broadcasted from the cloud server to the entire robot system. Subsequently, each robot learns the exclusion levels for each task based on those task experiences, enabling it to exclude infeasible tasks and reset its task priorities. Finally, individual transportation, cooperative transportation, and the temporary exclusion of tasks considered infeasible are achieved. The scalability and versatility of the proposed method were confirmed through numerical experiments with an increased number of robots and objects, including unlearned weight objects. The effectiveness of the temporary deadlock avoidance was also confirmed by introducing additional robots within an episode. The proposed method enables the implementation of task allocation strategies that are feasible for different numbers of robots and various transport tasks without prior consideration of feasibility.

arxiv情報

著者 Yuma Shida,Tomohiko Jimbo,Tadashi Odashima,Takamitsu Matsubara
発行日 2025-02-19 07:18:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Reinforcement Learning of Multi-robot Task Allocation for Multi-object Transportation with Infeasible Tasks はコメントを受け付けていません

Improving Collision-Free Success Rate For Object Goal Visual Navigation Via Two-Stage Training With Collision Prediction

要約

オブジェクト目標の視覚ナビゲーションは、エゴセントリックな視覚観測を使用して特定のターゲットオブジェクトにナビゲートするタスクです。
深い強化学習に基づく最近のエンドツーエンドのナビゲーションモデルは、ターゲットオブジェクトを見つけて到達する際に顕著なパフォーマンスを達成しています。
ただし、ナビゲーション中のこれらのモデルの衝突問題は、成功を評価するときに衝突が通常無視されるため、解決されていないままです。
トレーニング中の衝突に対する否定的な報酬を組み込むことは簡単に見えますが、より保守的なポリシーをもたらし、それによりエージェントのターゲットに到達する能力が制限されます。
さらに、これらのモデルの多くはRGB観測のみを利用しており、深さ情報なしで衝突回避の難しさをさらに高めます。
これらの制限に対処するために、新しい概念 – 衝突のない成功が導入され、ナビゲーションモデルがターゲットオブジェクトに向かって衝突のないパスを見つける能力を評価します。
RGB観測を使用して、既存のナビゲーションモデルの衝突のない成功率を改善するために、衝突予測を備えた2段階のトレーニング方法が提案されています。
最初のトレーニング段階では、衝突予測モジュールが探査中にエージェントの衝突状態を監督し、衝突の可能性を予測することを学びます。
第2段階では、訓練された衝突予測を活用して、エージェントは衝突せずにターゲットに移動することを学びます。
AI2-THOR環境での実験結果は、提案された方法が異なるナビゲーションモデルの衝突のない成功率を大幅に改善し、他の同等の衝突回避方法を上回ることを示しています。

要約(オリジナル)

The object goal visual navigation is the task of navigating to a specific target object using egocentric visual observations. Recent end-to-end navigation models based on deep reinforcement learning have achieved remarkable performance in finding and reaching target objects. However, the collision problem of these models during navigation remains unresolved, since the collision is typically neglected when evaluating the success. Although incorporating a negative reward for collision during training appears straightforward, it results in a more conservative policy, thereby limiting the agent’s ability to reach targets. In addition, many of these models utilize only RGB observations, further increasing the difficulty of collision avoidance without depth information. To address these limitations, a new concept — collision-free success is introduced to evaluate the ability of navigation models to find a collision-free path towards the target object. A two-stage training method with collision prediction is proposed to improve the collision-free success rate of the existing navigation models using RGB observations. In the first training stage, the collision prediction module supervises the agent’s collision states during exploration to learn to predict the possible collision. In the second stage, leveraging the trained collision prediction, the agent learns to navigate to the target without collision. The experimental results in the AI2-THOR environment demonstrate that the proposed method greatly improves the collision-free success rate of different navigation models and outperforms other comparable collision-avoidance methods.

arxiv情報

著者 Shiwei Lian,Feitian Zhang
発行日 2025-02-19 07:33:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Improving Collision-Free Success Rate For Object Goal Visual Navigation Via Two-Stage Training With Collision Prediction はコメントを受け付けていません

VLAS: Vision-Language-Action Model With Speech Instructions For Customized Robot Manipulation

要約

ビジョン言語アクションモデル(VLA)は、エンドツーエンドのデザインと驚くべきパフォーマンスのために、ロボット操作でますます人気が高まっています。
ただし、既存のVLAは、テキストベースの指示のみをサポートするビジョン言語モデル(VLM)に大きく依存しており、人間とロボットの相互作用のより自然な音声モダリティを無視しています。
従来の音声統合方法には通常、個別の音声認識システムが含まれ、モデルを複雑にし、エラーの伝播を導入します。
さらに、転写手順では、ボイスプリントなど、生のスピーチで非セマンチックな情報が失われます。これは、ロボットがカスタマイズされたタスクを正常に完了するために重要です。
上記の課題を克服するために、音声認識をロボットポリシーモデルに直接統合する新しいエンドツーエンドのVLAであるVLAを提案します。
VLASを使用すると、ロボットは内側の音声テキストアラインメントを介して音声コマンドを理解し、対応するアクションを生成してタスクを満たすことができます。
また、2つの新しいデータセット、SQAとCSIを提示して、テキスト、画像、音声、およびロボットアクションを介したマルチモーダル相互作用の能力をVLAに強化する3段階のチューニングプロセスをサポートします。
さらに一歩進んで、音声検索された生成(RAG)パラダイムは、モデルが個人固有の知識を必要とするタスクを効果的に処理できるように設計されています。
私たちの広範な実験は、VLAが多様な音声コマンドを使用してロボット操作タスクを効果的に達成できることを示しており、シームレスでカスタマイズされたインタラクションエクスペリエンスを提供します。

要約(オリジナル)

Vision-language-action models (VLAs) have become increasingly popular in robot manipulation for their end-to-end design and remarkable performance. However, existing VLAs rely heavily on vision-language models (VLMs) that only support text-based instructions, neglecting the more natural speech modality for human-robot interaction. Traditional speech integration methods usually involves a separate speech recognition system, which complicates the model and introduces error propagation. Moreover, the transcription procedure would lose non-semantic information in the raw speech, such as voiceprint, which may be crucial for robots to successfully complete customized tasks. To overcome above challenges, we propose VLAS, a novel end-to-end VLA that integrates speech recognition directly into the robot policy model. VLAS allows the robot to understand spoken commands through inner speech-text alignment and produces corresponding actions to fulfill the task. We also present two new datasets, SQA and CSI, to support a three-stage tuning process for speech instructions, which empowers VLAS with the ability of multimodal interaction across text, image, speech, and robot actions. Taking a step further, a voice retrieval-augmented generation (RAG) paradigm is designed to enable our model to effectively handle tasks that require individual-specific knowledge. Our extensive experiments show that VLAS can effectively accomplish robot manipulation tasks with diverse speech commands, offering a seamless and customized interaction experience.

arxiv情報

著者 Wei Zhao,Pengxiang Ding,Min Zhang,Zhefei Gong,Shuanghao Bai,Han Zhao,Donglin Wang
発行日 2025-02-19 07:53:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | VLAS: Vision-Language-Action Model With Speech Instructions For Customized Robot Manipulation はコメントを受け付けていません

Path Planning for Spot Spraying with UAVs Combining TSP and Area Coverages

要約

このペーパーでは、次のタスクに対処します。境界輪郭内でサービスを受けることを目的としたさまざまなサイズのパッチまたはさまざまなサイズの領域を考えると、無人航空機(UAV)の最小長さのパス計画を計算して、パスが与えられた障害物領域をさらに回避するようになります。
そして、境界線を離れることはありません。
念頭にある用途は、農業スポットスプレーです。境界の輪郭はフィールドの輪郭を表し、複数のパッチは噴霧されることを目的とした複数の雑草領域を表します。
障害物エリアは池や木の島です。
提案された方法は、ヒューリスティックソリューションを巡回セールスマンの問題(TSP)と最適化されたエリアカバレッジパス計画と組み合わせます。
2つのTSP復元と4つのTSP補正ヒューリスティック、および2つのエリアカバレッジパス計画方法は、それぞれ3つの障害領域と15、19、197パッチを使用した3つの実際の実験で評価されます。
面積カバレッジギャップ回避のためのブーストロフィドンパスの不適切な可能性について説明し、面積カバレッジのための岬の経路を含めることが動機付けられています。
2つの主な調査結果は、(i)1つのTSP補生ヒューリスティックの特定の適合性、および(ii)総パスレングスのパスカバレッジエリアの予期せぬ高い寄与性であり、スポットスプレーの最適化されたエリアカバレッジパス計画の重要性を強調しています。

要約(オリジナル)

This paper addresses the following task: given a set of patches or areas of varying sizes that are meant to be serviced within a bounding contour calculate a minimal length path plan for an unmanned aerial vehicle (UAV) such that the path additionally avoids given obstacles areas and does never leave the bounding contour. The application in mind is agricultural spot spraying, where the bounding contour represents the field contour and multiple patches represent multiple weed areas meant to be sprayed. Obstacle areas are ponds or tree islands. The proposed method combines a heuristic solution to a traveling salesman problem (TSP) with optimised area coverage path planning. Two TSP-initialisation and 4 TSP-refinement heuristics as well as two area coverage path planning methods are evaluated on three real-world experiments with three obstacle areas and 15, 19 and 197 patches, respectively. The unsuitability of a Boustrophedon-path for area coverage gap avoidance is discussed and inclusion of a headland path for area coverage is motivated. Two main findings are (i) the particular suitability of one TSP-refinement heuristic, and (ii) the unexpected high contribution of patches areas coverage pathlengths on total pathlength, highlighting the importance of optimised area coverage path planning for spot spraying.

arxiv情報

著者 Mogens Plessen
発行日 2025-02-19 08:09:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Path Planning for Spot Spraying with UAVs Combining TSP and Area Coverages はコメントを受け付けていません

MILE: Model-based Intervention Learning

要約

模倣学習手法は、ロボット工学などの実際の制御シナリオで非常に効果的であることが示されています。
ただし、これらのアプローチは、エラーの複利の問題に悩まされるだけでなく、人間の専門家に完全な軌跡を提供する必要があります。
専門家がロボットを監督し、必要に応じて介入するインタラクティブな方法は存在しますが、これらの拡張は通常、介入期間中に収集されたデータのみを利用し、非介入のタイムステップに隠されたフィードバック信号を無視します。
この作業では、そのような場合に介入がどのように発生するかを策定するモデルを作成し、ほんの一握りの専門家介入でポリシーを学ぶことが可能であることを示します。
私たちの重要な洞察は、介入の存在や介入の欠如に関係なく、現在の状態の質と、選択したアクションの最適性に関する重要な情報を取得することが可能であるということです。
さまざまな離散および連続シミュレーション環境、実際のロボット操作タスク、および人間の被験者研究での方法を評価します。
ビデオとコードはhttps://liralab.usc.edu/mileにあります。

要約(オリジナル)

Imitation learning techniques have been shown to be highly effective in real-world control scenarios, such as robotics. However, these approaches not only suffer from compounding error issues but also require human experts to provide complete trajectories. Although there exist interactive methods where an expert oversees the robot and intervenes if needed, these extensions usually only utilize the data collected during intervention periods and ignore the feedback signal hidden in non-intervention timesteps. In this work, we create a model to formulate how the interventions occur in such cases, and show that it is possible to learn a policy with just a handful of expert interventions. Our key insight is that it is possible to get crucial information about the quality of the current state and the optimality of the chosen action from expert feedback, regardless of the presence or the absence of intervention. We evaluate our method on various discrete and continuous simulation environments, a real-world robotic manipulation task, as well as a human subject study. Videos and the code can be found at https://liralab.usc.edu/mile .

arxiv情報

著者 Yigit Korkmaz,Erdem Bıyık
発行日 2025-02-19 08:15:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | MILE: Model-based Intervention Learning はコメントを受け付けていません

X-IL: Exploring the Design Space of Imitation Learning Policies

要約

モダン模倣学習(IL)ポリシーの設計には、機能のエンコード、アーキテクチャ、ポリシー表現などの選択など、多くの決定を下す必要があります。
フィールドが急速に進むにつれて、利用可能なオプションの範囲が成長し続け、ILポリシーのための広大でほとんど未踏の設計スペースを作成します。
この作業では、この設計空間を体系的に探索するように設計されたアクセス可能なオープンソースフレームワークであるX-ILを提示します。
フレームワークのモジュラー設計により、バックボーン(トランス、MAMBA、XLSTMなど)やポリシー最適化技術(スコアマッチング、フローマッチングなど)などのポリシーコンポーネントのシームレスな交換が可能になります。
この柔軟性は包括的な実験を促進し、最近のロボット学習ベンチマークで既存の方法を上回る新しいポリシー構成の発見につながりました。
私たちの実験は、大幅なパフォーマンスの向上だけでなく、さまざまな設計選択の長所と短所に関する貴重な洞察も提供します。
この研究は、実践者のための実践的な参照と、模倣学習の将来の研究を導くための基盤の両方として機能します。

要約(オリジナル)

Designing modern imitation learning (IL) policies requires making numerous decisions, including the selection of feature encoding, architecture, policy representation, and more. As the field rapidly advances, the range of available options continues to grow, creating a vast and largely unexplored design space for IL policies. In this work, we present X-IL, an accessible open-source framework designed to systematically explore this design space. The framework’s modular design enables seamless swapping of policy components, such as backbones (e.g., Transformer, Mamba, xLSTM) and policy optimization techniques (e.g., Score-matching, Flow-matching). This flexibility facilitates comprehensive experimentation and has led to the discovery of novel policy configurations that outperform existing methods on recent robot learning benchmarks. Our experiments demonstrate not only significant performance gains but also provide valuable insights into the strengths and weaknesses of various design choices. This study serves as both a practical reference for practitioners and a foundation for guiding future research in imitation learning.

arxiv情報

著者 Xiaogang Jia,Atalay Donat,Xi Huang,Xuan Zhao,Denis Blessing,Hongyi Zhou,Han A. Wang,Hanyi Zhang,Qian Wang,Rudolf Lioutikov,Gerhard Neumann
発行日 2025-02-19 08:57:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | X-IL: Exploring the Design Space of Imitation Learning Policies はコメントを受け付けていません

Towards Fusing Point Cloud and Visual Representations for Imitation Learning

要約

操作のための学習には、ポイントクラウドやRGB画像などの豊富な感覚情報にアクセスできるポリシーを使用する必要があります。
ポイントクラウドは、幾何学的構造を効率的にキャプチャし、模倣学習の操作タスクに不可欠になります。
対照的に、RGB画像は、特定のタスクにとって重要な豊富なテクスチャ情報とセマンティック情報を提供します。
両方のモダリティを融合するための既存のアプローチは、2D画像機能をポイントクラウドに割り当てます。
ただし、そのようなアプローチは、多くの場合、元の画像からグローバルなコンテキスト情報を失います。
この作業では、ポイントクラウドとRGBモダリティの両方の強度を効果的に組み合わせた新しい模倣学習方法であるFPV-NETを提案します。
私たちの方法は、適応層のノルムコンディショニングを使用して、グローバルおよびローカル画像トークンのポイントクラウドエンコーダーを条件付けし、両方のモダリティの有益な特性を活用します。
挑戦的なロボカサベンチマークに関する広範な実験を通じて、いずれかのモダリティだけに依存することの限界を示し、すべてのタスクで最新のパフォーマンスを達成することを示します。

要約(オリジナル)

Learning for manipulation requires using policies that have access to rich sensory information such as point clouds or RGB images. Point clouds efficiently capture geometric structures, making them essential for manipulation tasks in imitation learning. In contrast, RGB images provide rich texture and semantic information that can be crucial for certain tasks. Existing approaches for fusing both modalities assign 2D image features to point clouds. However, such approaches often lose global contextual information from the original images. In this work, we propose FPV-Net, a novel imitation learning method that effectively combines the strengths of both point cloud and RGB modalities. Our method conditions the point-cloud encoder on global and local image tokens using adaptive layer norm conditioning, leveraging the beneficial properties of both modalities. Through extensive experiments on the challenging RoboCasa benchmark, we demonstrate the limitations of relying on either modality alone and show that our method achieves state-of-the-art performance across all tasks.

arxiv情報

著者 Atalay Donat,Xiaogang Jia,Xi Huang,Aleksandar Taranovic,Denis Blessing,Ge Li,Hongyi Zhou,Hanyi Zhang,Rudolf Lioutikov,Gerhard Neumann
発行日 2025-02-19 09:04:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Towards Fusing Point Cloud and Visual Representations for Imitation Learning はコメントを受け付けていません