Adver-City: Open-Source Multi-Modal Dataset for Collaborative Perception Under Adverse Weather Conditions

要約

悪天候は、LiDAR やカメラなどのセンサーに影響を与え、自動運転車 (AV) の普及に大きな課題をもたらします。
Collaborative Perception (CP) は困難な状況での AV 知覚を改善しますが、既存の CP データセットには悪天候がありません。
これに対処するために、悪天候条件に焦点を当てた初のオープンソース合成 CP データセットである Adver-City を紹介します。
OpenCDA を使用した CARLA でシミュレートされたこのバージョンには、24,000 を超えるフレーム、890,000 を超える注釈、6 つの異なる気象条件 (晴天、小雨、大雨、霧、霧状の大雨、そして初めての天気) にわたる 110 のユニークなシナリオが含まれています。
合成 CP データセット、グレア。
歩行者や自転車を含む 6 つのオブジェクト カテゴリがあり、LiDAR、RGB およびセマンティック セグメンテーション カメラ、GNSS、IMU を備えた車両および路側ユニットからのデータを使用します。
実際の衝突レポートに基づいたそのシナリオは、物体の密度が異なる、密集したシーンと疎なシーンの両方で、悪天候や視界不良の状況に最も適切な道路構成を描写し、CP モデルの新しいテスト条件を可能にします。
データセットに対してベンチマークを実行したところ、気象条件により知覚モデルにとって困難な状況が生じ、マルチモーダル物体検出パフォーマンスが最大 19% 低下し、物体密度が LiDAR ベースの検出に最大 29% 影響を与えたことがわかりました。
データセット、コード、ドキュメントは https://labs.cs.queensu.ca/quarrg/datasets/adver-city/ で入手できます。

要約(オリジナル)

Adverse weather conditions pose a significant challenge to the widespread adoption of Autonomous Vehicles (AVs) by impacting sensors like LiDARs and cameras. Even though Collaborative Perception (CP) improves AV perception in difficult conditions, existing CP datasets lack adverse weather conditions. To address this, we introduce Adver-City, the first open-source synthetic CP dataset focused on adverse weather conditions. Simulated in CARLA with OpenCDA, it contains over 24 thousand frames, over 890 thousand annotations, and 110 unique scenarios across six different weather conditions: clear weather, soft rain, heavy rain, fog, foggy heavy rain and, for the first time in a synthetic CP dataset, glare. It has six object categories including pedestrians and cyclists, and uses data from vehicles and roadside units featuring LiDARs, RGB and semantic segmentation cameras, GNSS, and IMUs. Its scenarios, based on real crash reports, depict the most relevant road configurations for adverse weather and poor visibility conditions, varying in object density, with both dense and sparse scenes, allowing for novel testing conditions of CP models. Benchmarks run on the dataset show that weather conditions created challenging conditions for perception models, reducing multi-modal object detection performance by up to 19%, while object density affected LiDAR-based detection by up to 29%. The dataset, code and documentation are available at https://labs.cs.queensu.ca/quarrg/datasets/adver-city/.

arxiv情報

著者 Mateus Karvat,Sidney Givigi
発行日 2024-10-08 21:26:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO | コメントする

Trajectory Improvement and Reward Learning from Comparative Language Feedback

要約

人間のフィードバックから学ぶことは、近年ロボット工学や自然言語処理などの分野で注目を集めています。
これまでの研究は主に比較という形で人間によるフィードバックに依存していましたが、言語はユーザーの好みについてより有益な洞察を提供する好ましい手段です。
この研究では、比較言語フィードバックを組み込んでロボットの軌道を反復的に改善し、人間の好みをエンコードする報酬関数を学習することを目指しています。
この目標を達成するために、私たちは軌跡データと言語フィードバックを統合する共有潜在空間を学習し、その後、学習した潜在空間を活用して軌跡を改善し、人間の好みを学習します。
私たちの知る限り、比較言語フィードバックを報酬学習に組み込んだのは私たちが初めてです。
私たちのシミュレーション実験は、学習された潜在空間の有効性と学習アルゴリズムの成功を実証しています。
また、人間を対象とした研究も行っており、報酬学習アルゴリズムが好みに基づく報酬学習と比較して平均で 23.9% 高い主観スコアを達成し、時間効率が 11.3% 高いことが示されており、この手法の優れたパフォーマンスが強調されています。
私たちのウェブサイトは https://liralab.usc.edu/comparative- language-フィードバック/ です。

要約(オリジナル)

Learning from human feedback has gained traction in fields like robotics and natural language processing in recent years. While prior works mostly rely on human feedback in the form of comparisons, language is a preferable modality that provides more informative insights into user preferences. In this work, we aim to incorporate comparative language feedback to iteratively improve robot trajectories and to learn reward functions that encode human preferences. To achieve this goal, we learn a shared latent space that integrates trajectory data and language feedback, and subsequently leverage the learned latent space to improve trajectories and learn human preferences. To the best of our knowledge, we are the first to incorporate comparative language feedback into reward learning. Our simulation experiments demonstrate the effectiveness of the learned latent space and the success of our learning algorithms. We also conduct human subject studies that show our reward learning algorithm achieves a 23.9% higher subjective score on average and is 11.3% more time-efficient compared to preference-based reward learning, underscoring the superior performance of our method. Our website is at https://liralab.usc.edu/comparative-language-feedback/

arxiv情報

著者 Zhaojing Yang,Miru Jun,Jeremy Tien,Stuart J. Russell,Anca Dragan,Erdem Bıyık
発行日 2024-10-08 22:15:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

BEVLoc: Cross-View Localization and Matching via Birds-Eye-View Synthesis

要約

屋外ロボット工学において、特に GPS が存在しない、または信頼性が低い場合、地上と空中のマッチングは重要かつ困難な作業です。
建物や大きく密集した森林などの構造物は干渉を引き起こすため、全地球測位推定には GNSS の置き換えが必要になります。
本当の難しさは、許容可能な位置特定を実現するために、地上画像と航空画像の遠近感の違いを調整することにあります。
自動運転コミュニティからインスピレーションを得て、オフロード環境で航空地図と照合して位置特定するための鳥瞰図 (BEV) シーン表現を合成するための新しいフレームワークを提案します。
ドメイン固有のハード ネガティブ マイニングによる対照学習を活用して、合成された BEV と航空地図の間の類似した表現を学習するようにネットワークをトレーニングします。
推論中、BEVLoc は、粗いものから細かいものへのマッチング戦略を通じて、航空地図内で最も可能性の高い場所の特定をガイドします。
私たちの結果は、意味の多様性が限られた非常に困難な森林環境における有望な初期結果を示しています。
私たちはモデルの粗いマッチングと細かいマッチングのパフォーマンスを分析し、モデルの生のマッチング能力と GNSS の代替としてのパフォーマンスの両方を評価します。
私たちの仕事は、オフロードマップのローカリゼーションを掘り下げながら、ローカリゼーションの将来の開発のための基礎的なベースラインを確立します。
コードは https://github.com/rpl-cmu/bevloc から入手できます。

要約(オリジナル)

Ground to aerial matching is a crucial and challenging task in outdoor robotics, particularly when GPS is absent or unreliable. Structures like buildings or large dense forests create interference, requiring GNSS replacements for global positioning estimates. The true difficulty lies in reconciling the perspective difference between the ground and air images for acceptable localization. Taking inspiration from the autonomous driving community, we propose a novel framework for synthesizing a birds-eye-view (BEV) scene representation to match and localize against an aerial map in off-road environments. We leverage contrastive learning with domain specific hard negative mining to train a network to learn similar representations between the synthesized BEV and the aerial map. During inference, BEVLoc guides the identification of the most probable locations within the aerial map through a coarse-to-fine matching strategy. Our results demonstrate promising initial outcomes in extremely difficult forest environments with limited semantic diversity. We analyze our model’s performance for coarse and fine matching, assessing both the raw matching capability of our model and its performance as a GNSS replacement. Our work delves into off-road map localization while establishing a foundational baseline for future developments in localization. Our code is available at: https://github.com/rpl-cmu/bevloc

arxiv情報

著者 Christopher Klammer,Michael Kaess
発行日 2024-10-08 22:45:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO, I.2.9 | コメントする

LocoVR: Multiuser Indoor Locomotion Dataset in Virtual Reality

要約

人間の移動運動を理解することは、特に複雑な屋内家庭環境において、ロボットなどの AI エージェントにとって重要です。
これらの空間における人間の軌跡をモデル化するには、個人が物理的な障害物を回避して社会的ナビゲーションのダイナミクスを管理する方法についての洞察が必要です。
これらのダイナミクスには、他の人が通過できるように脇に寄ったり、衝突を避けるために長いルートを選択したりするなど、近接性(空間の社会的利用)に影響された微妙な行動が含まれます。
これまでの研究では、屋内シーンにおける人間の動きのデータセットが開発されてきましたが、多くの場合、その規模は限られており、家庭環境で一般的な微妙なソーシャル ナビゲーション ダイナミクスが欠けています。
これに対処するために、130 以上の異なる屋内家庭環境から仮想現実でキャプチャされた 7,000 以上の 2 人の軌跡のデータセットである LocoVR を紹介します。
LocoVR は、全身のポーズ データと正確な空間情報に加え、社会的動機に基づいた運動行動の豊富な例を提供します。
たとえば、このデータセットは、狭い空間で互いに移動し、生活エリアで個人の境界を尊重するように経路を調整し、玄関やキッチンなどの交通量の多いゾーンで動きを調整する個人のインスタンスをキャプチャします。
私たちの評価では、LocoVR が人間の軌跡を利用した 3 つの実践的な屋内タスクにおいてモデルのパフォーマンスを大幅に向上させ、家庭環境における社会を意識したナビゲーション パターンの予測を実証していることが示されています。

要約(オリジナル)

Understanding human locomotion is crucial for AI agents such as robots, particularly in complex indoor home environments. Modeling human trajectories in these spaces requires insight into how individuals maneuver around physical obstacles and manage social navigation dynamics. These dynamics include subtle behaviors influenced by proxemics – the social use of space, such as stepping aside to allow others to pass or choosing longer routes to avoid collisions. Previous research has developed datasets of human motion in indoor scenes, but these are often limited in scale and lack the nuanced social navigation dynamics common in home environments. To address this, we present LocoVR, a dataset of 7000+ two-person trajectories captured in virtual reality from over 130 different indoor home environments. LocoVR provides full body pose data and precise spatial information, along with rich examples of socially-motivated movement behaviors. For example, the dataset captures instances of individuals navigating around each other in narrow spaces, adjusting paths to respect personal boundaries in living areas, and coordinating movements in high-traffic zones like entryways and kitchens. Our evaluation shows that LocoVR significantly enhances model performance in three practical indoor tasks utilizing human trajectories, and demonstrates predicting socially-aware navigation patterns in home environments.

arxiv情報

著者 Kojiro Takeyama,Yimeng Liu,Misha Sra
発行日 2024-10-09 00:45:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.HC, cs.RO | コメントする

Enabling Novel Mission Operations and Interactions with ROSA: The Robot Operating System Agent

要約

ロボット システムの進歩は多くの業界に革命をもたらしましたが、その操作には専門的な技術知識が必要となることが多く、専門家以外のユーザーがアクセスできるのは限られています。
このペーパーでは、ロボット オペレーティング システム (ROS) と自然言語インターフェイスの間のギャップを埋める AI 搭載エージェントである ROSA (ロボット オペレーティング システム エージェント) について紹介します。
ROSA は、最先端の言語モデルを活用し、オープンソース フレームワークを統合することにより、オペレーターが自然言語を使用してロボットと対話し、コマンドをアクションに変換し、明確に定義されたツールを通じて ROS とインターフェイスできるようにします。
ROSA の設計はモジュール式で拡張可能で、ROS1 と ROS2 の両方とのシームレスな統合に加え、パラメータ検証や制約強制などの安全メカニズムを提供して、安全で信頼性の高い動作を保証します。
ROSA はもともと ROS 用に設計されていますが、他のロボティクス ミドルウェアと連携して動作するように拡張して、ミッション全体での互換性を最大限に高めることができます。
ROSA は、複雑なロボット システムへのアクセスを民主化し、あらゆる専門レベルのユーザーに音声統合や視覚認識などのマルチモーダル機能を提供することで、人間とロボットのインタラクションを強化します。
アシモフのロボット工学三原則などの基本原則に基づいて倫理的配慮が徹底されており、AI の統合により安全性、透明性、プライバシー、説明責任が確実に促進されます。
ROSA は、ロボット技術をよりユーザーフレンドリーでアクセスしやすいものにすることで、運用効率を向上させるだけでなく、ロボット工学および将来のミッション運用における責任ある AI の使用に関する新しい標準を確立します。
このペーパーでは、ROSA のアーキテクチャを紹介し、JPL のマーズ ヤード、実験室での初期モックアップ操作、および 3 つの異なるロボットを使用したシミュレーションを紹介します。
コア ROSA ライブラリはオープンソースとして入手できます。

要約(オリジナル)

The advancement of robotic systems has revolutionized numerous industries, yet their operation often demands specialized technical knowledge, limiting accessibility for non-expert users. This paper introduces ROSA (Robot Operating System Agent), an AI-powered agent that bridges the gap between the Robot Operating System (ROS) and natural language interfaces. By leveraging state-of-the-art language models and integrating open-source frameworks, ROSA enables operators to interact with robots using natural language, translating commands into actions and interfacing with ROS through well-defined tools. ROSA’s design is modular and extensible, offering seamless integration with both ROS1 and ROS2, along with safety mechanisms like parameter validation and constraint enforcement to ensure secure, reliable operations. While ROSA is originally designed for ROS, it can be extended to work with other robotics middle-wares to maximize compatibility across missions. ROSA enhances human-robot interaction by democratizing access to complex robotic systems, empowering users of all expertise levels with multi-modal capabilities such as speech integration and visual perception. Ethical considerations are thoroughly addressed, guided by foundational principles like Asimov’s Three Laws of Robotics, ensuring that AI integration promotes safety, transparency, privacy, and accountability. By making robotic technology more user-friendly and accessible, ROSA not only improves operational efficiency but also sets a new standard for responsible AI use in robotics and potentially future mission operations. This paper introduces ROSA’s architecture and showcases initial mock-up operations in JPL’s Mars Yard, a laboratory, and a simulation using three different robots. The core ROSA library is available as open-source.

arxiv情報

著者 Rob Royce,Marcel Kaufmann,Jonathan Becktor,Sangwoo Moon,Kalind Carpenter,Kai Pak,Amanda Towler,Rohan Thakker,Shehryar Khattak
発行日 2024-10-09 01:54:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC, cs.RO | コメントする

Grounding Robot Policies with Visuomotor Language Guidance

要約

自然言語処理とコンピューター ビジョンの分野における最近の進歩により、大規模なインターネット データから世界の根底にある力学を理解する上で大きな可能性が示されています。
しかし、人間とロボットのインタラクションが不足していることと、現実世界のロボット データの大規模なデータセットが不足していることを考慮すると、この知識をロボット システムに変換することは依然として未解決の課題です。
行動クローニングや強化学習などのこれまでのロボット学習アプローチは、人間のデモンストレーションから、または特定の環境でゼロからロボットのスキルを学習する優れた能力を示してきました。
ただし、これらのアプローチでは、タスク固有のデモンストレーションや複雑なシミュレーション環境の設計が必要になることが多く、新しい設定に対する一般化可能で堅牢なポリシーの開発が制限されます。
これらの制限に対処することを目的として、視覚運動に基づいた言語ガイダンスを使用して現在のロボットとその環境の制約を考慮し、現在のコンテキストにロボットのポリシーを根付かせるためのエージェントベースのフレームワークを提案します。
提案されたフレームワークは、特定の役割、つまり高レベルのアドバイザー、視覚的グラウンディング、モニタリング、ロボット エージェント向けに設計された一連の会話型エージェントで構成されています。
基本ポリシーが与えられると、エージェントは実行時に集合的にガイダンスを生成し、基本ポリシーのアクション分布をより望ましい将来の状態に向けてシフトします。
私たちのアプローチは、人間による追加のデモンストレーションや広範な調査を必要とせずに、シミュレーションと現実世界の実験の両方で大幅に高い成功率を達成するために操作ポリシーを効果的に導くことができることを実証します。
https://sites.google.com/view/motorcortex/home でビデオを投影します。

要約(オリジナル)

Recent advances in the fields of natural language processing and computer vision have shown great potential in understanding the underlying dynamics of the world from large-scale internet data. However, translating this knowledge into robotic systems remains an open challenge, given the scarcity of human-robot interactions and the lack of large-scale datasets of real-world robotic data. Previous robot learning approaches such as behavior cloning and reinforcement learning have shown great capabilities in learning robotic skills from human demonstrations or from scratch in specific environments. However, these approaches often require task-specific demonstrations or designing complex simulation environments, which limits the development of generalizable and robust policies for new settings. Aiming to address these limitations, we propose an agent-based framework for grounding robot policies to the current context, considering the constraints of a current robot and its environment using visuomotor-grounded language guidance. The proposed framework is composed of a set of conversational agents designed for specific roles — namely, high-level advisor, visual grounding, monitoring, and robotic agents. Given a base policy, the agents collectively generate guidance at run time to shift the action distribution of the base policy towards more desirable future states. We demonstrate that our approach can effectively guide manipulation policies to achieve significantly higher success rates both in simulation and in real-world experiments without the need for additional human demonstrations or extensive exploration. Project videos at https://sites.google.com/view/motorcortex/home.

arxiv情報

著者 Arthur Bucker,Pablo Ortega,Jonathan Francis,Jean Oh
発行日 2024-10-09 02:00:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | コメントする

Overcoming Autoware-Ubuntu Incompatibility in Autonomous Driving Systems-Equipped Vehicles: Lessons Learned

要約

自動運転車は、交通システムに安全性と効率性を提供する需要に応じて急速に開発されています。
自動運転車はオープンソースのオペレーティング システムおよびコンピューティング システムに基づいて設計されているため、Ubuntu、Autoware、ロボット オペレーティング システム (ROS) で構成されるオペレーティング プラットフォームの構築を目的としたリソースが多数あります。
しかし、Autoware プラットフォームと自動運転システム搭載車両 (クライスラー パシフィカなど) にインストールされている Ubuntu オペレーティング システムとの間に互換性がないため、研究者がトラブルシューティングを実行するのに役立つ明確なガイドラインは存在しません。
この論文では、互換性のない問題を解決するためのトラブルシューティング プロセスから学んだ教訓に基づいて、Autoware プラットフォームを自動運転車のインターフェイスに統合する概要を示します。
トラブルシューティング プロセスは、自動運転システム搭載車両にインストールされている Ubuntu 20.04、Autoware.AI、および ROS Noetic ソフトウェアの非互換性と統合の問題の解決に基づいて説明されています。
具体的には、このペーパーでは、一般的な非互換性の問題と、Python の互換性、Compute Unified Device Architecture (CUDA) のインストール、Autoware のインストール、および Autoware.AI でのシミュレーションに関連するコード解決プロトコルに焦点を当てています。
この論文の目的は、自動運転車の動作干渉における非互換性の問題に対処する方法を紹介する、明確かつ詳細を重視したプレゼンテーションを提供することです。
この論文で紹介されている教訓と経験は、同様の問題に遭遇した研究者にとって役立ち、トラブルシューティング活動を実行したり、Ubuntu、Autoware、および ROS オペレーティング システムで ADS 関連プロジェクトを実装したりすることでフォローアップできます。

要約(オリジナル)

Autonomous vehicles have been rapidly developed as demand that provides safety and efficiency in transportation systems. As autonomous vehicles are designed based on open-source operating and computing systems, there are numerous resources aimed at building an operating platform composed of Ubuntu, Autoware, and Robot Operating System (ROS). However, no explicit guidelines exist to help scholars perform trouble-shooting due to incompatibility between the Autoware platform and Ubuntu operating systems installed in autonomous driving systems-equipped vehicles (i.e., Chrysler Pacifica). The paper presents an overview of integrating the Autoware platform into the autonomous vehicle’s interface based on lessons learned from trouble-shooting processes for resolving incompatible issues. The trouble-shooting processes are presented based on resolving the incompatibility and integration issues of Ubuntu 20.04, Autoware.AI, and ROS Noetic software installed in an autonomous driving systems-equipped vehicle. Specifically, the paper focused on common incompatibility issues and code-solving protocols involving Python compatibility, Compute Unified Device Architecture (CUDA) installation, Autoware installation, and simulation in Autoware.AI. The objective of the paper is to provide an explicit and detail-oriented presentation to showcase how to address incompatibility issues among an autonomous vehicle’s operating interference. The lessons and experience presented in the paper will be useful for researchers who encountered similar issues and could follow up by performing trouble-shooting activities and implementing ADS-related projects in the Ubuntu, Autoware, and ROS operating systems.

arxiv情報

著者 Dada Zhang,Md Ruman Islam,Pei-Chi Huang,Chun-Hsing Ho
発行日 2024-10-09 02:35:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.OS, cs.RO, cs.SE | コメントする

BiC-MPPI: Goal-Pursuing, Sampling-Based Bidirectional Rollout Clustering Path Integral for Trajectory Optimization

要約

このペーパーでは、モデル予測パス積分 (MPPI) フレームワーク内の目標指向のガイダンスを強化することを目的とした新しい軌道最適化手法である、双方向クラスター MPPI (BiC-MPPI) アルゴリズムを紹介します。
BiC-MPPI には、双方向ダイナミクス近似と新しいガイド コスト メカニズムが組み込まれており、軌道計画と目標到達パフォーマンスの両方が向上します。
前方ロールアウトと後方ロールアウトを活用することで、双方向アプローチにより初期状態と最終状態の間の効果的な軌道接続が保証され、ガイド コストは動的に実行可能なパスの発見に役立ちます。
実験結果は、BiC-MPPI が 2D 環境と 3D 環境の両方で既存の MPPI バリアントよりも優れたパフォーマンスを示し、自律航行用に修正された BARN データセットでの 900 回のシミュレーション全体で、より高い成功率と競争力のある計算時間を達成することを示しています。
GitHub: https://github.com/i-ASL/BiC-MPPI

要約(オリジナル)

This paper introduces the Bidirectional Clustered MPPI (BiC-MPPI) algorithm, a novel trajectory optimization method aimed at enhancing goal-directed guidance within the Model Predictive Path Integral (MPPI) framework. BiC-MPPI incorporates bidirectional dynamics approximations and a new guide cost mechanism, improving both trajectory planning and goal-reaching performance. By leveraging forward and backward rollouts, the bidirectional approach ensures effective trajectory connections between initial and terminal states, while the guide cost helps discover dynamically feasible paths. Experimental results demonstrate that BiC-MPPI outperforms existing MPPI variants in both 2D and 3D environments, achieving higher success rates and competitive computation times across 900 simulations on a modified BARN dataset for autonomous navigation. GitHub: https://github.com/i-ASL/BiC-MPPI

arxiv情報

著者 Minchan Jung,Kwangki Kim
発行日 2024-10-09 02:36:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 13P25, 68T40, cs.AI, cs.RO, cs.SY, eess.SY, G.1.6, math.OC | コメントする

QuadBEV: An Efficient Quadruple-Task Perception Framework via Bird’s-Eye-View Representation

要約

Bird’s-Eye-View (BEV) 認識は、複数のセンサー入力を統一表現に統合し、さまざまな下流タスクのパフォーマンスを向上させる機能により、自動運転システムの重要なコンポーネントとなっています。
ただし、BEV モデルの計算要求は、リソースが限られた車両に実際に導入する場合に課題を引き起こします。
これらの制限に対処するために、3D オブジェクト検出、車線検出、マップ セグメンテーション、占有予測という 4 つの主要なタスクにわたって共有された空間情報とコンテキスト情報を活用する、効率的なマルチタスク認識フレームワークである QuadBEV を提案します。
QuadBEV は、共有バックボーンとタスク固有のヘッドを使用してこれらのタスクの統合を合理化するだけでなく、学習率の感度や競合するタスク目標などの一般的なマルチタスク学習の課題にも対処します。
私たちのフレームワークは冗長な計算を削減し、それによってシステム効率を向上させ、特に組み込みシステムに適しています。
QuadBEV の有効性と堅牢性を検証する包括的な実験を紹介し、現実世界のアプリケーションへの適合性を実証します。

要約(オリジナル)

Bird’s-Eye-View (BEV) perception has become a vital component of autonomous driving systems due to its ability to integrate multiple sensor inputs into a unified representation, enhancing performance in various downstream tasks. However, the computational demands of BEV models pose challenges for real-world deployment in vehicles with limited resources. To address these limitations, we propose QuadBEV, an efficient multitask perception framework that leverages the shared spatial and contextual information across four key tasks: 3D object detection, lane detection, map segmentation, and occupancy prediction. QuadBEV not only streamlines the integration of these tasks using a shared backbone and task-specific heads but also addresses common multitask learning challenges such as learning rate sensitivity and conflicting task objectives. Our framework reduces redundant computations, thereby enhancing system efficiency, making it particularly suited for embedded systems. We present comprehensive experiments that validate the effectiveness and robustness of QuadBEV, demonstrating its suitability for real-world applications.

arxiv情報

著者 Yuxin Li,Yiheng Li,Xulei Yang,Mengying Yu,Zihang Huang,Xiaojun Wu,Chai Kiat Yeo
発行日 2024-10-09 03:31:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | コメントする

Real-to-Sim Grasp: Rethinking the Gap between Simulation and Real World in Grasp Detection

要約

6-DoF 把握検出では、シミュレートされたデータを拡張してより強力なモデルをトレーニングできますが、シミュレーションと現実世界の間に大きなギャップがあるという課題に直面しています。
以前の作品は、シミュレーションから現実への方法でこのギャップを埋めました。
ただし、この方法では、把握検出器をトレーニングするときに、明示的または暗黙的にシミュレートされたデータをノイズの多い実際のデータに適応させることになります。カメラ ノイズ内の位置ドリフトや構造的歪みが把握学習に悪影響を及ぼします。
この研究では、R2SGrasp という名前の 6-DoF 掴み検出用の Real-to-Sim フレームワークを提案します。これは、掴み検出器のトレーニングでカメラ ノイズを直接バイパスする、Real-to-Sim の方法でこのギャップを埋めるという重要な洞察を備えています。
推論とリアルタイムのシミュレーションへの適応を通じて。
このリアルからシムへの適応を実現するために、当社の R2SGrasp は、データ レベルでリアル デプス マップのカメラ ノイズを軽減するためのリアルからシムへのデータ修復 (R2SRepairer) と、リアルからシムへの機能エンハンサー (R2SEnhancer) を設計します。
フィーチャレベルで正確にシミュレートされた幾何学的プリミティブを使用して実際のフィーチャを強化します。
フレームワークに一般化機能を持たせるために、把握検出器をトレーニングするための大規模なシミュレートされたデータセットをコスト効率よく構築します。これには、1,440 万の把握アノテーションを含む 64,000 の RGB-D 画像が含まれます。
十分な実験により、R2SGrasp が強力であり、現実からシミュレーションへの視点が効果的であることが示されています。
実際の実験では、R2SGrasp の優れた一般化能力がさらに示されています。
プロジェクトページは https://isee-laboratory.github.io/R2SGrasp から入手できます。

要約(オリジナル)

For 6-DoF grasp detection, simulated data is expandable to train more powerful model, but it faces the challenge of the large gap between simulation and real world. Previous works bridge this gap with a sim-to-real way. However, this way explicitly or implicitly forces the simulated data to adapt to the noisy real data when training grasp detectors, where the positional drift and structural distortion within the camera noise will harm the grasp learning. In this work, we propose a Real-to-Sim framework for 6-DoF Grasp detection, named R2SGrasp, with the key insight of bridging this gap in a real-to-sim way, which directly bypasses the camera noise in grasp detector training through an inference-time real-to-sim adaption. To achieve this real-to-sim adaptation, our R2SGrasp designs the Real-to-Sim Data Repairer (R2SRepairer) to mitigate the camera noise of real depth maps in data-level, and the Real-to-Sim Feature Enhancer (R2SEnhancer) to enhance real features with precise simulated geometric primitives in feature-level. To endow our framework with the generalization ability, we construct a large-scale simulated dataset cost-efficiently to train our grasp detector, which includes 64,000 RGB-D images with 14.4 million grasp annotations. Sufficient experiments show that R2SGrasp is powerful and our real-to-sim perspective is effective. The real-world experiments further show great generalization ability of R2SGrasp. Project page is available on https://isee-laboratory.github.io/R2SGrasp.

arxiv情報

著者 Jia-Feng Cai,Zibo Chen,Xiao-Ming Wu,Jian-Jian Jiang,Yi-Lin Wei,Wei-Shi Zheng
発行日 2024-10-09 03:49:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする