3D-Mem: 3D Scene Memory for Embodied Exploration and Reasoning

要約

コンパクトで情報量の多い3Dシーン表現を構築することは、特に長時間に渡る複雑な環境において、効果的な具現化された探索と推論に不可欠である。オブジェクト中心の3Dシーングラフのような既存の表現は、限定的なテキスト関係を持つ孤立したオブジェクトとしてシーンをモデル化することで、空間的関係を単純化しすぎており、微妙な空間的理解を必要とするクエリに対処することを困難にしている。さらに、これらの表現は、能動的な探索とメモリ管理のための自然なメカニズムを欠いており、生涯自律への応用を妨げている。本研究では、具現化エージェントのための新しい3Dシーンメモリフレームワークである3D-Memを提案する。3D-Memは、シーンを表現し、探索された領域の豊富な視覚情報を取得するために、メモリスナップショットと呼ばれる情報量の多いマルチビュー画像を用いる。さらに、フロンティア・スナップショット(未探索領域を垣間見る)を導入することで、フロンティアベースの探索を統合し、エージェントが既知の情報と潜在的な新しい情報の両方を考慮することで、情報に基づいた意思決定を行うことを可能にします。アクティブな探索環境における生涯メモリをサポートするために、3D-Memのインクリメンタルな構築パイプラインと、メモリ管理のためのメモリ検索技術を紹介する。3つのベンチマークを用いた実験結果は、3D-Memが3D環境におけるエージェントの探索と推論能力を著しく向上させることを実証し、具現化AIにおけるアプリケーションを前進させる可能性を強調する。

要約(オリジナル)

Constructing compact and informative 3D scene representations is essential for effective embodied exploration and reasoning, especially in complex environments over extended periods. Existing representations, such as object-centric 3D scene graphs, oversimplify spatial relationships by modeling scenes as isolated objects with restrictive textual relationships, making it difficult to address queries requiring nuanced spatial understanding. Moreover, these representations lack natural mechanisms for active exploration and memory management, hindering their application to lifelong autonomy. In this work, we propose 3D-Mem, a novel 3D scene memory framework for embodied agents. 3D-Mem employs informative multi-view images, termed Memory Snapshots, to represent the scene and capture rich visual information of explored regions. It further integrates frontier-based exploration by introducing Frontier Snapshots-glimpses of unexplored areas-enabling agents to make informed decisions by considering both known and potential new information. To support lifelong memory in active exploration settings, we present an incremental construction pipeline for 3D-Mem, as well as a memory retrieval technique for memory management. Experimental results on three benchmarks demonstrate that 3D-Mem significantly enhances agents’ exploration and reasoning capabilities in 3D environments, highlighting its potential for advancing applications in embodied AI.

arxiv情報

著者 Yuncong Yang,Han Yang,Jiachen Zhou,Peihao Chen,Hongxin Zhang,Yilun Du,Chuang Gan
発行日 2025-04-04 06:02:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.RO | 3D-Mem: 3D Scene Memory for Embodied Exploration and Reasoning はコメントを受け付けていません

Natural Multimodal Fusion-Based Human-Robot Interaction: Application With Voice and Deictic Posture via Large Language Model

要約

高齢化社会におけるサービスロボットの将来にとって、人間の意図をロボットのコマンドに変換することは極めて重要である。ジェスチャーや言語による命令に頼った既存の人間とロボットのインタラクション(HRI)システムは、複雑な構文や手話が難しいため、高齢者には実用的ではない。この課題に対処するため、本論文では、音声と指示的姿勢情報を組み合わせて、より自然なHRIシステムを構築するマルチモーダルインタラクションのフレームワークを紹介する。視覚的な手がかりは、まず環境の全体的な理解を得るために物体検出モデルによって処理され、次に奥行き情報に基づいてバウンディングボックスが推定される。音声からテキストへのコマンドと時間的に整列された選択されたバウンディングボックスを持つ大規模言語モデル(LLM)を使用することにより、ロボットの行動シーケンスを生成することができ、潜在的なLLMの幻覚の問題を回避するために主要な制御構文制約が適用される。このシステムは、Universal Robots UR3eマニピュレータを用いて、様々な複雑さの実世界タスクで評価された。本手法は、HRIにおいて、精度と頑健性の点で著しく優れた性能を示す。研究コミュニティと一般の人々のために、我々はコードと設計をオープンソースにする予定である。

要約(オリジナル)

Translating human intent into robot commands is crucial for the future of service robots in an aging society. Existing Human-Robot Interaction (HRI) systems relying on gestures or verbal commands are impractical for the elderly due to difficulties with complex syntax or sign language. To address the challenge, this paper introduces a multi-modal interaction framework that combines voice and deictic posture information to create a more natural HRI system. The visual cues are first processed by the object detection model to gain a global understanding of the environment, and then bounding boxes are estimated based on depth information. By using a large language model (LLM) with voice-to-text commands and temporally aligned selected bounding boxes, robot action sequences can be generated, while key control syntax constraints are applied to avoid potential LLM hallucination issues. The system is evaluated on real-world tasks with varying levels of complexity using a Universal Robots UR3e manipulator. Our method demonstrates significantly better performance in HRI in terms of accuracy and robustness. To benefit the research community and the general public, we will make our code and design open-source.

arxiv情報

著者 Yuzhi Lai,Shenghai Yuan,Youssef Nassar,Mingyu Fan,Atmaraaj Gopal,Arihiro Yorita,Naoyuki Kubota,Matthias Rätsch
発行日 2025-04-04 06:14:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.RO | Natural Multimodal Fusion-Based Human-Robot Interaction: Application With Voice and Deictic Posture via Large Language Model はコメントを受け付けていません

Seeing is Believing: Belief-Space Planning with Foundation Models as Uncertainty Estimators

要約

オープンワールド環境における一般化可能なロボットの移動操作は、長い視野、複雑な目標、部分的な観測可能性などのために、大きな課題を提起する。これらの課題に対処するための有望なアプローチは、パラメータ化されたスキルのライブラリを用いた計画であり、タスクプランナは、シンボリックファクト上の論理式のような構造化言語で指定された目標を達成するために、これらのスキルをシーケンスする。視覚言語モデル(VLM)はこれらの式の根拠付けに使用できるが、しばしば完全な観測可能性を仮定するため、エージェントが事実を確実に評価するのに十分な情報がない場合、最適でない振る舞いにつながる。本稿では、VLMを知覚モジュールとして活用することで、不確実性を推定し、記号的な根拠付けを容易にする新しいフレームワークを紹介する。我々のアプローチは記号的な信念表現を構築し、戦略的な情報収集を組み込んだ不確実性を考慮した計画を生成するために信念空間プランナを用いる。これにより、エージェントは部分的な観測可能性と特性の不確実性を効果的に推論することができる。我々は、部分的に観測可能な環境における推論を必要とする、様々な困難な実世界タスクにおいて我々のシステムを実証した。シミュレーション評価により、我々のアプローチは、戦略的情報収集を計画し実行することで、バニラVLMベースのエンド・ツー・エンド計画やVLMベースの状態推定ベースラインの両方を凌駕することが示された。本研究は、不確実性を考慮したプランニングのような下流のタスクを可能にする、信念空間シンボリックシーン表現を構築するVLMの可能性を強調する。

要約(オリジナル)

Generalizable robotic mobile manipulation in open-world environments poses significant challenges due to long horizons, complex goals, and partial observability. A promising approach to address these challenges involves planning with a library of parameterized skills, where a task planner sequences these skills to achieve goals specified in structured languages, such as logical expressions over symbolic facts. While vision-language models (VLMs) can be used to ground these expressions, they often assume full observability, leading to suboptimal behavior when the agent lacks sufficient information to evaluate facts with certainty. This paper introduces a novel framework that leverages VLMs as a perception module to estimate uncertainty and facilitate symbolic grounding. Our approach constructs a symbolic belief representation and uses a belief-space planner to generate uncertainty-aware plans that incorporate strategic information gathering. This enables the agent to effectively reason about partial observability and property uncertainty. We demonstrate our system on a range of challenging real-world tasks that require reasoning in partially observable environments. Simulated evaluations show that our approach outperforms both vanilla VLM-based end-to-end planning or VLM-based state estimation baselines by planning for and executing strategic information gathering. This work highlights the potential of VLMs to construct belief-space symbolic scene representations, enabling downstream tasks such as uncertainty-aware planning.

arxiv情報

著者 Linfeng Zhao,Willie McClinton,Aidan Curtis,Nishanth Kumar,Tom Silver,Leslie Pack Kaelbling,Lawson L. S. Wong
発行日 2025-04-04 07:48:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.RO | Seeing is Believing: Belief-Space Planning with Foundation Models as Uncertainty Estimators はコメントを受け付けていません

Robot Localization Using a Learned Keypoint Detector and Descriptor with a Floor Camera and a Feature Rich Industrial Floor

要約

移動ロボットのローカライゼーションは、環境からの優れた特徴の利用可能性に依存する。ライダーのようなセンサーシステムは一般的であるが、地面の画像からユニークな特徴を抽出することもできる。この研究では、ディープニューラルネットワークを利用することで、読み取り可能なマーカーがなくても正確な定位が行えるよう、産業用フロアから十分な特徴を抽出するKeypoint Localization Framework(KOALA)を紹介する。この目的のために、一般的な工業用床と同程度に安価に製造可能な床材を使用する。フィルタリング、事前情報、時間情報を一切使用しないが、平均位置誤差2cm、回転誤差2.4%で、全画像の75.7%で位置を推定できる。このように、ロボットの誘拐問題は、ロボットが移動中でも、全てのフレームにおいて高精度で解くことができる。さらに、我々の検出器と記述子の組み合わせによるフレームワークが、同等のアプローチを凌駕できることを示す。

要約(オリジナル)

The localization of moving robots depends on the availability of good features from the environment. Sensor systems like Lidar are popular, but unique features can also be extracted from images of the ground. This work presents the Keypoint Localization Framework (KOALA), which utilizes deep neural networks that extract sufficient features from an industrial floor for accurate localization without having readable markers. For this purpose, we use a floor covering that can be produced as cheaply as common industrial floors. Although we do not use any filtering, prior, or temporal information, we can estimate our position in 75.7 % of all images with a mean position error of 2 cm and a rotation error of 2.4 %. Thus, the robot kidnapping problem can be solved with high precision in every frame, even while the robot is moving. Furthermore, we show that our framework with our detector and descriptor combination is able to outperform comparable approaches.

arxiv情報

著者 Piet Brömmel,Dominik Brämer,Oliver Urbann,Diana Kleingarn
発行日 2025-04-04 08:00:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.RO | Robot Localization Using a Learned Keypoint Detector and Descriptor with a Floor Camera and a Feature Rich Industrial Floor はコメントを受け付けていません

Gradient Field-Based Dynamic Window Approach for Collision Avoidance in Complex Environments

要約

本論文では、マルチロボットシステムにおける安全で柔軟なナビゲーションのために、複雑な環境下でのサンプリングに基づく軌道計画手法を強化し、予測可能な手法として、勾配場に基づく動的窓アプローチ(GF-DWA)を提案する。提案手法はダイナミックウィンドウアプローチをベースに、潜在的な衝突を予測するための新たなコスト項として障害物距離の勾配情報を利用する。この強化により、ロボットは非凸形状を含む障害物に対する認識を向上させることができる。勾配場はガウス過程距離場から導出され、ガウス過程回帰を活用して環境の空間構造をモデル化することにより、距離場と勾配場の両方を生成する。いくつかの障害物回避や船団衝突回避のシナリオを通して、提案するGF-DWAは、特に非凸障害物を含む複雑な環境において、安全性と柔軟性の点で他の一般的な軌道計画・制御手法を凌駕することが示される。

要約(オリジナル)

For safe and flexible navigation in multi-robot systems, this paper presents an enhanced and predictive sampling-based trajectory planning approach in complex environments, the Gradient Field-based Dynamic Window Approach (GF-DWA). Building upon the dynamic window approach, the proposed method utilizes gradient information of obstacle distances as a new cost term to anticipate potential collisions. This enhancement enables the robot to improve awareness of obstacles, including those with non-convex shapes. The gradient field is derived from the Gaussian process distance field, which generates both the distance field and gradient field by leveraging Gaussian process regression to model the spatial structure of the environment. Through several obstacle avoidance and fleet collision avoidance scenarios, the proposed GF-DWA is shown to outperform other popular trajectory planning and control methods in terms of safety and flexibility, especially in complex environments with non-convex obstacles.

arxiv情報

著者 Ze Zhang,Yifan Xue,Nadia Figueroa,Knut Åkesson
発行日 2025-04-04 08:19:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.RO, cs.SY, eess.SY | Gradient Field-Based Dynamic Window Approach for Collision Avoidance in Complex Environments はコメントを受け付けていません

Precise Interception Flight Targets by Image-based Visual Servoing of Multicopter

要約

ストラップダウンカメラを搭載したマルチコプタを用いたビジョンベースの迎撃は、カメラとモーションの結合や回避的なターゲットのために困難である。本論文では、画像ベースビジュアルサーボ(IBVS)と比例航法ガイダンス(PNG)を統合した方法を提案し、インターセプトの最終段階におけるマルチコプターの過負荷を軽減する。IBVSコントローラによる滑らかな軌道と、遅延カルマンフィルタ(DKF)による高周波の目標2次元位置推定を組み合わせることで、画像処理の遅延が精度に与える影響を最小化する。さらに、ビジュアルサーボシステムの安定性を確保するために、視野(FOV)保持コントローラが設計されている。実験結果は、シミュレーションでは円誤差確率(CEP)が0.089m(最新の関連IBVS研究より72.8%低い)、実世界では4m/s以下の風条件下で80%以上の迎撃成功を示している。これらの結果は、非協力的な標的を低空で正確に迎撃するシステムの可能性を示している。

要約(オリジナル)

Vision-based interception using multicopters equipped strapdown camera is challenging due to camera-motion coupling and evasive targets. This paper proposes a method integrating Image-Based Visual Servoing (IBVS) with proportional navigation guidance (PNG), reducing the multicopter’s overload in the final interception phase. It combines smoother trajectories from the IBVS controller with high-frequency target 2D position estimation via a delayed Kalman filter (DKF) to minimize the impact of image processing delays on accuracy. In addition, a field-of-view (FOV) holding controller is designed for stability of the visual servo system. Experimental results show a circular error probability (CEP) of 0.089 m (72.8% lower than the latest relevant IBVS work) in simulations and over 80\% interception success under wind conditions below 4 m/s in real world. These results demonstrate the system’s potential for precise low-altitude interception of non-cooperative targets.

arxiv情報

著者 Hailong Yan,Kun Yang,Yixiao Cheng,Zihao Wang,Dawei Li
発行日 2025-04-04 08:50:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.RO | Precise Interception Flight Targets by Image-based Visual Servoing of Multicopter はコメントを受け付けていません

Dynamic Objective MPC for Motion Planning of Seamless Docking Maneuvers

要約

自動運転車や物流ロボットは、しばしば狭い環境において、荷物や充電ステーションなどの特定のターゲットの前に高精度で位置決めする必要があります。多くの場合、このようなドッキングシナリオは2つのステップで解決されます:経路追跡と大まかな位置決めの後、高精度の動作計画アルゴリズムが続きます。これは、最初の段階での不適切な位置決めにより、最適でない軌道を生成する可能性があり、したがって、ゴールに到達するのにかかる時間を長引かせる。本研究では、モデル予測制御(Model Predictive Control:MPCC)とデカルトMPCの利点を統合した、特定のゴールポーズに到達するための統一的なアプローチを提案する。本論文の主な貢献は、ドライビングコリドー内のパスエンドとゴールポーズに到達するための動的重み割り当て法の適応と、いわゆる動的目的MPCの開発である。後者は動的重み割り当て法の改良であり、MPCCからデカルトMPCへの状態依存的な切り替えを本質的に行い、1つのアルゴリズムでシームレスにゴールポーズの位置に依存せずに経路追従問題と高精度位置決めタスクを解くことができる。これにより、先見の明があり、実行可能で安全な運動計画を導き、ミッション時間を短縮し、より滑らかな軌道を得ることができる。

要約(オリジナル)

Automated vehicles and logistics robots must often position themselves in narrow environments with high precision in front of a specific target, such as a package or their charging station. Often, these docking scenarios are solved in two steps: path following and rough positioning followed by a high-precision motion planning algorithm. This can generate suboptimal trajectories caused by bad positioning in the first phase and, therefore, prolong the time it takes to reach the goal. In this work, we propose a unified approach, which is based on a Model Predictive Control (MPC) that unifies the advantages of Model Predictive Contouring Control (MPCC) with a Cartesian MPC to reach a specific goal pose. The paper’s main contributions are the adaption of the dynamic weight allocation method to reach path ends and goal poses inside driving corridors, and the development of the so-called dynamic objective MPC. The latter is an improvement of the dynamic weight allocation method, which can inherently switch state-dependent from an MPCC to a Cartesian MPC to solve the path-following problem and the high-precision positioning tasks independently of the location of the goal pose seamlessly by one algorithm. This leads to foresighted, feasible, and safe motion plans, which can decrease the mission time and result in smoother trajectories.

arxiv情報

著者 Oliver Schumann,Michael Buchholz,Klaus Dietmayer
発行日 2025-04-04 09:05:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.RO, cs.SY, eess.SY | Dynamic Objective MPC for Motion Planning of Seamless Docking Maneuvers はコメントを受け付けていません

SGBA: Semantic Gaussian Mixture Model-Based LiDAR Bundle Adjustment

要約

LiDARバンドル調整(BA)は、フロントエンドからの姿勢推定におけるドリフトを低減するための効果的なアプローチです。LiDAR BAに関する既存の研究は通常、ランドマーク表現のために事前に定義された幾何学的特徴に依存しています。この依存は、これらの特定の特徴が存在しない環境ではシステムが必然的に劣化するため、汎用性を制限する。この問題に対処するため、我々はSGBAを提案する。SGBAは、あらかじめ定義された特徴タイプを持たない意味的ガウス混合モデル(GMM)として環境をモデル化するLiDAR BA方式である。このアプローチは、幾何学的情報と意味的情報の両方をエンコードし、様々な環境に適応可能な包括的かつ一般的な表現を提供します。さらに、汎用性を確保しつつ計算量を制限するために、コスト関数の条件数を評価することにより、最適化のために最も情報量の多い意味クラスタを選択する適応的意味選択フレームワークを提案する。最後に、割り当ての確率密度全体を考慮する確率論的特徴関連付けスキームを導入することで、計測や初期姿勢推定における不確実性を管理することができる。我々は様々な実験を行い、その結果、SGBAが、低品質な初期ポーズ推定や限られた幾何学的特徴を持つ困難なシナリオにおいても、正確で頑健なポーズ精密化を達成できることを実証した。我々は、コミュニティ(https://github.com/Ji1Xinyu/SGBA)の利益のために、この研究をオープンソース化する予定である。

要約(オリジナル)

LiDAR bundle adjustment (BA) is an effective approach to reduce the drifts in pose estimation from the front-end. Existing works on LiDAR BA usually rely on predefined geometric features for landmark representation. This reliance restricts generalizability, as the system will inevitably deteriorate in environments where these specific features are absent. To address this issue, we propose SGBA, a LiDAR BA scheme that models the environment as a semantic Gaussian mixture model (GMM) without predefined feature types. This approach encodes both geometric and semantic information, offering a comprehensive and general representation adaptable to various environments. Additionally, to limit computational complexity while ensuring generalizability, we propose an adaptive semantic selection framework that selects the most informative semantic clusters for optimization by evaluating the condition number of the cost function. Lastly, we introduce a probabilistic feature association scheme that considers the entire probability density of assignments, which can manage uncertainties in measurement and initial pose estimation. We have conducted various experiments and the results demonstrate that SGBA can achieve accurate and robust pose refinement even in challenging scenarios with low-quality initial pose estimation and limited geometric features. We plan to open-source the work for the benefit of the community https://github.com/Ji1Xinyu/SGBA.

arxiv情報

著者 Xingyu Ji,Shenghai Yuan,Jianping Li,Pengyu Yin,Haozhi Cao,Lihua Xie
発行日 2025-04-04 10:33:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.RO | SGBA: Semantic Gaussian Mixture Model-Based LiDAR Bundle Adjustment はコメントを受け付けていません

Evolution 6.0: Evolving Robotic Capabilities Through Generative Design

要約

私たちは、ジェネレーティブAIによって駆動されるロボット工学の進化を表す、新しいコンセプト「エボリューション6.0」を提案する。ロボットが人間から要求されたタスクを達成するために必要な道具が不足している場合、ロボットは自律的に必要な道具を設計し、目標を達成するための道具の使い方を学習する。エボリューション6.0は、視覚言語モデル(VLM)、視覚言語アクション(VLA)モデル、および道具の設計とタスク実行のためのテキストから3Dへの生成モデルによって駆動される自律ロボットシステムである。このシステムは2つの主要なモジュールから構成される。視覚とテキストデータからタスクに特化したツールを作成するツール生成モジュールと、自然言語の指示をロボットのアクションに変換するアクション生成モジュールである。環境理解のためのQwenVLM、タスク実行のためのOpenVLA、3Dツール生成のためのLlama-Meshが統合されている。評価結果は、10秒の推論時間で90%の道具生成成功率を示し、行動生成は物理的・視覚的汎化で83.5%、動作汎化で70%、意味的汎化で37%を達成した。今後の改良点としては、実世界への適応性を向上させるため、両手操作、タスク機能の拡張、環境解釈の強化に焦点を当てる。

要約(オリジナル)

We propose a new concept, Evolution 6.0, which represents the evolution of robotics driven by Generative AI. When a robot lacks the necessary tools to accomplish a task requested by a human, it autonomously designs the required instruments and learns how to use them to achieve the goal. Evolution 6.0 is an autonomous robotic system powered by Vision-Language Models (VLMs), Vision-Language Action (VLA) models, and Text-to-3D generative models for tool design and task execution. The system comprises two key modules: the Tool Generation Module, which fabricates task-specific tools from visual and textual data, and the Action Generation Module, which converts natural language instructions into robotic actions. It integrates QwenVLM for environmental understanding, OpenVLA for task execution, and Llama-Mesh for 3D tool generation. Evaluation results demonstrate a 90% success rate for tool generation with a 10-second inference time, and action generation achieving 83.5% in physical and visual generalization, 70% in motion generalization, and 37% in semantic generalization. Future improvements will focus on bimanual manipulation, expanded task capabilities, and enhanced environmental interpretation to improve real-world adaptability.

arxiv情報

著者 Muhammad Haris Khan,Artyom Myshlyaev,Artem Lykov,Miguel Altamirano Cabrera,Dzmitry Tsetserukou
発行日 2025-04-04 10:42:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.NE, cs.RO | Evolution 6.0: Evolving Robotic Capabilities Through Generative Design はコメントを受け付けていません

AV-PedAware: Self-Supervised Audio-Visual Fusion for Dynamic Pedestrian Awareness

要約

本研究では、ロボットアプリケーションのための動的歩行者認識を改善するために設計された自己教師付きオーディオビジュアル融合システムであるAV-PedAwareを紹介する。歩行者認識は、多くのロボットアプリケーションにおいて重要な要件である。しかし、複数のビューをカバーするカメラやLIDARに依存する従来のアプローチは、高価であり、照明、オクルージョン、天候条件の変化などの問題の影響を受けやすい。我々の提案するソリューションは、低コストの音声と視覚のフュージョンを用いて、3D歩行者検出のための人間の知覚を再現する。この研究は、周辺の歩行者の動きを予測する目的で、足音を監視するためにオーディオビジュアル・フュージョンを採用する最初の試みである。このシステムは、LIDARによって生成されたラベルに基づく自己教師あり学習によって訓練され、LIDARベースの歩行者認識に代わる費用対効果の高いものとなっている。AV-PedAwareは、LIDARベースのシステムと同等の結果をわずかなコストで達成する。注意メカニズムを利用することで、従来のLIDARやカメラベースのシステムの限界を克服し、動的な照明やオクルージョンを扱うことができます。本アプローチの有効性を評価するために、我々は新しいマルチモーダル歩行者検出データセットを収集し、極端な視覚条件下でも、音声と視覚データのみを用いて信頼性の高い3D検出結果を提供するシステムの能力を実証する実験を行った。我々は、収集したデータセットとソースコードをコミュニティ向けにオンラインで公開し、ロボット知覚システムの分野でのさらなる発展を促す予定である。

要約(オリジナル)

In this study, we introduce AV-PedAware, a self-supervised audio-visual fusion system designed to improve dynamic pedestrian awareness for robotics applications. Pedestrian awareness is a critical requirement in many robotics applications. However, traditional approaches that rely on cameras and LIDARs to cover multiple views can be expensive and susceptible to issues such as changes in illumination, occlusion, and weather conditions. Our proposed solution replicates human perception for 3D pedestrian detection using low-cost audio and visual fusion. This study represents the first attempt to employ audio-visual fusion to monitor footstep sounds for the purpose of predicting the movements of pedestrians in the vicinity. The system is trained through self-supervised learning based on LIDAR-generated labels, making it a cost-effective alternative to LIDAR-based pedestrian awareness. AV-PedAware achieves comparable results to LIDAR-based systems at a fraction of the cost. By utilizing an attention mechanism, it can handle dynamic lighting and occlusions, overcoming the limitations of traditional LIDAR and camera-based systems. To evaluate our approach’s effectiveness, we collected a new multimodal pedestrian detection dataset and conducted experiments that demonstrate the system’s ability to provide reliable 3D detection results using only audio and visual data, even in extreme visual conditions. We will make our collected dataset and source code available online for the community to encourage further development in the field of robotics perception systems.

arxiv情報

著者 Yizhuo Yang,Shenghai Yuan,Muqing Cao,Jianfei Yang,Lihua Xie
発行日 2025-04-04 10:55:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.RO | AV-PedAware: Self-Supervised Audio-Visual Fusion for Dynamic Pedestrian Awareness はコメントを受け付けていません