Deep learning framework for action prediction reveals multi-timescale locomotor control

要約

現実世界のタスクにおけるモデリングの動きは、運動制御、生体力学、リハビリテーション工学の基本的な目標です。
ただし、移動などの重要なタスクの広く使用されているデータ駆動型モデルは、過去の入力と将来のアクションの間の線形および固定タイムスケールマッピングなど、現実世界のコンテキストに一般化されない将来のアクションなどの単純化された仮定を作成します。
ここでは、アーキテクチャ依存の試行埋め込み、コンテキスト(ウォーキングとランニング、トレッドミルと地上、さまざまな地形)と入力モダリティ(複数の身体状態、視線)を超えて従来のモデルを上回る、アクション予測のための深い学習ベースのフレームワークを開発します。
GRUやTransformerなどの柔軟な入力履歴依存性を備えたニューラルネットワークアーキテクチャは、全体的に最高のパフォーマンスを発揮することがわかります。
自己回帰ベースラインに対するモデルの予測を定量化することにより、コンテキストとモダリティ依存のタイムスケールを特定します。
これらの分析は、複雑な地形での急速な予測に大きく依存していることを明らかにし、視線は身体状態の前に将来の足の配置を予測し、全身状態の予測は中央に関連する状態に先行するものです。
アクション予測のためのこの深い学習フレームワークは、現実世界の移動の制御に関する定量化可能な洞察を提供し、他のアクション、コンテキスト、および集団に拡張できます。

要約(オリジナル)

Modeling movement in real-world tasks is a fundamental goal for motor control, biomechanics, and rehabilitation engineering. However, widely used data-driven models of essential tasks like locomotion make simplifying assumptions such as linear and fixed timescale mappings between past inputs and future actions, which do not generalize to real-world contexts. Here, we develop a deep learning-based framework for action prediction with architecture-dependent trial embeddings, outperforming traditional models across contexts (walking and running, treadmill and overground, varying terrains) and input modalities (multiple body states, gaze). We find that neural network architectures with flexible input history-dependence like GRU and Transformer perform best overall. By quantifying the model’s predictions relative to an autoregressive baseline, we identify context- and modality-dependent timescales. These analyses reveal that there is greater reliance on fast-timescale predictions in complex terrain, gaze predicts future foot placement before body states, and the full-body state predictions precede those by center-of-mass-relevant states. This deep learning framework for action prediction provides quantifiable insights into the control of real-world locomotion and can be extended to other actions, contexts, and populations.

arxiv情報

著者 Wei-Chen Wang,Antoine De Comite,Alexandra Voloshina,Monica Daley,Nidhi Seethapathi
発行日 2025-03-25 04:50:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | Deep learning framework for action prediction reveals multi-timescale locomotor control はコメントを受け付けていません

AutoURDF: Unsupervised Robot Modeling from Point Cloud Frames Using Cluster Registration

要約

ロボットの説明モデルはシミュレーションと制御に不可欠ですが、それらの作成には多くの場合、重要な手動の努力が必要です。
このモデリングプロセスを合理化するために、Pointクラウドフレームから目に見えないロボットの説明ファイルを構築するための監視されていないアプローチであるAutourDFを紹介します。
この方法では、ポイントクラスターの6-DOF変換を追跡するクラスターベースのポイントクラウド登録モデルを活用します。
クラスターの動きを分析することにより、次の課題に階層的に対処します。(1)移動部のセグメンテーション、(2)身体トポロジ推論、および(3)ジョイントパラメーターの推定。
完全なパイプラインは、既存のシミュレーターと完全に互換性のあるロボット説明ファイルを生成します。
合成スキャンデータと現実世界の両方のスキャンデータを使用して、さまざまなロボット全体でメソッドを検証します。
結果は、私たちのアプローチが登録および身体トポロジの推定精度の以前の方法よりも優れており、自動ロボットモデリングのためのスケーラブルなソリューションを提供することを示しています。

要約(オリジナル)

Robot description models are essential for simulation and control, yet their creation often requires significant manual effort. To streamline this modeling process, we introduce AutoURDF, an unsupervised approach for constructing description files for unseen robots from point cloud frames. Our method leverages a cluster-based point cloud registration model that tracks the 6-DoF transformations of point clusters. Through analyzing cluster movements, we hierarchically address the following challenges: (1) moving part segmentation, (2) body topology inference, and (3) joint parameter estimation. The complete pipeline produces robot description files that are fully compatible with existing simulators. We validate our method across a variety of robots, using both synthetic and real-world scan data. Results indicate that our approach outperforms previous methods in registration and body topology estimation accuracy, offering a scalable solution for automated robot modeling.

arxiv情報

著者 Jiong Lin,Lechen Zhang,Kwansoo Lee,Jialong Ning,Judah Goldfeder,Hod Lipson
発行日 2025-03-25 05:43:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | AutoURDF: Unsupervised Robot Modeling from Point Cloud Frames Using Cluster Registration はコメントを受け付けていません

RoboBrain: A Unified Brain Model for Robotic Manipulation from Abstract to Concrete

要約

マルチモーダル大手言語モデル(MLLM)の最近の進歩は、さまざまなマルチモーダルコンテキストで顕著な機能を示しています。
ただし、特に長老操作タスクのためのロボットシナリオへのアプリケーションは、大きな制限を明らかにしています。
これらの制限は、3つの重要なロボット脳機能を欠いている現在のMLLMから生じます。計画能力は、複雑な操作命令を管理可能なサブタスクに分解することを伴います。
アフォーダンスの認識、インタラクティブオブジェクトのアフォーダンスを認識して解釈する能力。
軌跡の予測である、成功した実行に必要な完全な操作軌跡を予測する先見性。
ロボットの脳のコア機能を抽象からコンクリートまで強化するために、タスク計画、オブジェクトアフォーダンス、エンドエフェクターの軌道などの多次元情報をラベル付けする高品質の不均一なデータセットであるSharerobotを紹介します。
Sharerobotの多様性と精度は、3人の人間のアノテーターによって細心の注意を払って洗練されています。
このデータセットに基づいて、ロボットと一般的なマルチモーダルデータを組み合わせたMLLMベースのモデルであるRoboBrainを開発し、マルチステージトレーニング戦略を利用し、ロボット操作機能を改善するために長いビデオと高解像度画像を組み込んでいます。
広範な実験は、ロボブレインがさまざまなロボットタスクにわたって最先端のパフォーマンスを達成し、ロボット脳の能力を向上させる可能性を強調することを示しています。

要約(オリジナル)

Recent advancements in Multimodal Large Language Models (MLLMs) have shown remarkable capabilities across various multimodal contexts. However, their application in robotic scenarios, particularly for long-horizon manipulation tasks, reveals significant limitations. These limitations arise from the current MLLMs lacking three essential robotic brain capabilities: Planning Capability, which involves decomposing complex manipulation instructions into manageable sub-tasks; Affordance Perception, the ability to recognize and interpret the affordances of interactive objects; and Trajectory Prediction, the foresight to anticipate the complete manipulation trajectory necessary for successful execution. To enhance the robotic brain’s core capabilities from abstract to concrete, we introduce ShareRobot, a high-quality heterogeneous dataset that labels multi-dimensional information such as task planning, object affordance, and end-effector trajectory. ShareRobot’s diversity and accuracy have been meticulously refined by three human annotators. Building on this dataset, we developed RoboBrain, an MLLM-based model that combines robotic and general multi-modal data, utilizes a multi-stage training strategy, and incorporates long videos and high-resolution images to improve its robotic manipulation capabilities. Extensive experiments demonstrate that RoboBrain achieves state-of-the-art performance across various robotic tasks, highlighting its potential to advance robotic brain capabilities.

arxiv情報

著者 Yuheng Ji,Huajie Tan,Jiayu Shi,Xiaoshuai Hao,Yuan Zhang,Hengyuan Zhang,Pengwei Wang,Mengdi Zhao,Yao Mu,Pengju An,Xinda Xue,Qinghang Su,Huaihai Lyu,Xiaolong Zheng,Jiaming Liu,Zhongyuan Wang,Shanghang Zhang
発行日 2025-03-25 05:46:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | RoboBrain: A Unified Brain Model for Robotic Manipulation from Abstract to Concrete はコメントを受け付けていません

Quality-focused Active Adversarial Policy for Safe Grasping in Human-Robot Interaction

要約

深いニューラルネットワーク(DNNS)に基づいた視覚誘導ロボットの把握方法は、強力な一般化に起因する未知のオブジェクトの処理において顕著な成功を収めています。
ただし、この一般化を備えたこれらの方法は、人間の手とその隣接するオブジェクトを把握可能なターゲットとして認識する傾向があり、人間とロボットの相互作用(HRI)中の安全性を損ないます。
この作業では、この問題を解決するために、品質に焦点を当てたアクティブな敵対的政策(QFAAP)を提案します。
具体的には、最初の部分は敵対的な品質パッチ(AQP)です。ここでは、敵対的な品質パッチ損失を設計し、把握データセットを活用して高品質のスコアでパッチを最適化します。
次に、投影された品質勾配降下(PQGD)を構築し、各リアルタイムフレーム内のハンド領域のみを含むAQPと統合し、AQPに人間の手の形に迅速に適応性を与えます。
AQPとPQGDを介して、手は周囲のオブジェクトと積極的に敵対的であり、品質スコアを下げます。
したがって、ハンドの品質スコアをさらにゼロに設定すると、ハンドとその隣接するオブジェクトの両方の把握優先度が低下し、ロボットが緊急停止なしに他のオブジェクトを手から離すことができます。
ベンチマークデータセットとコボットで広範な実験を実施し、QFAAPの有効性を示しています。
コードおよびデモビデオは、https://github.com/clee-jaist/qfaapで入手できます。

要約(オリジナル)

Vision-guided robot grasping methods based on Deep Neural Networks (DNNs) have achieved remarkable success in handling unknown objects, attributable to their powerful generalizability. However, these methods with this generalizability tend to recognize the human hand and its adjacent objects as graspable targets, compromising safety during Human-Robot Interaction (HRI). In this work, we propose the Quality-focused Active Adversarial Policy (QFAAP) to solve this problem. Specifically, the first part is the Adversarial Quality Patch (AQP), wherein we design the adversarial quality patch loss and leverage the grasp dataset to optimize a patch with high quality scores. Next, we construct the Projected Quality Gradient Descent (PQGD) and integrate it with the AQP, which contains only the hand region within each real-time frame, endowing the AQP with fast adaptability to the human hand shape. Through AQP and PQGD, the hand can be actively adversarial with the surrounding objects, lowering their quality scores. Therefore, further setting the quality score of the hand to zero will reduce the grasping priority of both the hand and its adjacent objects, enabling the robot to grasp other objects away from the hand without emergency stops. We conduct extensive experiments on the benchmark datasets and a cobot, showing the effectiveness of QFAAP. Our code and demo videos are available here: https://github.com/clee-jaist/QFAAP.

arxiv情報

著者 Chenghao Li,Razvan Beuran,Nak Young Chong
発行日 2025-03-25 07:09:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Quality-focused Active Adversarial Policy for Safe Grasping in Human-Robot Interaction はコメントを受け付けていません

RoboSpatial: Teaching Spatial Understanding to 2D and 3D Vision-Language Models for Robotics

要約

空間的理解とは、ロボットが周囲、環境についての理由を認識し、それと意味的に相互作用できるようにする重要な能力です。
現代のロボット工学では、これらの機能はビジョン言語モデルによってますます提供されています。
ただし、これらのモデルは、トレーニングデータが洗練された空間的理解を欠く汎用画像データセットに基づいているため、空間推論タスクの重要な課題に直面しています。
たとえば、データセットは参照フレームの理解をキャプチャしないことがよくありますが、効果的な空間的推論では、自我、世界、またはオブジェクト中心の視点から推論するかどうかを理解する必要があります。
この問題に対処するために、ロボット工学における空間的理解のための大規模なデータセットであるRobospatialを紹介します。
これは、実際の屋内および卓上シーンで構成され、3Dスキャンとエゴセントリック画像としてキャプチャされ、ロボット工学に関連する豊富な空間情報で注釈が付けられています。
データセットには、1M画像、5K 3Dスキャン、3M注釈付きの空間関係が含まれ、3Dスキャンを使用した2Dエゴセントリック画像のペアリングにより、2Dと3Dの両方の準備ができています。
私たちの実験は、ロボスパシアのアウトパフォーマンスで訓練されたモデルが、空間アフォーダンス予測、空間関係予測、ロボット工学操作などの下流タスクのベースラインをベースラインに変えることを示しています。

要約(オリジナル)

Spatial understanding is a crucial capability that enables robots to perceive their surroundings, reason about their environment, and interact with it meaningfully. In modern robotics, these capabilities are increasingly provided by vision-language models. However, these models face significant challenges in spatial reasoning tasks, as their training data are based on general-purpose image datasets that often lack sophisticated spatial understanding. For example, datasets frequently do not capture reference frame comprehension, yet effective spatial reasoning requires understanding whether to reason from ego-, world-, or object-centric perspectives. To address this issue, we introduce RoboSpatial, a large-scale dataset for spatial understanding in robotics. It consists of real indoor and tabletop scenes, captured as 3D scans and egocentric images, and annotated with rich spatial information relevant to robotics. The dataset includes 1M images, 5k 3D scans, and 3M annotated spatial relationships, and the pairing of 2D egocentric images with 3D scans makes it both 2D- and 3D- ready. Our experiments show that models trained with RoboSpatial outperform baselines on downstream tasks such as spatial affordance prediction, spatial relationship prediction, and robotics manipulation.

arxiv情報

著者 Chan Hee Song,Valts Blukis,Jonathan Tremblay,Stephen Tyree,Yu Su,Stan Birchfield
発行日 2025-03-25 07:49:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.RO | RoboSpatial: Teaching Spatial Understanding to 2D and 3D Vision-Language Models for Robotics はコメントを受け付けていません

G-DexGrasp: Generalizable Dexterous Grasping Synthesis Via Part-Aware Prior Retrieval and Prior-Assisted Generation

要約

器用な握る合成の最近の進歩は、多くのタスクの目的で合理的でもっともらしい握りを生み出す際に大きな進歩を示しています。
しかし、目に見えないオブジェクトカテゴリと多様なタスク命令に一般化することは困難なままです。
この論文では、目に見えないオブジェクトカテゴリと言語ベースのタスク命令のための高品質の器用な手構成を生成できる検索された生成アプローチであるG-DexGraspを提案します。
重要なのは、次の合成パイプラインについて、きめ細かい接触部品や関連するグラッピングインスタンスのアフォーダンス関連の分布を含む、一般化可能な把握前の除去を取得することです。
具体的には、微細に接触した接触部分とアフォーダンスは、生成モデルを使用して目に見えないオブジェクトの合理的な把握構成を推測するための一般化可能なガイダンスとして機能しますが、その後の改良最適化中に合成されたグラスプの妥当性を保証するために、関連する把握分布は正則化として再生されます。
比較実験は、一般化のための主要な設計の有効性を検証し、既存のアプローチに対する顕著なパフォーマンスを実証します。
プロジェクトページ:https://g-dexgrasp.github.io/

要約(オリジナル)

Recent advances in dexterous grasping synthesis have demonstrated significant progress in producing reasonable and plausible grasps for many task purposes. But it remains challenging to generalize to unseen object categories and diverse task instructions. In this paper, we propose G-DexGrasp, a retrieval-augmented generation approach that can produce high-quality dexterous hand configurations for unseen object categories and language-based task instructions. The key is to retrieve generalizable grasping priors, including the fine-grained contact part and the affordance-related distribution of relevant grasping instances, for the following synthesis pipeline. Specifically, the fine-grained contact part and affordance act as generalizable guidance to infer reasonable grasping configurations for unseen objects with a generative model, while the relevant grasping distribution plays as regularization to guarantee the plausibility of synthesized grasps during the subsequent refinement optimization. Our comparison experiments validate the effectiveness of our key designs for generalization and demonstrate the remarkable performance against the existing approaches. Project page: https://g-dexgrasp.github.io/

arxiv情報

著者 Juntao Jian,Xiuping Liu,Zixuan Chen,Manyi Li,Jian Liu,Ruizhen Hu
発行日 2025-03-25 08:46:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | G-DexGrasp: Generalizable Dexterous Grasping Synthesis Via Part-Aware Prior Retrieval and Prior-Assisted Generation はコメントを受け付けていません

MCVO: A Generic Visual Odometry for Arbitrarily Arranged Multi-Cameras

要約

マルチカメラビジュアルスラムシステムをセットアップしやすく、環境により堅牢にすることは、ビジョンロボットにとって魅力的です。
既存の単眼視および両眼視視力系スラムシステムは、狭いセンシングフィールドオブビュー(FOV)を備えており、テクステックのない環境での精度と限られた堅牢性をもたらします。
したがって、マルチカメラスラムシステムは、より広いFOVで冗長性を提供できるため、注目を集めています。
ただし、複数のカメラの通常の任意の配置と向きにより、ポーズスケールの推定とシステムの更新が困難になります。
これらの問題に対処するために、カメラの配置に高い柔軟性を備えたメトリックスケールの状態推定を実現できるMCVO、つまりMCVO、つまりMCVOのための堅牢にバンドルバンドルバンドルされたマルチカメラのための堅牢な視覚臭トメトリシステムを提案します。
具体的には、最初に学習ベースの機能追跡フレームワークを設計して、複数のビデオストリームのCPU処理の圧力をGPUにシフトします。
次に、移動カメラ間の剛性の制約の下で、メトリックスケールのポーズを使用してodometryシステムを初期化します。
最後に、バックエンドでマルチカメラの特徴を融合して、堅牢なポーズ推定とオンラインスケールの最適化を実現します。
さらに、マルチカメラ機能は、ポーズグラフの最適化のループ検出を改善するのに役立ちます。
Kitti-360およびMulticamdataデータセットでの実験では、任意に配置されたカメラよりも堅牢性が検証されます。
他のステレオおよびマルチカメラビジュアルスラムシステムと比較して、この方法では、より良い一般化能力を備えたより高いポーズ精度が得られます。
当社のコードとオンラインデモは、https://github.com/junhaowang615/mcvoで入手できます

要約(オリジナル)

Making multi-camera visual SLAM systems easier to set up and more robust to the environment is attractive for vision robots. Existing monocular and binocular vision SLAM systems have narrow sensing Field-of-View (FoV), resulting in degenerated accuracy and limited robustness in textureless environments. Thus multi-camera SLAM systems are gaining attention because they can provide redundancy with much wider FoV. However, the usual arbitrary placement and orientation of multiple cameras make the pose scale estimation and system updating challenging. To address these problems, we propose a robust visual odometry system for rigidly-bundled arbitrarily-arranged multi-cameras, namely MCVO, which can achieve metric-scale state estimation with high flexibility in the cameras’ arrangement. Specifically, we first design a learning-based feature tracking framework to shift the pressure of CPU processing of multiple video streams to GPU. Then we initialize the odometry system with the metric-scale poses under the rigid constraints between moving cameras. Finally, we fuse the features of the multi-cameras in the back-end to achieve robust pose estimation and online scale optimization. Additionally, multi-camera features help improve the loop detection for pose graph optimization. Experiments on KITTI-360 and MultiCamData datasets validate its robustness over arbitrarily arranged cameras. Compared with other stereo and multi-camera visual SLAM systems, our method obtains higher pose accuracy with better generalization ability. Our codes and online demos are available at https://github.com/JunhaoWang615/MCVO

arxiv情報

著者 Huai Yu,Junhao Wang,Yao He,Wen Yang,Gui-Song Xia
発行日 2025-03-25 08:52:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | MCVO: A Generic Visual Odometry for Arbitrarily Arranged Multi-Cameras はコメントを受け付けていません

RoboMatrix: A Skill-centric Hierarchical Framework for Scalable Robot Task Planning and Execution in Open-World

要約

既存のロボットポリシーは、主にタスク中心のアプローチを採用し、エンドツーエンドのタスクデータ収集を必要とします。
これにより、長老のマルチステージタスク内の特定のエラーの特定の新しいタスクと困難への一般化が限られています。
これに対処するために、オープンワールド環境でスケーラブルなロボットタスクの計画と実行のために設計されたスキル中心の階層的フレームワークであるRobomatrixを提案します。
Robomatrixは、多様な複雑なタスクから一般的なメタスキルを抽出し、スキル構成を通じて目に見えないタスクの完了を可能にします。
そのアーキテクチャは、タスク分解に大規模な言語モデル(LLM)を利用する高レベルのスケジューリングレイヤー、中間スキルレイヤーハウジングメタスキルモデル、ロボット制御用の低レベルのハードウェアレイヤーで構成されています。
私たちの仕事の重要な革新は、1つのモデル内で動きと操作の両方をシームレスに統合できる最初の統一されたビジョン言語アクション(VLA)モデルの導入です。
これは、ビジョンと言語のプロンプトを組み合わせて個別のアクションを生成することによって達成されます。
実験結果は、Robomatrixが、目に見えないオブジェクト、シーン、タスクに適用されると、タスク中心のベースラインよりも50%高い成功率を達成することを示しています。
Open-World Roboticsの調査を進めるために、https://github.com/waynemao/robomatrixでオープンソースコード、ハードウェアデザイン、モデルの重み、およびデータセットを展開します。

要約(オリジナル)

Existing robot policies predominantly adopt the task-centric approach, requiring end-to-end task data collection. This results in limited generalization to new tasks and difficulties in pinpointing errors within long-horizon, multi-stage tasks. To address this, we propose RoboMatrix, a skill-centric hierarchical framework designed for scalable robot task planning and execution in open-world environments. RoboMatrix extracts general meta-skills from diverse complex tasks, enabling the completion of unseen tasks through skill composition. Its architecture consists of a high-level scheduling layer that utilizes large language models (LLMs) for task decomposition, an intermediate skill layer housing meta-skill models, and a low-level hardware layer for robot control. A key innovation of our work is the introduction of the first unified vision-language-action (VLA) model capable of seamlessly integrating both movement and manipulation within one model. This is achieved by combining vision and language prompts to generate discrete actions. Experimental results demonstrate that RoboMatrix achieves a 50% higher success rate than task-centric baselines when applied to unseen objects, scenes, and tasks. To advance open-world robotics research, we will open-source code, hardware designs, model weights, and datasets at https://github.com/WayneMao/RoboMatrix.

arxiv情報

著者 Weixin Mao,Weiheng Zhong,Zhou Jiang,Dong Fang,Zhongyue Zhang,Zihan Lan,Haosheng Li,Fan Jia,Tiancai Wang,Haoqiang Fan,Osamu Yoshie
発行日 2025-03-25 09:43:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | RoboMatrix: A Skill-centric Hierarchical Framework for Scalable Robot Task Planning and Execution in Open-World はコメントを受け付けていません

MM-LINS: a Multi-Map LiDAR-Inertial System for Over-Degenerate Environments

要約

SLAMは、倉庫ロジスティクス、ヘルスケアロボット工学、レストラン配信など、自動化タスクにおいて重要な役割を果たしています。
これらのシーンには、群衆の周りをナビゲートしたり、一時的にブラインドセンサーを盲目にする可能性のある飛ぶビニール袋に対処したり、調理煙によって引き起こされるライダー密度の低下に対処するなど、さまざまな課題があります。
このようなシナリオは、過度の偏見をもたらす可能性があり、マップがドリフトします。
この問題に対処するために、このペーパーでは、初めてマルチマップLIDAR-INERTIALシステム(MM-Lins)を紹介します。
フロントエンドは、状態推定のために反復エラー状態のカルマンフィルターを採用し、縮退検出のための信頼できる評価戦略を導入します。
過度の脱誘発性が検出された場合、アクティブマップは睡眠マップに保存されます。
その後、システムは、ダイナミック初期化方法を使用して新しいマップを構築しようとして、過剰脱脱生を離れたときに初期化を成功させることを試みます。
バックエンドに関しては、スキャンコンテキスト記述子を使用して、インターマップの類似性を検出します。
共通の領域をアクティブマップと共有する睡眠マップの認識が成功すると、重複する軌跡領域が使用され、前のマップの端近くの位置変換を制約します。
これに応じて、高精度の位置とマッピングの結果を達成するために、制約強化マップ融合戦略が提案されています。
実験は、過剰脱脂条件を示した両方のパブリックデータセットと実際の環境で個別に行われています。
これらのテストは、過剰脱脱生環境におけるMMリンの有効性を実証しました。
私たちのコードはGithubでオープンソーシングされています。

要約(オリジナル)

SLAM plays a crucial role in automation tasks, such as warehouse logistics, healthcare robotics, and restaurant delivery. These scenes come with various challenges, including navigating around crowds of people, dealing with flying plastic bags that can temporarily blind sensors, and addressing reduced LiDAR density caused by cooking smoke. Such scenarios can result in over-degeneracy, causing the map to drift. To address this issue, this paper presents a multi-map LiDAR-inertial system (MM-LINS) for the first time. The front-end employs an iterated error state Kalman filter for state estimation and introduces a reliable evaluation strategy for degeneracy detection. If over-degeneracy is detected, the active map will be stored into sleeping maps. Subsequently, the system continuously attempts to construct new maps using a dynamic initialization method to ensure successful initialization upon leaving the over-degeneracy. Regarding the back-end, the Scan Context descriptor is utilized to detect inter-map similarity. Upon successful recognition of a sleeping map that shares a common region with the active map, the overlapping trajectory region is utilized to constrain the positional transformation near the edge of the prior map. In response to this, a constraint-enhanced map fusion strategy is proposed to achieve high-precision positional and mapping results. Experiments have been conducted separately on both public datasets that exhibited over-degenerate conditions and in real-world environments. These tests demonstrated the effectiveness of MM-LINS in over-degeneracy environment. Our codes are open-sourced on Github.

arxiv情報

著者 Yongxin Ma,Jie Xu,Shenghai Yuan,Tian Zhi,Wenlu Yu,Jun Zhou,Lihua Xie
発行日 2025-03-25 09:57:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | MM-LINS: a Multi-Map LiDAR-Inertial System for Over-Degenerate Environments はコメントを受け付けていません

RoboFlamingo-Plus: Fusion of Depth and RGB Perception with Vision-Language Models for Enhanced Robotic Manipulation

要約

より複雑なマルチモーダルの相互作用と操作タスクに向けて前進するロボットテクノロジーとして、高度なビジョン言語モデル(VLMS)の統合がこの分野の重要なドライバーになりました。
現在の方法での進歩にもかかわらず、3D環境内で深さとRGB情報を融合し、言語指示に導かれたタスクを実行することに課題が続きます。
これらの課題に対応して、既存のロボフラミンゴフレームワークを強化しました。これは、VLMSに深さデータを組み込んでロボット操作のパフォーマンスを大幅に改善するRoboflamingo-Plusを導入しました。
私たちの研究は、事前に訓練された視覚変圧器(VIT)とリサンプリング技術を統合することにより、RGBと深度情報の微妙な融合を達成し、この組み合わせたデータを優れたマルチモーダル理解のための言語的キューと密接に連携させます。
Roboflamingo-Plusの斬新さは、深度データ処理のための入力の適応、深さの特徴抽出のための事前に訓練された再サンプラーを活用し、最適な特徴統合のための横断メカニズムを採用しています。
これらの改善により、Roboflamingo-Plusは3D環境を深く理解するだけでなく、挑戦的な設定で複雑で言語誘導タスクを簡単に実行できます。
実験結果は、Roboflamingo-Plusが現在の方法で10〜20%のロボット操作を高め、大きな進歩を示すことを示しています。
コードとモデルの重みは、Roboflamingo-Plusで公開されています。

要約(オリジナル)

As robotic technologies advancing towards more complex multimodal interactions and manipulation tasks, the integration of advanced Vision-Language Models (VLMs) has become a key driver in the field. Despite progress with current methods, challenges persist in fusing depth and RGB information within 3D environments and executing tasks guided by linguistic instructions. In response to these challenges, we have enhanced the existing RoboFlamingo framework by introducing RoboFlamingo-Plus, which incorporates depth data into VLMs to significantly improve robotic manipulation performance. Our research achieves a nuanced fusion of RGB and depth information by integrating a pre-trained Vision Transformer (ViT) with a resampling technique, closely aligning this combined data with linguistic cues for superior multimodal understanding. The novelty of RoboFlamingo-Plus lies in its adaptation of inputs for depth data processing, leveraging a pre-trained resampler for depth feature extraction, and employing cross-attention mechanisms for optimal feature integration. These improvements allow RoboFlamingo-Plus to not only deeply understand 3D environments but also easily perform complex, language-guided tasks in challenging settings. Experimental results show that RoboFlamingo-Plus boosts robotic manipulation by 10-20% over current methods, marking a significant advancement. Codes and model weights are public at RoboFlamingo-Plus.

arxiv情報

著者 Sheng Wang
発行日 2025-03-25 10:01:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO | RoboFlamingo-Plus: Fusion of Depth and RGB Perception with Vision-Language Models for Enhanced Robotic Manipulation はコメントを受け付けていません