Information Entropy Guided Height-aware Histogram for Quantization-friendly Pillar Feature Encoder

要約

リアルタイムおよび高性能3Dオブジェクト検出は、自律運転とロボット工学において重要な役割を果たします。
最近の柱ベースの3Dオブジェクト検出器は、コンパクトな表現と計算オーバーヘッドが低いために大きな注目を集めており、オンボードの展開と量子化に適しています。
ただし、既存の柱ベースの検出器は、高さの寸法に沿った情報損失と柱の特徴エンコード(PFE)中の大きな数値分布の違いに依然として悩まされており、パフォーマンスと量子化の可能性を厳しく制限しています。
上記の問題に対処するために、最初にPFE中に異なる入力情報の重要性を発表し、高さのディメンションを3D検出パフォーマンスを強化する重要な要因として特定します。
この観察に動機付けられて、PillarHistと呼ばれる高さに意識した柱機能エンコーダーを提案します。
具体的には、ピラーヒスト統計情報エントロピーガイダンスを備えた1つの柱内の異なる高さでのポイントの離散分布。
このシンプルでありながら効果的なデザインは、高さの次元に沿って情報を大幅に保存しながら、PFEの計算オーバーヘッドを大幅に削減します。
一方、PillarHistは、PFE入力の算術分布を安定した範囲に制約し、量子化に優しいものにします。
特に、PillarhistはPFEステージ内でのみ動作してパフォーマンスを向上させ、複雑な操作を導入せずに既存の柱ベースの方法にシームレスな統合を可能にします。
広範な実験は、効率とパフォーマンスの両方の観点からピラーヒストの有効性を示しています。

要約(オリジナル)

Real-time and high-performance 3D object detection plays a critical role in autonomous driving and robotics. Recent pillar-based 3D object detectors have gained significant attention due to their compact representation and low computational overhead, making them suitable for onboard deployment and quantization. However, existing pillar-based detectors still suffer from information loss along height dimension and large numerical distribution difference during pillar feature encoding (PFE), which severely limits their performance and quantization potential. To address above issue, we first unveil the importance of different input information during PFE and identify the height dimension as a key factor in enhancing 3D detection performance. Motivated by this observation, we propose a height-aware pillar feature encoder, called PillarHist. Specifically, PillarHist statistics the discrete distribution of points at different heights within one pillar with the information entropy guidance. This simple yet effective design greatly preserves the information along the height dimension while significantly reducing the computation overhead of the PFE. Meanwhile, PillarHist also constrains the arithmetic distribution of PFE input to a stable range, making it quantization-friendly. Notably, PillarHist operates exclusively within the PFE stage to enhance performance, enabling seamless integration into existing pillar-based methods without introducing complex operations. Extensive experiments show the effectiveness of PillarHist in terms of both efficiency and performance.

arxiv情報

著者 Sifan Zhou,Zhihang Yuan,Dawei Yang,Ziyu Zhao,Xing Hu,Yuguang Shi,Xiaobo Lu,Qiang Wu
発行日 2025-05-29 12:40:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Information Entropy Guided Height-aware Histogram for Quantization-friendly Pillar Feature Encoder はコメントを受け付けていません

SCoTT: Strategic Chain-of-Thought Tasking for Wireless-Aware Robot Navigation in Digital Twins

要約

ワイヤレスパフォーマンス制約の下でのパス計画は、ロボットナビゲーションの複雑な課題です。
ただし、このような制約を古典的な計画アルゴリズムに素朴に組み込むことは、しばしば法外な検索コストが発生します。
このホワイトペーパーでは、視覚言語モデル(VLM)を活用して、ワイヤレスヒートマップ画像とデジタルツイン(DT)からのレイトレースデータを使用して平均パスのゲインと軌道長を共同最適化するワイヤレス対応のパス計画フレームワークであるスコットを提案します。
私たちのフレームワークの中心にあるのは、戦略的なチェーンのタスク(Scott)です。これは、徹底的な検索問題を構造化されたサブタスクに分解する小説の促しパラダイムであり、それぞれが考えられたチェーンプロンプトを介して解決されました。
強力なベースラインを確立するために、それの古典的なA*とワイヤレス対応の拡張機能を比較し、DTからのすべてのパスのゲインと距離メトリックを組み込んだ最適な反復動的プログラミングアルゴリズムであるDP-WA*を導き出します。
広範な実験では、ScottがDP-WA*の2%以内のパスゲインを達成しながら、より短い軌道を一貫して生成することを示しています。
さらに、スコットの中間出力を使用して、検索スペースを削減してDP-WA*を加速し、実行時間を62%節約できます。
4つのVLMSを使用してフレームワークを検証し、大小のモデルの両方で有効性を実証するため、推論コストが低い場合に幅広いコンパクトモデルに適用できます。
また、ScottをGazeboシミュレーション内にROSノードとして展開することにより、アプローチの実用的な実行可能性を示しています。
最後に、6G対応DTSのVLMのデータ収集パイプライン、計算要件、および展開に関する考慮事項について説明し、実際のアプリケーションでのワイヤレス対応ナビゲーションの自然言語インターフェイスの可能性を強調します。

要約(オリジナル)

Path planning under wireless performance constraints is a complex challenge in robot navigation. However, naively incorporating such constraints into classical planning algorithms often incurs prohibitive search costs. In this paper, we propose SCoTT, a wireless-aware path planning framework that leverages vision-language models (VLMs) to co-optimize average path gains and trajectory length using wireless heatmap images and ray-tracing data from a digital twin (DT). At the core of our framework is Strategic Chain-of-Thought Tasking (SCoTT), a novel prompting paradigm that decomposes the exhaustive search problem into structured subtasks, each solved via chain-of-thought prompting. To establish strong baselines, we compare classical A* and wireless-aware extensions of it, and derive DP-WA*, an optimal, iterative dynamic programming algorithm that incorporates all path gains and distance metrics from the DT, but at significant computational cost. In extensive experiments, we show that SCoTT achieves path gains within 2% of DP-WA* while consistently generating shorter trajectories. Moreover, SCoTT’s intermediate outputs can be used to accelerate DP-WA* by reducing its search space, saving up to 62% in execution time. We validate our framework using four VLMs, demonstrating effectiveness across both large and small models, thus making it applicable to a wide range of compact models at low inference cost. We also show the practical viability of our approach by deploying SCoTT as a ROS node within Gazebo simulations. Finally, we discuss data acquisition pipelines, compute requirements, and deployment considerations for VLMs in 6G-enabled DTs, underscoring the potential of natural language interfaces for wireless-aware navigation in real-world applications.

arxiv情報

著者 Aladin Djuhera,Amin Seffo,Vlad C. Andrei,Holger Boche,Walid Saad
発行日 2025-05-29 13:45:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO, cs.SY, eess.SY | SCoTT: Strategic Chain-of-Thought Tasking for Wireless-Aware Robot Navigation in Digital Twins はコメントを受け付けていません

FlexEvent: Towards Flexible Event-Frame Object Detection at Varying Operational Frequencies

要約

イベントカメラは、マイクロ秒レベルの時間分解能と非同期操作のおかげで、動的環境でのリアルタイムの知覚に比類のない利点を提供します。
ただし、既存のイベント検出器は固定周波数パラダイムによって制限されており、イベントデータの高度な解像度と適応性を完全に活用できません。
これらの制限に対処するために、さまざまな周波数で検出を可能にする新しいフレームワークであるFlexEventを提案します。
私たちのアプローチは、2つの重要なコンポーネントで構成されています。FlexFuseは、高周波イベントデータをRGBフレームからのリッチセマンティック情報と統合する適応イベントフレーム融合モジュールと、周波数調整ラベルを生成して、さまざまな運用頻度全体のモデル一般化を強化する周波数適合ラベルを生成するFlextuneです。
この組み合わせにより、私たちの方法は、動的環境に適応しながら、動きのシナリオと静的シナリオの両方で高い精度でオブジェクトを検出できます。
大規模なイベントカメラデータセットでの広範な実験は、私たちのアプローチが最先端の方法を上回り、標準的な設定と高周波設定の両方で大幅な改善を達成することを示しています。
特に、私たちの方法は、20 Hzから90 Hzまでのスケーリング時に堅牢なパフォーマンスを維持し、最大180 Hzまでの正確な検出を実現し、極端な条件でその有効性を証明します。
私たちのフレームワークは、イベントベースのオブジェクト検出のための新しいベンチマークを設定し、より適応性のあるリアルタイムビジョンシステムへの道を開きます。
コードは公開されています。

要約(オリジナル)

Event cameras offer unparalleled advantages for real-time perception in dynamic environments, thanks to the microsecond-level temporal resolution and asynchronous operation. Existing event detectors, however, are limited by fixed-frequency paradigms and fail to fully exploit the high-temporal resolution and adaptability of event data. To address these limitations, we propose FlexEvent, a novel framework that enables detection at varying frequencies. Our approach consists of two key components: FlexFuse, an adaptive event-frame fusion module that integrates high-frequency event data with rich semantic information from RGB frames, and FlexTune, a frequency-adaptive fine-tuning mechanism that generates frequency-adjusted labels to enhance model generalization across varying operational frequencies. This combination allows our method to detect objects with high accuracy in both fast-moving and static scenarios, while adapting to dynamic environments. Extensive experiments on large-scale event camera datasets demonstrate that our approach surpasses state-of-the-art methods, achieving significant improvements in both standard and high-frequency settings. Notably, our method maintains robust performance when scaling from 20 Hz to 90 Hz and delivers accurate detection up to 180 Hz, proving its effectiveness in extreme conditions. Our framework sets a new benchmark for event-based object detection and paves the way for more adaptable, real-time vision systems. Code is publicly available.

arxiv情報

著者 Dongyue Lu,Lingdong Kong,Gim Hee Lee,Camille Simon Chane,Wei Tsang Ooi
発行日 2025-05-29 13:46:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | FlexEvent: Towards Flexible Event-Frame Object Detection at Varying Operational Frequencies はコメントを受け付けていません

Agentic Robot: A Brain-Inspired Framework for Vision-Language-Action Models in Embodied Agents

要約

長距離ロボット操作は、自律システムに重大な課題をもたらし、複雑な連続タスク全体で拡張された推論、正確な実行、および堅牢なエラー回復を必要とします。
静的計画またはエンドツーエンドの視覚運動ポリシーに基づいているかどうかにかかわらず、現在のアプローチは、エラーの蓄積に苦しみ、実行中の効果的な検証メカニズムが欠けており、実際のシナリオでの信頼性を制限しています。
標準化されたアクション手順(SAP)を通じてこれらの制限に対処する脳に触発されたフレームワークであるエージェントロボットを提示します。これは、操作タスク全体でコンポーネントの相互作用を管理する新しい調整プロトコルです。
SAPは、人間組織の標準化された操作手順(SOP)からインスピレーションを得て、計画、実行、および検証フェーズのための構造化されたワークフローを確立します。
私たちのアーキテクチャは、3つの専門的なコンポーネントで構成されています。(1)高レベルの命令を意味的に一貫したサブゴールに分解する大きな推論モデル、(2)リアルタイムの視覚入力から連続制御コマンドを生成する視覚言語のアクションエグゼクティック、および(3)自律的な進行を介して自動的な進行回復を可能にする一時的な検証です。
このSAP駆動型の閉ループ設計は、外部の監督なしで動的な自己検証をサポートします。
リベロのベンチマークでは、エージェントロボットは平均成功率79.6 \%で最先端のパフォーマンスを達成し、長距離タスクで6.1 \%、OpenVLAを7.4 \%よりも上回ります。
これらの結果は、特殊なコンポーネント間のSAP駆動型の調整が、順次操作におけるパフォーマンスと解釈可能性の両方を向上させ、信頼性の高い自律システムの重要な可能性を示唆していることを示しています。
プロジェクトGithub:https://agentic-robot.github.io。

要約(オリジナル)

Long-horizon robotic manipulation poses significant challenges for autonomous systems, requiring extended reasoning, precise execution, and robust error recovery across complex sequential tasks. Current approaches, whether based on static planning or end-to-end visuomotor policies, suffer from error accumulation and lack effective verification mechanisms during execution, limiting their reliability in real-world scenarios. We present Agentic Robot, a brain-inspired framework that addresses these limitations through Standardized Action Procedures (SAP)–a novel coordination protocol governing component interactions throughout manipulation tasks. Drawing inspiration from Standardized Operating Procedures (SOPs) in human organizations, SAP establishes structured workflows for planning, execution, and verification phases. Our architecture comprises three specialized components: (1) a large reasoning model that decomposes high-level instructions into semantically coherent subgoals, (2) a vision-language-action executor that generates continuous control commands from real-time visual inputs, and (3) a temporal verifier that enables autonomous progression and error recovery through introspective assessment. This SAP-driven closed-loop design supports dynamic self-verification without external supervision. On the LIBERO benchmark, Agentic Robot achieves state-of-the-art performance with an average success rate of 79.6\%, outperforming SpatialVLA by 6.1\% and OpenVLA by 7.4\% on long-horizon tasks. These results demonstrate that SAP-driven coordination between specialized components enhances both performance and interpretability in sequential manipulation, suggesting significant potential for reliable autonomous systems. Project Github: https://agentic-robot.github.io.

arxiv情報

著者 Zhejian Yang,Yongchao Chen,Xueyang Zhou,Jiangyue Yan,Dingjie Song,Yinuo Liu,Yuting Li,Yu Zhang,Pan Zhou,Hechang Chen,Lichao Sun
発行日 2025-05-29 13:56:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Agentic Robot: A Brain-Inspired Framework for Vision-Language-Action Models in Embodied Agents はコメントを受け付けていません

DynaMem: Online Dynamic Spatio-Semantic Memory for Open World Mobile Manipulation

要約

自然言語の説明を考慮して、ロボットがあらゆる環境でタスクを実行するための目標は、目標があることです。
ただし、現在のシステムのほとんどは、静的環境を想定しており、人間の介入またはロボット自身の行動により環境が頻繁に変化する実際のシナリオでのシステムの適用性を制限します。
この作業では、ダイナミムを提示します。これは、ダイナミックなモバイル操作への新しいアプローチであり、ダイナミックスパチオセマンティックメモリを使用してロボットの環境を表現しています。
Dynamemは、ポイントクラウドの動的メモリを維持するために3Dデータ構造を構築し、マルチモーダルLLMSまたは最先端のビジョン言語モデルによって生成されたオープンボキャブラリー機能を使用して、オープンボキャブラリーオブジェクトのローカリゼーションクエリに答えます。
Dynamemを搭載したロボットは、新しい環境を探索し、メモリに含まれていないオブジェクトを検索し、シーン内でオブジェクトが移動、表示、または消えるようにメモリを継続的に更新できます。
3つの実際のシーンと9つのオフラインシーンでSTRETTY SE3ロボットで広範な実験を実行し、非定常オブジェクトで平均ピックアンドドロップ成功率70%を達成します。これは、最先端の静的システムよりも2倍以上の改善です。
私たちのコードと実験および展開ビデオはオープンソースであり、プロジェクトWebサイトhttps://dynamem.github.io/にあります。

要約(オリジナル)

Significant progress has been made in open-vocabulary mobile manipulation, where the goal is for a robot to perform tasks in any environment given a natural language description. However, most current systems assume a static environment, which limits the system’s applicability in real-world scenarios where environments frequently change due to human intervention or the robot’s own actions. In this work, we present DynaMem, a new approach to open-world mobile manipulation that uses a dynamic spatio-semantic memory to represent a robot’s environment. DynaMem constructs a 3D data structure to maintain a dynamic memory of point clouds, and answers open-vocabulary object localization queries using multimodal LLMs or open-vocabulary features generated by state-of-the-art vision-language models. Powered by DynaMem, our robots can explore novel environments, search for objects not found in memory, and continuously update the memory as objects move, appear, or disappear in the scene. We run extensive experiments on the Stretch SE3 robots in three real and nine offline scenes, and achieve an average pick-and-drop success rate of 70% on non-stationary objects, which is more than a 2x improvement over state-of-the-art static systems. Our code as well as our experiment and deployment videos are open sourced and can be found on our project website: https://dynamem.github.io/

arxiv情報

著者 Peiqi Liu,Zhanqiu Guo,Mohit Warke,Soumith Chintala,Chris Paxton,Nur Muhammad Mahi Shafiullah,Lerrel Pinto
発行日 2025-05-29 13:57:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | DynaMem: Online Dynamic Spatio-Semantic Memory for Open World Mobile Manipulation はコメントを受け付けていません

Long Duration Inspection of GNSS-Denied Environments with a Tethered UAV-UGV Marsupial System

要約

無人航空機(UAV)は、操縦性が高く、到達が難しいエリアにアクセスする能力により、検査および緊急対応操作に不可欠なツールになりました。
ただし、限られたバッテリー寿命は、長期のミッションでの使用を大幅に制限しています。
このペーパーでは、Global Navigation Satellite System(GNSS)環境での自律的な長時間の検査タスク向けに特別に設計されたUAVと無人の接地車両(UGV)で構成される、斬新な有袋類のロボットシステムを紹介します。
このシステムは、UGVが運ぶ大容量のバッテリーパックに接続されたテザーを介して電力を供給することにより、UAVの運用時間を延長します。
既製のコンポーネントに基づいてハードウェアアーキテクチャを詳しく説明し、複製可能性を確保し、オープンソースコンポーネントで構成され、ロボットオペレーティングシステム(ROS)に構築されたフルスタックソフトウェアフレームワークを説明します。
提案されたソフトウェアアーキテクチャは、直接LIDARローカリゼーション(DLL)メソッドを使用して正確なローカリゼーションを可能にし、統合されたUGV-Tether-UAVシステムの安全なパス計画と調整された軌跡追跡を保証します。
3つのフィールド実験を通じてシステムを検証します。(1)運用期間を推定するための手動飛行耐久テスト、(2)自律ナビゲーションテスト、および(3)自律検査能力を実証するための検査ミッション。
実験結果は、システムの堅牢性と自律性、GNSS除去された環境で動作する能力、および長期延滞、自律検査、監視タスクの可能性を確認します。

要約(オリジナル)

Unmanned Aerial Vehicles (UAVs) have become essential tools in inspection and emergency response operations due to their high maneuverability and ability to access hard-to-reach areas. However, their limited battery life significantly restricts their use in long-duration missions. This paper presents a novel tethered marsupial robotic system composed of a UAV and an Unmanned Ground Vehicle (UGV), specifically designed for autonomous, long-duration inspection tasks in Global Navigation Satellite System (GNSS)-denied environments. The system extends the UAV’s operational time by supplying power through a tether connected to high-capacity battery packs carried by the UGV. We detail the hardware architecture based on off-the-shelf components to ensure replicability and describe our full-stack software framework, which is composed of open-source components and built upon the Robot Operating System (ROS). The proposed software architecture enables precise localization using a Direct LiDAR Localization (DLL) method and ensures safe path planning and coordinated trajectory tracking for the integrated UGV-tether-UAV system. We validate the system through three field experiments: (1) a manual flight endurance test to estimate the operational duration, (2) an autonomous navigation test, and (3) an inspection mission to demonstrate autonomous inspection capabilities. Experimental results confirm the robustness and autonomy of the system, its capacity to operate in GNSS-denied environments, and its potential for long-endurance, autonomous inspection and monitoring tasks.

arxiv情報

著者 Simón Martínez-Rozas,David Alejo,José Javier Carpio,Fernando Caballero,Luis Merino
発行日 2025-05-29 14:05:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Long Duration Inspection of GNSS-Denied Environments with a Tethered UAV-UGV Marsupial System はコメントを受け付けていません

SeeGround: See and Ground for Zero-Shot Open-Vocabulary 3D Visual Grounding

要約

3D Visual Grounding(3DVG)は、拡張現実やロボット工学などのアプリケーションに不可欠なテキストの説明に基づいて、3Dシーンのオブジェクトを見つけることを目的としています。
従来の3DVGアプローチは、注釈付きの3Dデータセットと事前定義されたオブジェクトカテゴリに依存しており、スケーラビリティと適応性を制限しています。
これらの制限を克服するために、大規模な2Dデータでトレーニングされた2D Vision-Language Models(VLMS)を活用するゼロショット3DVGフレームワークであるSeegroundを紹介します。
Seegroundは、3Dデータと空間的に濃縮されたテキストの説明のハイブリッドとして3Dシーンを表し、3Dデータと2D-VLMS入力形式の間のギャップを埋めます。
2つのモジュールを提案します。クエリ関連の画像レンダリングの視点を動的に選択する視点適応モジュールと、2D画像を3D空間記述と統合してオブジェクトのローカリゼーションを強化するFusionアラインメントモジュールを提案します。
ScanreferとNR3Dでの広範な実験は、私たちのアプローチが既存のゼロショット方法を大きなマージンで上回ることを示しています。
特に、監視された弱い方法を超えて、完全に監視された方法に匹敵し、以前のSOTAをスキャンフーファーで7.7%、NR3Dで7.1%上回り、複雑な3DVGタスクでその効果を示しています。

要約(オリジナル)

3D Visual Grounding (3DVG) aims to locate objects in 3D scenes based on textual descriptions, essential for applications like augmented reality and robotics. Traditional 3DVG approaches rely on annotated 3D datasets and predefined object categories, limiting scalability and adaptability. To overcome these limitations, we introduce SeeGround, a zero-shot 3DVG framework leveraging 2D Vision-Language Models (VLMs) trained on large-scale 2D data. SeeGround represents 3D scenes as a hybrid of query-aligned rendered images and spatially enriched text descriptions, bridging the gap between 3D data and 2D-VLMs input formats. We propose two modules: the Perspective Adaptation Module, which dynamically selects viewpoints for query-relevant image rendering, and the Fusion Alignment Module, which integrates 2D images with 3D spatial descriptions to enhance object localization. Extensive experiments on ScanRefer and Nr3D demonstrate that our approach outperforms existing zero-shot methods by large margins. Notably, we exceed weakly supervised methods and rival some fully supervised ones, outperforming previous SOTA by 7.7% on ScanRefer and 7.1% on Nr3D, showcasing its effectiveness in complex 3DVG tasks.

arxiv情報

著者 Rong Li,Shijie Li,Lingdong Kong,Xulei Yang,Junwei Liang
発行日 2025-05-29 14:14:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | SeeGround: See and Ground for Zero-Shot Open-Vocabulary 3D Visual Grounding はコメントを受け付けていません

Centroidal Trajectory Generation and Stabilization based on Preview Control for Humanoid Multi-contact Motion

要約

ヒューマノイドロボットがさまざまな環境で動作するためには、多接触モーションが重要です。
ヒューマノイドの動的マルチコンタクト運動のための重心オンライン軌道生成と安定化制御を提案します。
提案された方法は、すべてのサンプルの制約を考慮する従来のモデル予測制御の代わりに、プレビュー制御を使用することにより、計算コストの劇的な削減を特徴としています。
プレビューコントロールと、障害への堅牢性のためのセントロイド状態のフィードバックと、接触制約を満たすためのレンチ分布を組み合わせることにより、ロボットがシミュレーション実験を通じてさまざまなマルチコンタクトモーションを安定に実行できることを示します。

要約(オリジナル)

Multi-contact motion is important for humanoid robots to work in various environments. We propose a centroidal online trajectory generation and stabilization control for humanoid dynamic multi-contact motion. The proposed method features the drastic reduction of the computational cost by using preview control instead of the conventional model predictive control that considers the constraints of all sample times. By combining preview control with centroidal state feedback for robustness to disturbances and wrench distribution for satisfying contact constraints, we show that the robot can stably perform a variety of multi-contact motions through simulation experiments.

arxiv情報

著者 Masaki Murooka,Mitsuharu Morisawa,Fumio Kanehiro
発行日 2025-05-29 14:47:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Centroidal Trajectory Generation and Stabilization based on Preview Control for Humanoid Multi-contact Motion はコメントを受け付けていません

Optimization-based Posture Generation for Whole-body Contact Motion by Contact Point Search on the Body Surface

要約

全身接触は、ロボットの動きの安定性と効率を改善するための効果的な戦略です。
ロボットがこのような動きを自動的に実行するために、ロボットリンクのすべての利用可能な表面を使用する姿勢生成方法を提案します。
2次元構成変数によって身体表面の接触点を表すことにより、勾配ベースの最適化により、ジョイントの位置と接触点が同時に決定されます。
提案された方法で動きを生成することにより、ロボットが全身接触を効果的に利用するオブジェクトを操作する実験を提示します。

要約(オリジナル)

Whole-body contact is an effective strategy for improving the stability and efficiency of the motion of robots. For robots to automatically perform such motions, we propose a posture generation method that employs all available surfaces of the robot links. By representing the contact point on the body surface by two-dimensional configuration variables, the joint positions and contact points are simultaneously determined through a gradient-based optimization. By generating motions with the proposed method, we present experiments in which robots manipulate objects effectively utilizing whole-body contact.

arxiv情報

著者 Masaki Murooka,Kei Okada,Masayuki Inaba
発行日 2025-05-29 14:47:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Optimization-based Posture Generation for Whole-body Contact Motion by Contact Point Search on the Body Surface はコメントを受け付けていません

Humanoid Loco-manipulation Planning based on Graph Search and Reachability Maps

要約

この手紙では、ヒューマノイドロボットの効率的で非常に用途の広い局所操作計画を提案します。
局所操作計画は、ヒューマノイドロボットがそれらを操作することによりオブジェクト輸送を自律的に実行できるようにする重要な技術レンガです。
局所操作の柔軟な表現を可能にする新しい遷移モデルを使用したグラフ検索問題として、フットステップと把握の交互の計画とグラスプを策定します。
遷移モデルは、ロボットとオブジェクトの両方の動きに応じて、リーチ性マップを再配置および切り替えることにより、迅速に評価されます。
アプローチを評価して、ロコ操作の使用ケースに適用します。たとえば、レグラスを使用したボビンローリング操作など、モーションはフレームワークによって自動的に計画されます。

要約(オリジナル)

In this letter, we propose an efficient and highly versatile loco-manipulation planning for humanoid robots. Loco-manipulation planning is a key technological brick enabling humanoid robots to autonomously perform object transportation by manipulating them. We formulate planning of the alternation and sequencing of footsteps and grasps as a graph search problem with a new transition model that allows for a flexible representation of loco-manipulation. Our transition model is quickly evaluated by relocating and switching the reachability maps depending on the motion of both the robot and object. We evaluate our approach by applying it to loco-manipulation use-cases, such as a bobbin rolling operation with regrasping, where the motion is automatically planned by our framework.

arxiv情報

著者 Masaki Murooka,Iori Kumagai,Mitsuharu Morisawa,Fumio Kanehiro,Abderrahmane Kheddar
発行日 2025-05-29 14:48:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Humanoid Loco-manipulation Planning based on Graph Search and Reachability Maps はコメントを受け付けていません