Reasoning to Attend: Try to Understand How Token Works

要約

現在の大規模なマルチモーダルモデル(LMMS)は、視覚言語モデル(LLAVAなど)とダウンストリームタスク固有のモデル(SAMなど)を共同で最適化するためのテキストプロンプトとして$ \ texttt {} $トークンに依存しています。
ただし、この作業では、最初に類似性マップを視覚化します。これは、$ \ texttt {} $トークンとLlavaエンコーダーの両方の最後の隠れレイヤーとSam Decoderの両方から導出された画像トークン埋め込みを計算することによって得られる類似性マップを視覚化します。
興味深いことに、類似性マップのアクティベーション応答の観点から印象的な一貫性が保持されることがわかりました。
具体的には、テキストの語彙で拡張されたプレースホルダーである$ \ texttt {} $トークンは、個々のトークン化された画像パッチ間で広範囲にクエリをして、テキストからペアの画像までのオブジェクトのセマンティクスを一致させますが、大きな言語モデル(LLMS)は微調整されています。
上記の調査結果を提示すると、類似性マップから借用された高度にアクティブ化されたポイントのガイダンスの下で、$ \ textbf {d} $をアッテンする場所のlmmsの回復力のある$ \ textbf {rea} $の音響能力を促進します。
驚くべきことに、読み取りは、プラグアンドプレイの方法でパラダイムのように、$ \ texttt {} $にシームレスに適用できる、ポイントモジュール(SASP)との類似性、類似性の直感的なデザインを特徴としています。
また、ReasonSegおよびRefcoco(+/g)データセットで広範な実験が行われています。
読み取りが微調整後の以前のスキルの壊滅的な忘れに苦しむかどうかを検証するために、増強されたFP-Refcoco(+/g)データセットでの生成能力をさらに評価します。
すべてのコードとモデルは、https://github.com/rui-qian/readで公開されています。

要約(オリジナル)

Current Large Multimodal Models (LMMs) empowered visual grounding typically rely on $\texttt{}$ tokens as a text prompt to jointly optimize the vision-language model (e.g., LLaVA) and the downstream task-specific model (e.g., SAM). However, we observe that little research has looked into how it works.In this work, we first visualize the similarity maps, which are obtained by computing the semantic similarity between the $\texttt{}$ token and the image token embeddings derived from the last hidden layer in both the LLaVA encoder and SAM decoder. Intriguingly, we have found that a striking consistency holds in terms of activation responses in the similarity map, which reveals that what the $\texttt{}$ token contributes to is semantic similarity within image-text pairs. Specifically, the $\texttt{}$ token, a placeholder expanded in text vocabulary, extensively queries among individual tokenized image patches to match the semantics of an object from text to the paired image, while the Large Language Models (LLMs) are being fine-tuned. Upon the above findings, we present READ, which facilitates LMMs’ resilient $\textbf{REA}$soning capability of where to atten$\textbf{D}$ under the guidance of highly activated points borrowed from similarity maps. Remarkably, READ features an intuitive design, Similarity as Points module (SasP), which can be seamlessly applied to $\texttt{}$-like paradigms in a plug-and-play fashion. Also, extensive experiments have been conducted on ReasonSeg and RefCOCO(+/g) datasets. To validate whether READ suffers from catastrophic forgetting of previous skills after fine-tuning, we further assess its generation ability on an augmented FP-RefCOCO(+/g) dataset. All codes and models are publicly available at https://github.com/rui-qian/READ.

arxiv情報

著者 Rui Qian,Xin Yin,Dejing Dou
発行日 2025-03-06 04:11:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Reasoning to Attend: Try to Understand How Token Works はコメントを受け付けていません

Geometric Impedance Control on SE(3) for Robotic Manipulators

要約

導入後、インピーダンス制御は、未知の環境との相互作用を伴うロボット操作タスクの主要な制御スキームとして利用されました。
インピーダンス制御が広範囲に研究されていますが、ロボットマニピュレーター自体のSE(3)の幾何学的構造とロボットタスクの策定におけるその使用は適切に対処されていません。
この論文では、インピーダンス制御に対する微分幾何学的アプローチを提案します。
SE(3)の左不変の誤差メトリックを考えると、位置と速度の対応する誤差ベクトルが最初に導出されます。
次に、左不変の電位関数に基づいて、SE(3)のマニピュレーターの幾何学的構造を適切に説明するインピーダンス制御スキームを提案します。
提案された制御スキームの閉ループ安定性は、Lyapunov関数ベースの分析を使用して検証されます。
提案された制御設計は、挑戦的な軌跡プロファイルを追跡する際に、従来のインピーダンス制御アプローチを明らかに上回っていました。

要約(オリジナル)

After its introduction, impedance control has been utilized as a primary control scheme for robotic manipulation tasks that involve interaction with unknown environments. While impedance control has been extensively studied, the geometric structure of SE(3) for the robotic manipulator itself and its use in formulating a robotic task has not been adequately addressed. In this paper, we propose a differential geometric approach to impedance control. Given a left-invariant error metric in SE(3), the corresponding error vectors in position and velocity are first derived. We then propose the impedance control schemes that adequately account for the geometric structure of the manipulator in SE(3) based on a left-invariant potential function. The closed-loop stabilities for the proposed control schemes are verified using Lyapunov function-based analysis. The proposed control design clearly outperformed a conventional impedance control approach when tracking challenging trajectory profiles.

arxiv情報

著者 Joohwan Seo,Nikhil Potu Surya Prakash,Alexander Rose,Jongeun Choi,Roberto Horowitz
発行日 2025-03-05 06:17:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Geometric Impedance Control on SE(3) for Robotic Manipulators はコメントを受け付けていません

Adaptive Energy Regularization for Autonomous Gait Transition and Energy-Efficient Quadruped Locomotion

要約

脚のあるロボットの移動の強化学習では、効果的な報酬戦略を作成することが重要です。
事前に定義された歩行パターンと複雑な報酬システムは、政策トレーニングを安定させるために広く使用されています。
エネルギー消費を最小限に抑えるために歩行を適応させる人間と動物の自然な移動行動から引き出されると、四足ロボットのさまざまな速度にわたるエネルギー効率の高い運動の発達を促進するための単純化されたエネルギー中心の報酬戦略を提案します。
適応エネルギー報酬関数を実装し、速度に基づいて重みを調整することにより、私たちのアプローチにより、ANYMAL-CとUNITREE GO1ロボットが、より高い速度での4ビートのウォーキングや高速での駆け込みなど、適切な歩行を自律的に選択できることを実証します。
当社のポリシーの有効性は、Isaacgymシミュレーション環境のシミュレーションと実際のロボットで検証され、安定した適応運動を促進する可能性を示しています。

要約(オリジナル)

In reinforcement learning for legged robot locomotion, crafting effective reward strategies is crucial. Pre-defined gait patterns and complex reward systems are widely used to stabilize policy training. Drawing from the natural locomotion behaviors of humans and animals, which adapt their gaits to minimize energy consumption, we propose a simplified, energy-centric reward strategy to foster the development of energy-efficient locomotion across various speeds in quadruped robots. By implementing an adaptive energy reward function and adjusting the weights based on velocity, we demonstrate that our approach enables ANYmal-C and Unitree Go1 robots to autonomously select appropriate gaits, such as four-beat walking at lower speeds and trotting at higher speeds, resulting in improved energy efficiency and stable velocity tracking compared to previous methods using complex reward designs and prior gait knowledge. The effectiveness of our policy is validated through simulations in the IsaacGym simulation environment and on real robots, demonstrating its potential to facilitate stable and adaptive locomotion.

arxiv情報

著者 Boyuan Liang,Lingfeng Sun,Xinghao Zhu,Bike Zhang,Ziyin Xiong,Yixiao Wang,Chenran Li,Koushil Sreenath,Masayoshi Tomizuka
発行日 2025-03-05 06:21:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Adaptive Energy Regularization for Autonomous Gait Transition and Energy-Efficient Quadruped Locomotion はコメントを受け付けていません

CarPlanner: Consistent Auto-regressive Trajectory Planning for Large-scale Reinforcement Learning in Autonomous Driving

要約

軌道計画は、自律的な運転に不可欠であり、複雑な環境での安全で効率的なナビゲーションを確保します。
最近の学習ベースの方法、特に強化学習(RL)は特定のシナリオで有望であることを示していますが、RLプランナーは非効率性のトレーニングと大規模で現実世界の運転シナリオの管理に苦労しています。
この論文では、\ textbf {carplanner}、a \ textbf {c} onsistent \ textbf {a} uto- \ textbf {r} earsission \ textbf {planner}を紹介します。
自動回帰構造により、効率的な大規模なRLトレーニングが可能になり、一貫性の組み込みにより、時間ステップを越えて一貫した時間的一貫性を維持することにより、安定したポリシー学習が保証されます。
さらに、Carplannerは、専門家が誘導する報酬機能と不変視ビューモジュールを備えた世代選択フレームワークを採用し、RLトレーニングを簡素化し、ポリシーパフォーマンスを向上させます。
広範な分析では、提案されたRLフレームワークが、トレーニング効率とパフォーマンス向上の課題に効果的に対処し、自律運転における軌跡計画の有望なソリューションとしてカープレーナーを配置することを実施しています。
私たちの知る限り、私たちは、RLベースのプランナーが、挑戦的な大規模な現実世界のデータセットNuplanでILおよびルールベースの最先端(SOTA)の両方を超えることができることを最初に示しています。
提案されたCarplannerは、この要求の厳しいデータセット内でRL-、IL-、およびルールベースのSOTAアプローチを上回ります。

要約(オリジナル)

Trajectory planning is vital for autonomous driving, ensuring safe and efficient navigation in complex environments. While recent learning-based methods, particularly reinforcement learning (RL), have shown promise in specific scenarios, RL planners struggle with training inefficiencies and managing large-scale, real-world driving scenarios. In this paper, we introduce \textbf{CarPlanner}, a \textbf{C}onsistent \textbf{a}uto-\textbf{r}egressive \textbf{Planner} that uses RL to generate multi-modal trajectories. The auto-regressive structure enables efficient large-scale RL training, while the incorporation of consistency ensures stable policy learning by maintaining coherent temporal consistency across time steps. Moreover, CarPlanner employs a generation-selection framework with an expert-guided reward function and an invariant-view module, simplifying RL training and enhancing policy performance. Extensive analysis demonstrates that our proposed RL framework effectively addresses the challenges of training efficiency and performance enhancement, positioning CarPlanner as a promising solution for trajectory planning in autonomous driving. To the best of our knowledge, we are the first to demonstrate that the RL-based planner can surpass both IL- and rule-based state-of-the-arts (SOTAs) on the challenging large-scale real-world dataset nuPlan. Our proposed CarPlanner surpasses RL-, IL-, and rule-based SOTA approaches within this demanding dataset.

arxiv情報

著者 Dongkun Zhang,Jiaming Liang,Ke Guo,Sha Lu,Qi Wang,Rong Xiong,Zhenwei Miao,Yue Wang
発行日 2025-03-05 06:36:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO | CarPlanner: Consistent Auto-regressive Trajectory Planning for Large-scale Reinforcement Learning in Autonomous Driving はコメントを受け付けていません

Affordance-Guided Reinforcement Learning via Visual Prompting

要約

Renforcement Learning(RL)を装備したロボットは、報酬信号のみから幅広いスキルを学ぶ可能性があります。
ただし、一般的な操作タスクの堅牢で密な報酬信号を取得することは依然として課題です。
既存の学習ベースのアプローチには、タスク固有の報酬機能を学ぶために、成功と失敗の人間のデモなど、重要なデータが必要です。
最近、物理的なコンテキストで視覚的な推論を実行し、操作タスクの粗いロボットモーションを生成できるロボット工学用の大規模なマルチモーダルファンデーションモデルの採用も増加しています。
このさまざまな能力に動機付けられているこの作業では、自律RLのビジョン言語モデル(VLMS)によって形作られた報酬を活用する方法である改善のためのキーポイントベースのアフォーダンスガイダンス(Kagi)を提示します。
最先端のVLMは、ゼロショットのキーポイントを通じてアフォーダンスに関する印象的な推論を実証しており、これらを使用して、自律的なロボット学習を導く密な報酬を定義します。
自然言語の説明によって指定された現実世界の操作タスクでは、Kagiは自律RLのサンプル効率を改善し、30Kオンライン微調整ステップでタスクの完了を成功させることができます。
さらに、トレーニング前に使用されるドメイン内デモの数の減少に対するKagiの堅牢性を示し、45Kオンラインの微調整ステップで同様のパフォーマンスに達します。
プロジェクトWebサイト:https://sites.google.com/view/affordance-guided-rl

要約(オリジナル)

Robots equipped with reinforcement learning (RL) have the potential to learn a wide range of skills solely from a reward signal. However, obtaining a robust and dense reward signal for general manipulation tasks remains a challenge. Existing learning-based approaches require significant data, such as human demonstrations of success and failure, to learn task-specific reward functions. Recently, there is also a growing adoption of large multi-modal foundation models for robotics that can perform visual reasoning in physical contexts and generate coarse robot motions for manipulation tasks. Motivated by this range of capability, in this work, we present Keypoint-based Affordance Guidance for Improvements (KAGI), a method leveraging rewards shaped by vision-language models (VLMs) for autonomous RL. State-of-the-art VLMs have demonstrated impressive reasoning about affordances through keypoints in zero-shot, and we use these to define dense rewards that guide autonomous robotic learning. On real-world manipulation tasks specified by natural language descriptions, KAGI improves the sample efficiency of autonomous RL and enables successful task completion in 30K online fine-tuning steps. Additionally, we demonstrate the robustness of KAGI to reductions in the number of in-domain demonstrations used for pre-training, reaching similar performance in 45K online fine-tuning steps. Project website: https://sites.google.com/view/affordance-guided-rl

arxiv情報

著者 Olivia Y. Lee,Annie Xie,Kuan Fang,Karl Pertsch,Chelsea Finn
発行日 2025-03-05 06:53:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | Affordance-Guided Reinforcement Learning via Visual Prompting はコメントを受け付けていません

OpenGV 2.0: Motion prior-assisted calibration and SLAM with vehicle-mounted surround-view systems

要約

本論文では、車両に取り付けられたサラウンドビューカメラシステムを使用して、視覚的なスラムに対する最適化ベースのソリューションを提案しています。
元のユースケースにより、このようなシステムには、方向のいずれかと視野間の非常に限られたオーバーラップのいずれかのカメラしか含まれていません。
私たちのノベルティは、単純な2ビュージオメトリからの外部方向の実際のオンラインキャリブレーション、相対変位の信頼できるフロントエンド初期化、および連続時間軌道モデルを使用した正確なバックエンド最適化からの3つの最適化モジュールで構成されています。
提案されたモジュール間の共通性は、3つの3つすべてが、旅客車の動きの固有の非ホロノミー特性に関連する動き事前を活用するという事実によって与えられます。
以前の関連アートとは対照的に、提案されたモジュールはさらに、アッカーマンモーションで一般的に発生する変換変数の部分的な容量をバイパスするという点でさらに優れています。
さらなる貢献として、モジュールは、都市環境で動作するアッカーマン車の展開を特にターゲットにする新しいサラウンドビューカメラスラムシステムに組み込まれています。
すべてのモジュールは、詳細なアブレーション研究のコンテキストで研究されており、フレームワーク全体の実際の妥当性は、挑戦的で大規模に公開されているオンラインデータセットへのアプリケーションの成功によってサポートされています。
受け入れられると、OpenGVライブラリの拡張の一環として、フレームワーク全体がオープンソースリリースに予定されていることに注意してください。

要約(オリジナル)

The present paper proposes optimization-based solutions to visual SLAM with a vehicle-mounted surround-view camera system. Owing to their original use-case, such systems often only contain a single camera facing into either direction and very limited overlap between fields of view. Our novelty consist of three optimization modules targeting at practical online calibration of exterior orientations from simple two-view geometry, reliable front-end initialization of relative displacements, and accurate back-end optimization using a continuous-time trajectory model. The commonality between the proposed modules is given by the fact that all three of them exploit motion priors that are related to the inherent non-holonomic characteristics of passenger vehicle motion. In contrast to prior related art, the proposed modules furthermore excel in terms of bypassing partial unobservabilities in the transformation variables that commonly occur for Ackermann-motion. As a further contribution, the modules are built into a novel surround-view camera SLAM system that specifically targets deployment on Ackermann vehicles operating in urban environments. All modules are studied in the context of in-depth ablation studies, and the practical validity of the entire framework is supported by a successful application to challenging, large-scale publicly available online datasets. Note that upon acceptance, the entire framework is scheduled for open-source release as part of an extension of the OpenGV library.

arxiv情報

著者 Kun Huang,Yifu Wang,Si’ao Zhang,Zhirui Wang,Zhanpeng Ouyang,Zhenghua Yu,Laurent Kneip
発行日 2025-03-05 07:03:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | OpenGV 2.0: Motion prior-assisted calibration and SLAM with vehicle-mounted surround-view systems はコメントを受け付けていません

GravMAD: Grounded Spatial Value Maps Guided Action Diffusion for Generalized 3D Manipulation

要約

ロボットの指示に従い、多様な3D操作タスクを実行する能力は、ロボット学習に不可欠です。
従来の模倣学習ベースの方法は、見られたタスクではうまく機能しますが、変動性のために斬新で目に見えないタスクと格闘しています。
最近のアプローチでは、大規模な基礎モデルを活用して、新しいタスクの理解を支援し、それによってこの問題を軽減します。
ただし、これらの方法にはタスク固有の学習プロセスがありません。これは、3D環境を正確に理解するために不可欠であり、しばしば実行障害につながることがあります。
この論文では、模倣学習と基礎モデルの強みを組み合わせた、サブゴール駆動型の言語条件付きアクション拡散フレームワークであるGravmadを紹介します。
私たちのアプローチは、言語の指示に基づいてタスクをサブゴールに分割し、トレーニングと推論の両方で補助ガイダンスを可能にします。
トレーニング中に、サブゴールキーポーズ発見を導入して、デモンストレーションからキーサブゴールを特定します。
推論はトレーニングとは異なり、デモンストレーションが利用できないため、事前に訓練された基礎モデルを使用してギャップを埋め、現在のタスクのサブゴールを特定します。
両方のフェーズで、グラブマップはサブゴールから生成され、固定された3D位置と比較してより柔軟な3D空間ガイダンスをGravmadに提供します。
RLBenchの経験的評価は、Gravmadが最先端の方法を大幅に上回ることを示しており、新しいタスクが28.63%改善され、トレーニング中に遭遇したタスクで13.36%の増加が得られます。
現実世界のロボットタスクに関する評価はさらに、Gravmadが実際のタスクについて推論し、関連する視覚情報に関連付けられ、新しいタスクに一般化できることを示しています。
これらの結果は、3D操作におけるGravmadの強力なマルチタスク学習と一般化を示しています。
ビデオデモンストレーションは、https://gravmad.github.ioで入手できます。

要約(オリジナル)

Robots’ ability to follow language instructions and execute diverse 3D manipulation tasks is vital in robot learning. Traditional imitation learning-based methods perform well on seen tasks but struggle with novel, unseen ones due to variability. Recent approaches leverage large foundation models to assist in understanding novel tasks, thereby mitigating this issue. However, these methods lack a task-specific learning process, which is essential for an accurate understanding of 3D environments, often leading to execution failures. In this paper, we introduce GravMAD, a sub-goal-driven, language-conditioned action diffusion framework that combines the strengths of imitation learning and foundation models. Our approach breaks tasks into sub-goals based on language instructions, allowing auxiliary guidance during both training and inference. During training, we introduce Sub-goal Keypose Discovery to identify key sub-goals from demonstrations. Inference differs from training, as there are no demonstrations available, so we use pre-trained foundation models to bridge the gap and identify sub-goals for the current task. In both phases, GravMaps are generated from sub-goals, providing GravMAD with more flexible 3D spatial guidance compared to fixed 3D positions. Empirical evaluations on RLBench show that GravMAD significantly outperforms state-of-the-art methods, with a 28.63% improvement on novel tasks and a 13.36% gain on tasks encountered during training. Evaluations on real-world robotic tasks further show that GravMAD can reason about real-world tasks, associate them with relevant visual information, and generalize to novel tasks. These results demonstrate GravMAD’s strong multi-task learning and generalization in 3D manipulation. Video demonstrations are available at: https://gravmad.github.io.

arxiv情報

著者 Yangtao Chen,Zixuan Chen,Junhui Yin,Jing Huo,Pinzhuo Tian,Jieqi Shi,Yang Gao
発行日 2025-03-05 07:14:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | GravMAD: Grounded Spatial Value Maps Guided Action Diffusion for Generalized 3D Manipulation はコメントを受け付けていません

Social Gesture Recognition in spHRI: Leveraging Fabric-Based Tactile Sensing on Humanoid Robots

要約

人間は、タッチのみを使用して異なるメッセージを伝えることができます。
ソーシャルタッチを理解する能力をロボットに装備すると、人間とロボットが通信できる別のモダリティが追加されます。
この論文では、ヒューマノイドロボットの腕に統合されたファブリックベースの大規模な触覚センサーを使用して、ソーシャルジェスチャー認識システムを紹介します。
複数の参加者を使用してソーシャルジェスチャーデータセットを構築し、分類のために時間的機能を抽出しました。
ヒューマノイドロボットに関する実際のデータを収集することにより、私たちのシステムは人間のロボットのソーシャルタッチに関する貴重な洞察を提供し、より自然で効果的なコミュニケーションのためにSphriシステムの開発をさらに進めます。

要約(オリジナル)

Humans are able to convey different messages using only touch. Equipping robots with the ability to understand social touch adds another modality in which humans and robots can communicate. In this paper, we present a social gesture recognition system using a fabric-based, large-scale tactile sensor integrated onto the arms of a humanoid robot. We built a social gesture dataset using multiple participants and extracted temporal features for classification. By collecting real-world data on a humanoid robot, our system provides valuable insights into human-robot social touch, further advancing the development of spHRI systems for more natural and effective communication.

arxiv情報

著者 Dakarai Crowder,Kojo Vandyck,Xiping Sun,James McCann,Wenzhen Yuan
発行日 2025-03-05 07:24:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Social Gesture Recognition in spHRI: Leveraging Fabric-Based Tactile Sensing on Humanoid Robots はコメントを受け付けていません

Joint-repositionable Inner-wireless Planar Snake Robot

要約

バイオ風のマルチジョイントヘビロボットは、手足の構造と柔軟性が高いため、地形の適応性の利点を提供します。
ただし、典型的な複数ジョイントヘビロボットの一連の数十のモーターユニットは、重い体構造と数百ワットの高出力消費をもたらします。
このペーパーでは、低電力の過小作用メカニズムを使用してマルチジョイントのような移動を可能にする、共同採用可能な内部ワイヤレスヘビロボットを紹介します。
一連の柔軟なパッシブリンクで構成されるヘビロボットは、ロボット内のラックギアに沿ってモーター駆動のジョイントユニットを再配置することにより、ジョイントカップリング構成を動的に変更できます。
さらに、ソフトロボットスキンが内部ジョイントユニットにワイヤレスで動力を供給し、動きのあるジョイントユニットによって引き起こされるワイヤーのもつれや切断のリスクを回避します。
ジョイントリポジション可能なメカニズムとワイヤレス充電対応ソフトスキンの組み合わせは、1.3 kgの軽量構造と7.6ワットのエネルギー効率の高いワイヤレス電力伝送とともに、高度な曲げを実現します。

要約(オリジナル)

Bio-inspired multi-joint snake robots offer the advantages of terrain adaptability due to their limbless structure and high flexibility. However, a series of dozens of motor units in typical multiple-joint snake robots results in a heavy body structure and hundreds of watts of high power consumption. This paper presents a joint-repositionable, inner-wireless snake robot that enables multi-joint-like locomotion using a low-powered underactuated mechanism. The snake robot, consisting of a series of flexible passive links, can dynamically change its joint coupling configuration by repositioning motor-driven joint units along rack gears inside the robot. Additionally, a soft robot skin wirelessly powers the internal joint units, avoiding the risk of wire tangling and disconnection caused by the movable joint units. The combination of the joint-repositionable mechanism and the wireless-charging-enabled soft skin achieves a high degree of bending, along with a lightweight structure of 1.3 kg and energy-efficient wireless power transmission of 7.6 watts.

arxiv情報

著者 Ayato Kanada,Ryo Takahashi,Keito Hayashi,Ryusuke Hosaka,Wakako Yukita,Yasutaka Nakashima,Tomoyuki Yokota,Takao Someya,Mitsuhiro Kamezaki,Yoshihiro Kawahara,Motoji Yamamoto
発行日 2025-03-05 07:44:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Joint-repositionable Inner-wireless Planar Snake Robot はコメントを受け付けていません

Floorplan-SLAM: A Real-Time, High-Accuracy, and Long-Term Multi-Session Point-Plane SLAM for Efficient Floorplan Reconstruction

要約

フロアプランの再構築は、信頼できる屋内ロボットナビゲーションと高レベルのシーンの理解に不可欠な構造的事前に提供されます。
ただし、既存のアプローチでは、完全なマップで時間のかかるオフライン処理が必要であるか、高価なセンサーと実質的な計算リソースに依存する必要があります。
問題に対処するために、フロアプランスラムを提案します。フロアプランスラムは、飛行機の抽出とシームレスに対話し、バックエンドの最適化とシームレスに相互作用し、リアルタイム、高精度、およびステレオカメラのみを使用してフロアプラン再構成を達成することにより、フロアプランの再構成をマルチセッションスラムシステムにしっかりと組み込みます。
具体的には、コンパクトな平面パラメーター空間で動作し、空間的に相補的な機能を活用して、弱いテクスチャーのシーンであっても平面構造を正確に検出する堅牢な平面抽出アルゴリズムを提示します。
さらに、フロアプランの再構築モジュールとSLAMシステムと密接に組み合わせた提案を提案します。これは、継続的に最適化された飛行機のランドマークとポーズを使用して、新しい最適化問題を策定および解決し、それによってリアルタイムのインクリメンタルなフロアプランの再構成を可能にします。
マルチセッションスラムのマップマージ機能を活用することにより、この方法は、冗長なデータ収集なしで複数のセッションで長期的なフロアプラン再構成をサポートすることに注意してください。
ベクターとセルフコルコレクションのデータセットでの実験は、フロアプランスラムが平面抽出の堅牢性、推定精度、およびフロアプランの再構成の忠実度と速度の点で最先端の方法を大幅に上回ることを示しています。
分。

要約(オリジナル)

Floorplan reconstruction provides structural priors essential for reliable indoor robot navigation and high-level scene understanding. However, existing approaches either require time-consuming offline processing with a complete map, or rely on expensive sensors and substantial computational resources. To address the problems, we propose Floorplan-SLAM, which incorporates floorplan reconstruction tightly into a multi-session SLAM system by seamlessly interacting with plane extraction, pose estimation, and back-end optimization, achieving real-time, high-accuracy, and long-term floorplan reconstruction using only a stereo camera. Specifically, we present a robust plane extraction algorithm that operates in a compact plane parameter space and leverages spatially complementary features to accurately detect planar structures, even in weakly textured scenes. Furthermore, we propose a floorplan reconstruction module tightly coupled with the SLAM system, which uses continuously optimized plane landmarks and poses to formulate and solve a novel optimization problem, thereby enabling real-time incremental floorplan reconstruction. Note that by leveraging the map merging capability of multi-session SLAM, our method supports long-term floorplan reconstruction across multiple sessions without redundant data collection. Experiments on the VECtor and the self-collected datasets indicate that Floorplan-SLAM significantly outperforms state-of-the-art methods in terms of plane extraction robustness, pose estimation accuracy, and floorplan reconstruction fidelity and speed, achieving real-time performance at 25-45 FPS without GPU acceleration, which reduces the floorplan reconstruction time for a 1000 square meters scene from over 10 hours to just 9.44 minutes.

arxiv情報

著者 Haolin Wang,Zeren Lv,Hao Wei,Haijiang Zhu,Yihong Wu
発行日 2025-03-05 08:09:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Floorplan-SLAM: A Real-Time, High-Accuracy, and Long-Term Multi-Session Point-Plane SLAM for Efficient Floorplan Reconstruction はコメントを受け付けていません