VTool-R1: VLMs Learn to Think with Images via Reinforcement Learning on Multimodal Tool Use

要約

強化学習Finetuning(RFT)は、長い思考、自己修正、および効果的なツール使用を可能にすることにより、大規模な言語モデル(LLM)の推論能力を大幅に進めました。
最近の研究では、RFTをVision言語モデル(VLM)に拡張しようとしていますが、これらの取り組みは、主に静的画像入力を条件付けられたテキストのみの推論を生成し、応答の真のマルチモーダル推論に及ばない。
対照的に、Visual SketchPadなどのテスト時間方法には視覚的な手順が組み込まれていますが、トレーニングメカニズムがありません。
VTOOL-R1を紹介します。これは、VLMSを訓練して、テキストと中間の視覚的推論ステップにより、マルチモーダルな思考チェーンを生成します。
VTOOL-R1は、Pythonベースの視覚編集ツールをRFTプロセスに統合し、VLMが最終的な推論に役立つ視覚的推論ステップをいつどのように生成するかを学習できるようにします。
タスクの精度に関連する結果ベースの報酬でトレーニングされたこのアプローチは、プロセスベースの監督に依存することなく、推論のための戦略的な視覚ツールの使用を引き出します。
チャートや表に沿った構造化された視覚的質問の実験は、VTOOL-R1がVLMに「画像で考える」ように指導し、ツールでマルチモーダルの思考チェーンを生成することにより、推論パフォーマンスを向上させることを示しています。

要約(オリジナル)

Reinforcement Learning Finetuning (RFT) has significantly advanced the reasoning capabilities of large language models (LLMs) by enabling long chains of thought, self-correction, and effective tool use. While recent works attempt to extend RFT to vision-language models (VLMs), these efforts largely produce text-only reasoning conditioned on static image inputs, falling short of true multimodal reasoning in the response. In contrast, test-time methods like Visual Sketchpad incorporate visual steps but lack training mechanisms. We introduce VTool-R1, the first framework that trains VLMs to generate multimodal chains of thought by interleaving text and intermediate visual reasoning steps. VTool-R1 integrates Python-based visual editing tools into the RFT process, enabling VLMs to learn when and how to generate visual reasoning steps that benefit final reasoning. Trained with outcome-based rewards tied to task accuracy, our approach elicits strategic visual tool use for reasoning without relying on process-based supervision. Experiments on structured visual question answering over charts and tables show that VTool-R1 enhances reasoning performance by teaching VLMs to ‘think with images’ and generate multimodal chain of thoughts with tools.

arxiv情報

著者 Mingyuan Wu,Jingcheng Yang,Jize Jiang,Meitang Li,Kaizhuo Yan,Hanchao Yu,Minjia Zhang,Chengxiang Zhai,Klara Nahrstedt
発行日 2025-05-28 16:58:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | VTool-R1: VLMs Learn to Think with Images via Reinforcement Learning on Multimodal Tool Use はコメントを受け付けていません

MINDSTORES: Memory-Informed Neural Decision Synthesis for Task-Oriented Reinforcement in Embodied Systems

要約

大規模な言語モデル(LLM)は、具体化されたエージェントのゼロショットプランナーとして有望な能力を示していますが、経験から学び、持続的なメンタルモデルを構築できないことで、Minecraftのような複雑なオープンワールド環境での堅牢性が制限されます。
具体化されたエージェントが環境との自然な相互作用を通じてメンタルモデルを構築および活用できるようにする経験豊富な計画フレームワークであるMindstoresを紹介します。
人間が認知的メンタルモデルを構築および改良する方法からインスピレーションを得て、私たちのアプローチは、将来の計画の反復を知らせる過去の経験のデータベースを維持することにより、既存のゼロショットLLM計画を拡張します。
重要なイノベーションは、蓄積された経験を(状態、タスク、計画、結果)タプルの自然言語の埋め込みとして表しています。これは、LLMプランナーによって効率的に検索および推論され、新しい状態とタスクの洞察を生み出し、計画の改良をガイドすることができます。
Minecraftの低レベルコントロールを提供するMinecraftのエージェントのシミュレーション環境であるMinedojo環境での広範な実験を通じて、Mindstoresは既存のメモリベースのLLMプランナーよりも知識を学習し、適用しながら、ゼロショットアプローチの柔軟性と一般化の利点を維持し、より重要なAIシステムを実現することができます。

要約(オリジナル)

While large language models (LLMs) have shown promising capabilities as zero-shot planners for embodied agents, their inability to learn from experience and build persistent mental models limits their robustness in complex open-world environments like Minecraft. We introduce MINDSTORES, an experience-augmented planning framework that enables embodied agents to build and leverage mental models through natural interaction with their environment. Drawing inspiration from how humans construct and refine cognitive mental models, our approach extends existing zero-shot LLM planning by maintaining a database of past experiences that informs future planning iterations. The key innovation is representing accumulated experiences as natural language embeddings of (state, task, plan, outcome) tuples, which can then be efficiently retrieved and reasoned over by an LLM planner to generate insights and guide plan refinement for novel states and tasks. Through extensive experiments in the MineDojo environment, a simulation environment for agents in Minecraft that provides low-level controls for Minecraft, we find that MINDSTORES learns and applies its knowledge significantly better than existing memory-based LLM planners while maintaining the flexibility and generalization benefits of zero-shot approaches, representing an important step toward more capable embodied AI systems that can learn continuously through natural experience.

arxiv情報

著者 Anirudh Chari,Suraj Reddy,Aditya Tiwari,Richard Lian,Brian Zhou
発行日 2025-05-28 16:59:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | MINDSTORES: Memory-Informed Neural Decision Synthesis for Task-Oriented Reinforcement in Embodied Systems はコメントを受け付けていません

Self-Error-Instruct: Generalizing from Errors for LLMs Mathematical Reasoning

要約

大規模な言語モデルは、さまざまなドメインで強力なパフォーマンスを示していますが、数学的な推論において多くの悪いケースと苦労しています。
エラーから学習するための以前のアプローチは、孤立した悪いケースからのみ推定することにより、トレーニングデータを統合し、それによりこれらのケースに固有の広範なパターンを一般化することに失敗します。
このホワイトペーパーでは、これらのモデルの弱点に対処し、より一般化されたターゲットトレーニングデータを合成するフレームワークである自己誤差(SEI)を紹介します。
具体的には、悪いケースを特定するために、2つの数学データセット、GSM8Kと数学のターゲットモデルを調査します。
次に、インストラクターモデル(GPT-4O)分析に基づいてこれらのケースのエラーキーフレーズを生成し、これらのキーフレーズをクラスタリングすることによりエラータイプを識別します。
次に、識別された各エラータイプの各世代の間にいくつかの悪いケースをサンプリングし、それらをインストラクターモデルに入力します。これは、自己インストラクションアプローチを使用して追加のトレーニングデータを合成します。
この新しいデータは、最も効果的な例のみが保持されるように、ワンショット学習プロセスを通じて改良されます。
最後に、これらのキュレーションされたデータを使用してターゲットモデルを微調整し、プロセスを繰り返し繰り返してパフォーマンスを向上させます。
さまざまなモデルにフレームワークを適用し、ドメイン内およびドメイン外の数学データセットの両方で推論能力の改善を観察します。
これらの結果は、エラーの一般化を通じてLLMSの数学的推論を改善する際の自己誤差指導の有効性を示しています。

要約(オリジナル)

Although large language models demonstrate strong performance across various domains, they still struggle with numerous bad cases in mathematical reasoning. Previous approaches to learning from errors synthesize training data by solely extrapolating from isolated bad cases, thereby failing to generalize the extensive patterns inherent within these cases. This paper presents Self-Error-Instruct (SEI), a framework that addresses these model weaknesses and synthesizes more generalized targeted training data. Specifically, we explore a target model on two mathematical datasets, GSM8K and MATH, to pinpoint bad cases. Then, we generate error keyphrases for these cases based on the instructor model’s (GPT-4o) analysis and identify error types by clustering these keyphrases. Next, we sample a few bad cases during each generation for each identified error type and input them into the instructor model, which synthesizes additional training data using a self-instruct approach. This new data is refined through a one-shot learning process to ensure that only the most effective examples are kept. Finally, we use these curated data to fine-tune the target model, iteratively repeating the process to enhance performance. We apply our framework to various models and observe improvements in their reasoning abilities across both in-domain and out-of-domain mathematics datasets. These results demonstrate the effectiveness of self-error instruction in improving LLMs’ mathematical reasoning through error generalization.

arxiv情報

著者 Erxin Yu,Jing Li,Ming Liao,Qi Zhu,Boyang Xue,Minghui Xu,Baojun Wang,Lanqing Hong,Fei Mi,Lifeng Shang
発行日 2025-05-28 17:02:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Self-Error-Instruct: Generalizing from Errors for LLMs Mathematical Reasoning はコメントを受け付けていません

HDDLGym: A Tool for Studying Multi-Agent Hierarchical Problems Defined in HDDL with OpenAI Gym

要約

近年、Openai Gymのようなツールを使用してRehnection Learning(RL)方法が広くテストされていますが、これらの環境の多くのタスクも階層的計画の恩恵を受ける可能性があります。
ただし、階層計画をRLとシームレスに統合できるツールが不足しています。
古典的な計画で使用される階層ドメイン定義言語(HDDL)は、このギャップに対処するためにモデルベースのRLに適した構造化アプローチを導入します。
この統合をブリッジするために、HDDLドメインと問題からOpenAIジム環境を自動的に生成するPythonベースのツールであるHDDLGYMを導入します。
HDDLGYMは、RLと階層計画の間のリンクとして機能し、マルチエージェントシナリオをサポートし、エージェント間の共同計画を可能にします。
このペーパーでは、HDDLGYMの設計と実装の概要を説明し、HDDLをジムインターフェースと統合することに伴う課題と設計の選択を強調し、RLポリシーを適用して階層計画をサポートします。
また、HDDLGYMフレームワークを使用するための詳細な指示とデモンストレーションを提供します。これには、既存のHDDLドメインとの作業方法や、輸送ドメインによって例示される国際計画競技の問題などがあります。
さらに、マルチエージェントシナリオ用の新しいHDDLドメインの作成に関するガイダンスを提供し、加熱していないドメインでのHDDLGYMの実際の使用を実証します。
HDDLとジムの利点を活用することにより、HDDLGYMは、特にマルチエージェントのコンテキストで、階層計画でRLを研究するための貴重なツールになることを目指しています。

要約(オリジナル)

In recent years, reinforcement learning (RL) methods have been widely tested using tools like OpenAI Gym, though many tasks in these environments could also benefit from hierarchical planning. However, there is a lack of a tool that enables seamless integration of hierarchical planning with RL. Hierarchical Domain Definition Language (HDDL), used in classical planning, introduces a structured approach well-suited for model-based RL to address this gap. To bridge this integration, we introduce HDDLGym, a Python-based tool that automatically generates OpenAI Gym environments from HDDL domains and problems. HDDLGym serves as a link between RL and hierarchical planning, supporting multi-agent scenarios and enabling collaborative planning among agents. This paper provides an overview of HDDLGym’s design and implementation, highlighting the challenges and design choices involved in integrating HDDL with the Gym interface, and applying RL policies to support hierarchical planning. We also provide detailed instructions and demonstrations for using the HDDLGym framework, including how to work with existing HDDL domains and problems from International Planning Competitions, exemplified by the Transport domain. Additionally, we offer guidance on creating new HDDL domains for multi-agent scenarios and demonstrate the practical use of HDDLGym in the Overcooked domain. By leveraging the advantages of HDDL and Gym, HDDLGym aims to be a valuable tool for studying RL in hierarchical planning, particularly in multi-agent contexts.

arxiv情報

著者 Ngoc La,Ruaridh Mon-Williams,Julie A. Shah
発行日 2025-05-28 17:10:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.MA | HDDLGym: A Tool for Studying Multi-Agent Hierarchical Problems Defined in HDDL with OpenAI Gym はコメントを受け付けていません

On the performance of machine-learning assisted Monte Carlo in sampling from simple statistical physics models

要約

近年、従来の方法を使用して研究できないサンプルが困難なシステムのシミュレーションを支援するために、機械学習技術の適用が増加しています。
多くの異なるアーキテクチャと手順の導入にもかかわらず、最適ではない実装のリスクがあるため、幅広い理論的理解がまだ不足しています。
このギャップに対処するための最初のステップとして、ここでは、キュリーワイスモデルの浅い製造アーキテクチャに適用される広く使用されているシーケンシャル温度手順の完全な分析研究を提供します。
この作業の貢献は2つあります。まず、最適な重みと勾配降下最適化下でのトレーニングの説明を説明します。
第二に、地元のメトロポリスモンテカルロのステップを追加しない場合となしで、シーケンシャルテンペリングで起こることを比較します。
したがって、この場合に適用するための最良の手順について理論的予測を行うことができます。
この作業は、機械学習技術をモンテカルロのサンプリングと最適化に統合するための明確な理論的根拠を確立します。

要約(オリジナル)

Recent years have seen a rise in the application of machine learning techniques to aid the simulation of hard-to-sample systems that cannot be studied using traditional methods. Despite the introduction of many different architectures and procedures, a wide theoretical understanding is still lacking, with the risk of suboptimal implementations. As a first step to address this gap, we provide here a complete analytic study of the widely-used Sequential Tempering procedure applied to a shallow MADE architecture for the Curie-Weiss model. The contribution of this work is twofold: firstly, we give a description of the optimal weights and of the training under Gradient Descent optimization. Secondly, we compare what happens in Sequential Tempering with and without the addition of local Metropolis Monte Carlo steps. We are thus able to give theoretical predictions on the best procedure to apply in this case. This work establishes a clear theoretical basis for the integration of machine learning techniques into Monte Carlo sampling and optimization.

arxiv情報

著者 Luca Maria Del Bono,Federico Ricci-Tersenghi,Francesco Zamponi
発行日 2025-05-28 17:13:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.dis-nn, cond-mat.stat-mech, cs.AI, cs.LG, physics.comp-ph | On the performance of machine-learning assisted Monte Carlo in sampling from simple statistical physics models はコメントを受け付けていません

Machine Unlearning under Overparameterization

要約

マシンの非学習アルゴリズムは、特定のトレーニングサンプルの影響を削除することを目的としており、残りのデータのみでのトレーニングから生じるモデルを理想的に回復することです。
私たちは、多くのモデルがデータを補間するオーバーパラメータ化された設定で学習し、保持されているセット$ \ unicode {x2013} $の損失最小化ソリューションを定義している$ \ unicode {x2013} $の以前の作業のように、元のモデルが既に条件を満たしているため、$ \ unicode {x2013} $が既に存在する可能性があるためです。
このレジームでは、損失の勾配が消滅し、勾配摂動に基づいて以前の方法を効果的ではなく、新しい未学習の定義とアルゴリズムの両方を動機付けます。
この設定では、未解決のソリューションを保持されたデータ上の最小複雑さの挿入器として定義し、元のソリューションで保持されているセットのモデル勾配へのアクセスのみを必要とする新しいアルゴリズムフレームワークを提案します。
これらのモデル勾配に直交するように制限されている摂動に対する正規化された目的を最小限に抑えます。これは、補間条件の1次緩和です。
さまざまなモデルクラスについて、正確で概算の未学習保証を提供し、フレームワークの実装がさまざまな未学習実験で既存のベースラインを上回ることを実証します。

要約(オリジナル)

Machine unlearning algorithms aim to remove the influence of specific training samples, ideally recovering the model that would have resulted from training on the remaining data alone. We study unlearning in the overparameterized setting, where many models interpolate the data, and defining the unlearning solution as any loss minimizer over the retained set$\unicode{x2013}$as in prior work in the underparameterized setting$\unicode{x2013}$is inadequate, since the original model may already interpolate the retained data and satisfy this condition. In this regime, loss gradients vanish, rendering prior methods based on gradient perturbations ineffective, motivating both new unlearning definitions and algorithms. For this setting, we define the unlearning solution as the minimum-complexity interpolator over the retained data and propose a new algorithmic framework that only requires access to model gradients on the retained set at the original solution. We minimize a regularized objective over perturbations constrained to be orthogonal to these model gradients, a first-order relaxation of the interpolation condition. For different model classes, we provide exact and approximate unlearning guarantees, and we demonstrate that an implementation of our framework outperforms existing baselines across various unlearning experiments.

arxiv情報

著者 Jacob L. Block,Aryan Mokhtari,Sanjay Shakkottai
発行日 2025-05-28 17:14:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Machine Unlearning under Overparameterization はコメントを受け付けていません

Adjoint Sampling: Highly Scalable Diffusion Samplers via Adjoint Matching

要約

非正常密度またはエネルギー関数からサンプリングする拡散プロセスを学習するための非常にスケーラブルで効率的なアルゴリズムであるAdjointサンプリングを紹介します。
これは、エネルギー評価やモデルサンプルの数よりもはるかに勾配的な更新を可能にする最初のポリシーアプローチであり、同様の方法で以前に調査されたよりもはるかに大きな問題設定にスケーリングできるようにします。
私たちのフレームワークは、理論的には確率的最適制御に基づいており、サンプルがターゲット分布に向かってプッシュする是正措置を必要とせずに訓練することができる補間マッチングと同じ理論的保証を共有しています。
デカルト座標とねじれ座標の両方で分子をモデル化するために、主要な対称性と周期的境界条件を組み込む方法を示します。
古典的なエネルギー関数に関する広範な実験を通じて、私たちのアプローチの有効性を実証し、多くの分子システムで償却されたコンフォーマー生成を実行するニューラルネットワークベースのエネルギーモデルにさらに拡大します。
高度にスケーラブルなサンプリング方法の開発に関するさらなる研究を奨励するために、これらの挑戦的なベンチマークをオープンソースにすることを計画しています。

要約(オリジナル)

We introduce Adjoint Sampling, a highly scalable and efficient algorithm for learning diffusion processes that sample from unnormalized densities, or energy functions. It is the first on-policy approach that allows significantly more gradient updates than the number of energy evaluations and model samples, allowing us to scale to much larger problem settings than previously explored by similar methods. Our framework is theoretically grounded in stochastic optimal control and shares the same theoretical guarantees as Adjoint Matching, being able to train without the need for corrective measures that push samples towards the target distribution. We show how to incorporate key symmetries, as well as periodic boundary conditions, for modeling molecules in both cartesian and torsional coordinates. We demonstrate the effectiveness of our approach through extensive experiments on classical energy functions, and further scale up to neural network-based energy models where we perform amortized conformer generation across many molecular systems. To encourage further research in developing highly scalable sampling methods, we plan to open source these challenging benchmarks, where successful methods can directly impact progress in computational chemistry.

arxiv情報

著者 Aaron Havens,Benjamin Kurt Miller,Bing Yan,Carles Domingo-Enrich,Anuroop Sriram,Brandon Wood,Daniel Levine,Bin Hu,Brandon Amos,Brian Karrer,Xiang Fu,Guan-Horng Liu,Ricky T. Q. Chen
発行日 2025-05-28 17:16:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Adjoint Sampling: Highly Scalable Diffusion Samplers via Adjoint Matching はコメントを受け付けていません

One Rank at a Time: Cascading Error Dynamics in Sequential Learning

要約

複雑なタスクがよりシンプルで階層的なコンポーネントに分解される順次学習は、AIのパラダイムとして浮上しています。
このホワイトペーパーでは、ランク1サブスペースを順番に学習するときのエラーがどのように伝播するかに特に焦点を当てた、低ランク線形回帰のレンズを介して順次学習を見ています。
学習プロセスを一連のランク1推定問題に分解する分析フレームワークを提示します。そこでは、各推定は以前のステップの精度に依存します。
私たちの貢献は、このシーケンシャルプロセスにおけるエラー伝播の特性評価であり、たとえば、計算予算が限られているため、エラーがどのようにエラーがどのようにモデルの精度に影響するかについての境界を確立します。
これらのエラーは、アルゴリズムの設計と安定性保証の両方に影響を与え、予測可能な方法で悪化することを証明します。

要約(オリジナル)

Sequential learning — where complex tasks are broken down into simpler, hierarchical components — has emerged as a paradigm in AI. This paper views sequential learning through the lens of low-rank linear regression, focusing specifically on how errors propagate when learning rank-1 subspaces sequentially. We present an analysis framework that decomposes the learning process into a series of rank-1 estimation problems, where each subsequent estimation depends on the accuracy of previous steps. Our contribution is a characterization of the error propagation in this sequential process, establishing bounds on how errors — e.g., due to limited computational budgets and finite precision — affect the overall model accuracy. We prove that these errors compound in predictable ways, with implications for both algorithmic design and stability guarantees.

arxiv情報

著者 Mahtab Alizadeh Vandchali,Fangshuo,Liao,Anastasios Kyrillidis
発行日 2025-05-28 17:16:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, math.OC | One Rank at a Time: Cascading Error Dynamics in Sequential Learning はコメントを受け付けていません

Effective and Efficient One-pass Compression of Speech Foundation Models Using Sparsity-aware Self-pinching Gates

要約

このペーパーでは、モデルの剪定とパラメーターの更新を単一の段階にしっかりと統合する音声基礎モデルの圧縮のための新しいアプローチを紹介します。
単一の学習可能なしきい値のみを含む非常にコンパクトなレイヤーレベルの結ばれた自己ピンピンゲートは、非圧縮モデルと共同で訓練され、細粒ニューロンレベルの剪定で使用されます。
Librispeech-100HR Corpusで実施された実験は、このアプローチがWAV2VEC2.0ベースおよびヒューベルト – ラージモデルのパラメーターの数をそれぞれ65%および60%減らすことを示唆していますが、テストクリーンデータセットでは統計的に有意な単語エラー率(WER)の増加はありません。
以前に公開された同じタスクで公開された方法と比較して、私たちのアプローチは、4.26Xの比較可能なモデル圧縮率の下でテストクリーンデータセットで7.05%の最低WERを達成するだけでなく、少なくとも25%少ないモデル圧縮時間で動作します。

要約(オリジナル)

This paper presents a novel approach for speech foundation models compression that tightly integrates model pruning and parameter update into a single stage. Highly compact layer-level tied self-pinching gates each containing only a single learnable threshold are jointly trained with uncompressed models and used in fine-grained neuron level pruning. Experiments conducted on the LibriSpeech-100hr corpus suggest that our approach reduces the number of parameters of wav2vec2.0-base and HuBERT-large models by 65% and 60% respectively, while incurring no statistically significant word error rate (WER) increase on the test-clean dataset. Compared to previously published methods on the same task, our approach not only achieves the lowest WER of 7.05% on the test-clean dataset under a comparable model compression ratio of 4.26x, but also operates with at least 25% less model compression time.

arxiv情報

著者 Haoning Xu,Zhaoqing Li,Youjun Chen,Huimeng Wang,Guinan Li,Mengzhe Geng,Chengxi Deng,Xunying Liu
発行日 2025-05-28 17:24:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SD, eess.AS | Effective and Efficient One-pass Compression of Speech Foundation Models Using Sparsity-aware Self-pinching Gates はコメントを受け付けていません

Robust Localization, Mapping, and Navigation for Quadruped Robots

要約

四足ロボットは現在、強力な補強学習コントローラーと安価で堅牢な商用プラットフォームの可用性のおかげで、ロボット研究のための広範なプラットフォームです。
ただし、現実の世界でテクノロジーの採用を拡大するには、深度カメラなどの低コストセンサーにのみ依存して、堅牢なナビゲーションスタックが必要です。
この論文では、低コストの象限ロボットの堅牢なローカリゼーション、マッピング、およびナビゲーションシステムに向けた最初のステップを紹介します。
この目的を追求して、接触支援の運動学的、視覚的inertial延長、および深さ安定化された視力を組み合わせて、システムの安定性と精度を向上させます。
シミュレーションと2つの異なる現実世界の四足動物プラットフォームでの結果は、システムが環境の正確な2Dマップを生成し、自体を堅牢にローカライズし、自律的にナビゲートできることを示しています。
さらに、システムの重要なコンポーネントの詳細なアブレーション研究と、それらのローカリゼーション精度への影響を提示します。
ビデオ、コード、および追加の実験は、プロジェクトWebサイトhttps://sites.google.com/view/low-cost-quadruped-slamにあります。

要約(オリジナル)

Quadruped robots are currently a widespread platform for robotics research, thanks to powerful Reinforcement Learning controllers and the availability of cheap and robust commercial platforms. However, to broaden the adoption of the technology in the real world, we require robust navigation stacks relying only on low-cost sensors such as depth cameras. This paper presents a first step towards a robust localization, mapping, and navigation system for low-cost quadruped robots. In pursuit of this objective we combine contact-aided kinematic, visual-inertial odometry, and depth-stabilized vision, enhancing stability and accuracy of the system. Our results in simulation and two different real-world quadruped platforms show that our system can generate an accurate 2D map of the environment, robustly localize itself, and navigate autonomously. Furthermore, we present in-depth ablation studies of the important components of the system and their impact on localization accuracy. Videos, code, and additional experiments can be found on the project website: https://sites.google.com/view/low-cost-quadruped-slam

arxiv情報

著者 Dyuman Aditya,Junning Huang,Nico Bohlinger,Piotr Kicki,Krzysztof Walas,Jan Peters,Matteo Luperto,Davide Tateo
発行日 2025-05-28 17:28:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Robust Localization, Mapping, and Navigation for Quadruped Robots はコメントを受け付けていません