EcoAgent: An Efficient Edge-Cloud Collaborative Multi-Agent Framework for Mobile Automation

要約

(マルチモーダル)大きな言語モデル((M)LLMS)を搭載したクラウドベースのモバイルエージェントは、強力な推論能力を提供しますが、高遅延とコストに悩まされています。
微調整された(M)SLMSがエッジの展開を有効にしますが、一般的な能力を失い、複雑なタスクと闘うことがよくあります。
これに対処するために、\ textbf {ecoagent}、\ textbf {e} dge- \ textbf {c} loud c \ textbf {o} llaborativeマルチエージェントフレームワークをモバイル自動化用に提案します。
Ecoagentは、クラウドベースの計画エージェントと2つのエッジベースのエージェントの間の閉ループコラボレーションを特徴としています。アクション実行の実行エージェントと、結果を検証するための観測エージェントです。
観察剤は、事前に理解したモジュールを使用して画面画像を簡潔なテキストに圧縮し、トークンの使用と通信のオーバーヘッドを削減します。
障害の場合、計画エージェントはメモリモジュールを介して画面履歴を取得し、反射モジュールを介して再生します。
AndroidWorldでの実験は、Ecoagentがクラウドベースのモバイルエージェントに匹敵するタスクの成功率を達成し、MLLMトークンの消費を大幅に削減し、効率的で実用的なモバイルオートメーションを可能にすることを示しています。

要約(オリジナル)

Cloud-based mobile agents powered by (multimodal) large language models ((M)LLMs) offer strong reasoning abilities but suffer from high latency and cost. While fine-tuned (M)SLMs enable edge deployment, they often lose general capabilities and struggle with complex tasks. To address this, we propose \textbf{EcoAgent}, an \textbf{E}dge-\textbf{C}loud c\textbf{O}llaborative multi-agent framework for mobile automation. EcoAgent features a closed-loop collaboration among a cloud-based Planning Agent and two edge-based agents: the Execution Agent for action execution and the Observation Agent for verifying outcomes. The Observation Agent uses a Pre-Understanding Module to compress screen images into concise text, reducing token usage and communication overhead. In case of failure, the Planning Agent retrieves screen history through a Memory Module and replans via a Reflection Module. Experiments on AndroidWorld show that EcoAgent achieves task success rates comparable to cloud-based mobile agents while significantly reducing MLLM token consumption, enabling efficient and practical mobile automation.

arxiv情報

著者 Biao Yi,Xavier Hu,Yurun Chen,Shengyu Zhang,Hongxia Yang,Fan Wu,Fei Wu
発行日 2025-05-09 07:47:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | EcoAgent: An Efficient Edge-Cloud Collaborative Multi-Agent Framework for Mobile Automation はコメントを受け付けていません

Deep Optimal Transport for Domain Adaptation on SPD Manifolds

要約

幾何学的なディープラーニングの最近の進歩により、特にセッション全体で分布シフトに苦しむニューロイメージングデータの対称陽性定義(SPD)マニホールドのドメイン適応に対する機械学習コミュニティからの注目が高まっています。
これらのデータは、通常、脳信号の共分散行列として表され、その対称性と正の明確さのために本質的にSPDマニホールドにあります。
ただし、従来のドメイン適応方法は、共分散マトリックスに直接適用すると、この幾何学的構造を見落としてしばしば見落としているため、最適ではないパフォーマンスが発生する可能性があります。
この問題に対処するために、最適な輸送理論とSPDマニホールドのジオメトリを組み合わせた新しい幾何学的ディープラーニングフレームワークを紹介します。
私たちのアプローチは、マニホールド構造を尊重しながらデータ分布を調整し、限界と条件付きの矛盾の両方を効果的に削減します。
3つのクロスセッション脳のコンピューターインターフェイスデータセット、KU、BNCI2014001、およびBNCI2015001でメソッドを検証し、データの固有のジオメトリを維持しながらベースラインアプローチを常に上回ります。
また、学習した埋め込みの挙動をよりよく説明するために、定量的な結果と視覚化を提供します。

要約(オリジナル)

Recent progress in geometric deep learning has drawn increasing attention from the machine learning community toward domain adaptation on symmetric positive definite (SPD) manifolds, especially for neuroimaging data that often suffer from distribution shifts across sessions. These data, typically represented as covariance matrices of brain signals, inherently lie on SPD manifolds due to their symmetry and positive definiteness. However, conventional domain adaptation methods often overlook this geometric structure when applied directly to covariance matrices, which can result in suboptimal performance. To address this issue, we introduce a new geometric deep learning framework that combines optimal transport theory with the geometry of SPD manifolds. Our approach aligns data distributions while respecting the manifold structure, effectively reducing both marginal and conditional discrepancies. We validate our method on three cross-session brain computer interface datasets, KU, BNCI2014001, and BNCI2015001, where it consistently outperforms baseline approaches while maintaining the intrinsic geometry of the data. We also provide quantitative results and visualizations to better illustrate the behavior of the learned embeddings.

arxiv情報

著者 Ce Ju,Cuntai Guan
発行日 2025-05-08 14:50:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, eess.SP, I.2.0 | Deep Optimal Transport for Domain Adaptation on SPD Manifolds はコメントを受け付けていません

PointBA: Towards Backdoor Attacks in 3D Point Cloud

要約

3Dディープラーニングは、多くの安全性の高いアプリケーションを含むさまざまなタスクでますます人気があります。
ただし、最近、いくつかの作品が3Dディープモデルのセキュリティ問題を提起しています。
彼らのほとんどは敵対的な攻撃を考慮していますが、バックドア攻撃は実際には3Dディープラーニングシステムにとってより深刻な脅威であるが、未開拓のままであることを特定します。
3Dポイントクラウドでバックドア攻撃を、3Dデータとネットワークの一意のプロパティを活用する統一されたフレームワークを備えています。
特に、ポイントクラウドに2つの攻撃アプローチを設計します。ポイズンラベルバックドア攻撃(PointPBA)とクリーンラベルバックドア攻撃(PointCBA)です。
最初のものは実際には簡単で効果的ですが、後者は特定のデータ検査があると仮定してより洗練されています。
攻撃アルゴリズムは、主に動機付けられ、1)空間変換下での深いモデルの脆弱性を示唆する3D敵対サンプルの最近の発見。
2)最適化方法と新しいタスクを埋め込む可能性を通じて、データの特徴を操作する提案された特徴の解き角度技術。
広範な実験では、さまざまな3Dデータセットとモデルで95%以上の成功率を持つPointPBAの有効性と、約50%の成功率を持つよりステルスなPointcbaが示されています。
3Dポイントクラウドで提案されているバックドア攻撃は、3Dディープモデルの堅牢性を改善するためのベースラインとして実行されると予想されます。

要約(オリジナル)

3D deep learning has been increasingly more popular for a variety of tasks including many safety-critical applications. However, recently several works raise the security issues of 3D deep models. Although most of them consider adversarial attacks, we identify that backdoor attack is indeed a more serious threat to 3D deep learning systems but remains unexplored. We present the backdoor attacks in 3D point cloud with a unified framework that exploits the unique properties of 3D data and networks. In particular, we design two attack approaches on point cloud: the poison-label backdoor attack (PointPBA) and the clean-label backdoor attack (PointCBA). The first one is straightforward and effective in practice, while the latter is more sophisticated assuming there are certain data inspections. The attack algorithms are mainly motivated and developed by 1) the recent discovery of 3D adversarial samples suggesting the vulnerability of deep models under spatial transformation; 2) the proposed feature disentanglement technique that manipulates the feature of the data through optimization methods and its potential to embed a new task. Extensive experiments show the efficacy of the PointPBA with over 95% success rate across various 3D datasets and models, and the more stealthy PointCBA with around 50% success rate. Our proposed backdoor attack in 3D point cloud is expected to perform as a baseline for improving the robustness of 3D deep models.

arxiv情報

著者 Xinke Li,Zhirui Chen,Yue Zhao,Zekun Tong,Yabang Zhao,Andrew Lim,Joey Tianyi Zhou
発行日 2025-05-08 13:20:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.CV, cs.LG | PointBA: Towards Backdoor Attacks in 3D Point Cloud はコメントを受け付けていません

Global-Local Interface with Selective Direct and Singularity-Avoiding Motion Mapping for Intuitive Teleoperation

要約

このホワイトペーパーでは、グローバルローカルテレオ操作インターフェイスを紹介します。これは、微細なエンド効果操作から大規模なマニピュレーターの位置を分離することにより、ヒトとロボットの相互作用を強化する階層的なフレームワークです。
グローバルコンポーネントは、効率的なワークスペーストラバーサルを可能にしますが、ローカルコンポーネントは正確で器用な制御を促進します。
特に細かい操作中に奴隷側の運動学的特異性に対処するために、安定性と直感性の両方を高める特異性を承認するモーションマッピング戦略を提案します。
さらに、局所制御下での関節運動の滑らかさを特徴付ける運用上のヤコビアンの概念を紹介します。
G-Lインターフェイスは、ダイレクトマッピングと特異性承認マッピングの2つのバリアントに実装され、精密タスクと複雑な動きを含むハードウェア実験を通じて検証されます。
結果は、従来のグローバルまたはローカルのみのシステムにわたるタスクの成功率、効率、およびユーザーエクスペリエンスの大幅な改善を示しています。

要約(オリジナル)

This paper presents the Global-Local Teleoperation Interface, a hierarchical framework that enhances human-robot interaction by decoupling large-scale manipulator positioning from fine end-effector manipulation. The global component enables efficient workspace traversal, while the local component facilitates precise and dexterous control. To address slave-side kinematic singularities-especially during fine manipulation, we propose a singularity-avoiding motion mapping strategy that enhances both stability and intuitiveness. We further introduce the concept of an operational Jacobian to characterize the smoothness of joint motion under local control. The G-L interface is implemented in two variants: Direct Mapping and Singularity-Avoiding Mapping, and is validated through hardware experiments involving precision tasks and complex motion. Results show substantial improvements in task success rate, efficiency, and user experience over conventional global or local-only systems.

arxiv情報

著者 Jianshu Zhou,Boyuan Liang,Junda Huang,Ian Zhang,Zhengyang Liu,Pieter Abbeel,Masayoshi Tomizuka
発行日 2025-05-07 19:15:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Global-Local Interface with Selective Direct and Singularity-Avoiding Motion Mapping for Intuitive Teleoperation はコメントを受け付けていません

Data-Dependent Hidden Markov Model with Off-Road State Determination and Real-Time Viterbi Algorithm for Lane Determination in Autonomous Vehicles

要約

レーンの決定とレーンシーケンスの決定は、多くの接続および自動化された車両(CAV)アプリケーションにとって重要なコンポーネントです。
レーンの決定は、Hidden Markovモデル(HMM)を使用して他の方法の中でも解決されています。
レーンシーケンス決定の既存のHMM文献では、ユーザー修正パラメーターを使用して経験的定義を使用して、HMM確率を計算します。
文献の確率定義は、オフロードポジションの確率を直接計算できないため、HMMの休憩を引き起こす可能性があり、データの後処理が必要です。
このホワイトペーパーでは、道路と車両の物理的特性とセンサーの確率的特性を使用して、時変HMMを開発します。
このアプローチにより、パラメーターチューニングなしでセンサーデータに条件付けられた排出および遷移確率モデルが得られます。
また、車両が道路車線(例:肩やUターンの作成)にない可能性を説明しており、これにより、HMM処理の休憩に対処するための後処理の必要性がなくなります。
このアプローチでは、ViterBiアルゴリズムとHMMをセンサーデータに条件付けする必要があります。センサーデータは、車両が移動した最も馬鹿げたレーンのシーケンスを生成するために使用されます。
提案されたアプローチは、平均精度95.9%を達成します。
既存の文献と比較して、これは提案された遷移確率を実装することにより、2.25%の平均増加と、提案された遷移確率と排出確率の両方を実装することにより5.1%の平均増加を提供します。

要約(オリジナル)

Lane determination and lane sequence determination are important components for many Connected and Automated Vehicle (CAV) applications. Lane determination has been solved using Hidden Markov Model (HMM) among other methods. The existing HMM literature for lane sequence determination uses empirical definitions with user-modified parameters to calculate HMM probabilities. The probability definitions in the literature can cause breaks in the HMM due to the inability to directly calculate probabilities of off-road positions, requiring post-processing of data. This paper develops a time-varying HMM using the physical properties of the roadway and vehicle, and the stochastic properties of the sensors. This approach yields emission and transition probability models conditioned on the sensor data without parameter tuning. It also accounts for the probability that the vehicle is not in any roadway lane (e.g., on the shoulder or making a U-turn), which eliminates the need for post-processing to deal with breaks in the HMM processing. This approach requires adapting the Viterbi algorithm and the HMM to be conditioned on the sensor data, which are then used to generate the most-likely sequence of lanes the vehicle has traveled. The proposed approach achieves an average accuracy of 95.9%. Compared to the existing literature, this provides an average increase of 2.25% by implementing the proposed transition probability and an average increase of 5.1% by implementing both the proposed transition and emission probabilities.

arxiv情報

著者 Mike Stas,Wang Hu,Jay A. Farrell
発行日 2025-05-07 19:42:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Data-Dependent Hidden Markov Model with Off-Road State Determination and Real-Time Viterbi Algorithm for Lane Determination in Autonomous Vehicles はコメントを受け付けていません

Prismatic-Bending Transformable (PBT) Joint for a Modular, Foldable Manipulator with Enhanced Reachability and Dexterity

要約

伝統的に古典的なジョイントリンクの明確な構造で設計されたロボットマニピュレーターは、産業用途で優れていますが、より高い器用さと適応性を必要とする人間中心の汎用タスクで課題に直面しています。
これらの課題に対処するために、単一モジュール内の曲げ、回転、伸長/収縮を提供する方向性メンテナンス機能を備えた新規のハサミ風のメカニズムを備えたプリズムベンディング変換可能(PBT)ジョイントを提案します。
この設計により、モジュール式、再構成可能で、多様なタスクに合わせてスケーラブルな変換可能なキネマティックチェーンが可能になります。
機械的設計、最適化、運動学的および動的モデリング、およびPBTジョイントの実験的検証について詳しく説明し、折りたたみ可能なモジュラーロボットマニピュレーターへの統合を実証します。
PBTジョイントは、単一の在庫保持ユニット(SKU)として機能し、マニピュレーターを標準化されたPBTジョイントから完全に構築できるようにします。
また、リストモジュール、設計、展開、輸送、メンテナンスなどの既存のシステムのモジュラー拡張機能としても機能します。
3つの関節サイズが開発およびテストされ、特に限られたスペースと乱雑なスペースで、器用さ、到達可能性、適応性の向上を紹介します。
この作業は、ロボットマニピュレーター開発に対する有望なアプローチを提示し、動的で制約された環境での動作のためのコンパクトで汎用性の高いソリューションを提供します。

要約(オリジナル)

Robotic manipulators, traditionally designed with classical joint-link articulated structures, excel in industrial applications but face challenges in human-centered and general-purpose tasks requiring greater dexterity and adaptability. To address these challenges, we propose the Prismatic-Bending Transformable (PBT) Joint, a novel, scissors-inspired mechanism with directional maintenance capability that provides bending, rotation, and elongation/contraction within a single module. This design enables transformable kinematic chains that are modular, reconfigurable, and scalable for diverse tasks. We detail the mechanical design, optimization, kinematic and dynamic modeling, and experimental validation of the PBT joint, demonstrating its integration into foldable, modular robotic manipulators. The PBT joint functions as a single stock keeping unit (SKU), enabling manipulators to be constructed entirely from standardized PBT joints. It also serves as a modular extension for existing systems, such as wrist modules, streamlining design, deployment, transportation, and maintenance. Three joint sizes have been developed and tested, showcasing enhanced dexterity, reachability, and adaptability, particularly in confined and cluttered spaces. This work presents a promising approach to robotic manipulator development, providing a compact and versatile solution for operation in dynamic and constrained environments.

arxiv情報

著者 Jianshu Zhou,Junda Huang,Boyuan Liang,Xiang Zhang,Xin Ma,Masayoshi Tomizuka
発行日 2025-05-07 20:42:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Prismatic-Bending Transformable (PBT) Joint for a Modular, Foldable Manipulator with Enhanced Reachability and Dexterity はコメントを受け付けていません

Simplification of Robotic System Model Analysis by Petri Net Meta-Model Property Transfer

要約

このホワイトペーパーでは、ロボットシステム階層ペトリネット(RSHPN)メタモデルプロパティが設計されたシステムのモデルへの転送により、ロボットシステムモデル分析の簡素化を示します。
重要な貢献には、次のものが含まれます。1)RSHPNメタモデルプロパティの分析。
2)RSHPN分析の個々のペトリ網の分析への分解、したがって州空間爆発の減少。
3)RSHPNメタモデルプロパティの生成されたモデルへの転送であるため、新しいロボットシステムを作成する際のRSHPNモデルの完全な再分析の必要性を排除します。
モデルのタスク依存部分のみを分析する必要があります。
このアプローチにより、分析が合理化され、設計時間が短縮されます。
さらに、システムの実装のための強固な基盤である仕様を生成します。
得られた結果は、ロボットシステムの特性を分析するための貴重な正式なフレームワークとしてのペトリネットの可能性を強調しています。

要約(オリジナル)

This paper presents a simplification of robotic system model analysis due to the transfer of Robotic System Hierarchical Petri Net (RSHPN) meta-model properties onto the model of a designed system. Key contributions include: 1) analysis of RSHPN meta-model properties; 2) decomposition of RSHPN analysis into analysis of individual Petri nets, thus the reduction of state space explosion; and 3) transfer of RSHPN meta-model properties onto the produced models, hence elimination of the need for full re-analysis of the RSHPN model when creating new robotic systems. Only task-dependent parts of the model need to be analysed. This approach streamlines the analysis thus reducing the design time. Moreover, it produces a specification which is a solid foundation for the implementation of the system. The obtained results highlight the potential of Petri nets as a valuable formal framework for analysing robotic system properties.

arxiv情報

著者 Maksym Figat,Cezary Zieliński
発行日 2025-05-07 21:13:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.MA, cs.RO | Simplification of Robotic System Model Analysis by Petri Net Meta-Model Property Transfer はコメントを受け付けていません

Steerable Scene Generation with Post Training and Inference-Time Search

要約

シミュレーションでロボットをトレーニングするには、ダウンストリームタスクの特定の課題を反映する多様な3Dシーンが必要です。
ただし、もっともらしい空間的配置を備えた高雑然とした環境など、厳格なタスク要件を満たすシーンは、手動でキュレートするのにまれで費用がかかります。
代わりに、ロボット操作のための現実的な環境を近似する手続きモデルを使用して、大規模なシーンデータを生成し、タスク固有の目標に適応させます。
これを行うと、固定資産ライブラリから配置するオブジェクトとそのSE(3)のポーズを予測する統一された拡散ベースの生成モデルをトレーニングすることにより。
このモデルは、補強学習ベースのポストトレーニング、条件付き生成、または推論時間検索、元のデータ分布とは異なる場合でも下流の目標へのステアリング生成を使用して適応できる柔軟なシーンとして機能します。
私たちの方法により、シーンタイプ全体で物理的な実現可能性とスケールを尊重する目標指向のシーン統合が可能になります。
拡散モデルの新しいMCTSベースの推論時間検索戦略を導入し、投影とシミュレーションを介して実行可能性を実施し、5つの多様な環境にまたがる4400万を超えるSE(3)シーンのデータセットをリリースします。
ビデオ、コード、データ、モデルの重み付きウェブサイト:https://steerable-scene-generation.github.io/

要約(オリジナル)

Training robots in simulation requires diverse 3D scenes that reflect the specific challenges of downstream tasks. However, scenes that satisfy strict task requirements, such as high-clutter environments with plausible spatial arrangement, are rare and costly to curate manually. Instead, we generate large-scale scene data using procedural models that approximate realistic environments for robotic manipulation, and adapt it to task-specific goals. We do this by training a unified diffusion-based generative model that predicts which objects to place from a fixed asset library, along with their SE(3) poses. This model serves as a flexible scene prior that can be adapted using reinforcement learning-based post training, conditional generation, or inference-time search, steering generation toward downstream objectives even when they differ from the original data distribution. Our method enables goal-directed scene synthesis that respects physical feasibility and scales across scene types. We introduce a novel MCTS-based inference-time search strategy for diffusion models, enforce feasibility via projection and simulation, and release a dataset of over 44 million SE(3) scenes spanning five diverse environments. Website with videos, code, data, and model weights: https://steerable-scene-generation.github.io/

arxiv情報

著者 Nicholas Pfaff,Hongkai Dai,Sergey Zakharov,Shun Iwase,Russ Tedrake
発行日 2025-05-07 22:07:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.GR, cs.LG, cs.RO | Steerable Scene Generation with Post Training and Inference-Time Search はコメントを受け付けていません

Extending the Benefits of Parallel Elasticity across Multiple Actuation Tasks: A Geometric and Optimization-Based Approach

要約

努力ソース(電気モーターや人間の筋肉など)と並行したばらつきは、スプリングの剛性、春のプリロード、作動タスクに応じて、エネルギー消費と努力(つまり、トルクまたは力)を減らすことができます。
ただし、任意のタスクセットの努力またはエネルギーの削減を保証するスプリングの剛性とプリロードを選択することは、設計上の課題です。
この作業は、凸最適化問題を定式化して、並列スプリングが複数のタスクの根平均源源作業またはエネルギー消費を減らすことを保証します。
具体的には、最適化変数、並列スプリングの剛性とプリロードで一連の凸状の二次制約を実施することにより、複数のタスクにわたる利点を保証します。
これらの二次制約は、剛性とプリロード平面の楕円に相当します。
楕円内の剛性とプリロードの任意の組み合わせは、スプリングなしのアクチュエータに対する努力源またはエネルギー消費を最小限に抑える平行スプリングを表します。
この幾何学的解釈は、剛性とプリロード選択プロセスを直感的に導きます。
スプリングの剛性とプリロードの凸状の二次機能を分析的かつ実験的に証明します。
アプリケーションとして、人間の筋肉を努力源として使用して、電気モーターを搭載した義足の足首を使用して、膝の外骨格の平行スプリングの剛性とプリロードの選択を分析します。
フレームワークに関連付けられたソースコードは、補足的なオープンソースソフトウェアとして利用できます。

要約(オリジナル)

A spring in parallel with an effort source (e.g., electric motor or human muscle) can reduce its energy consumption and effort (i.e., torque or force) depending on the spring stiffness, spring preload, and actuation task. However, selecting the spring stiffness and preload that guarantees effort or energy reduction for an arbitrary set of tasks is a design challenge. This work formulates a convex optimization problem to guarantee that a parallel spring reduces the root-mean-square source effort or energy consumption for multiple tasks. Specifically, we guarantee the benefits across multiple tasks by enforcing a set of convex quadratic constraints in our optimization variables, the parallel spring stiffness and preload. These quadratic constraints are equivalent to ellipses in the stiffness and preload plane; any combination of stiffness and preload inside the ellipse represents a parallel spring that minimizes effort source or energy consumption with respect to an actuator without a spring. This geometric interpretation intuitively guides the stiffness and preload selection process. We analytically and experimentally prove the convex quadratic function of the spring stiffness and preload. As applications, we analyze the stiffness and preload selection of a parallel spring for a knee exoskeleton using human muscle as the effort source and a prosthetic ankle powered by electric motors. The source code associated with our framework is available as supplemental open-source software.

arxiv情報

著者 Kang Yang,Myia Dickens,James Schmiedeler,Edgar Bolívar-Nieto
発行日 2025-05-07 22:07:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Extending the Benefits of Parallel Elasticity across Multiple Actuation Tasks: A Geometric and Optimization-Based Approach はコメントを受け付けていません

Zero-shot Object-Centric Instruction Following: Integrating Foundation Models with Traditional Navigation

要約

マルチフロアホームなどの大規模なシーンは、ドローンやロボット掃除機などの市販のロボットで一般的に使用される手法である係数グラフでロボットポーズと共同で推定されたランドマークの3Dグラフで堅牢かつ効率的にマッピングできます。
この作業では、そのようなマップで自然言語の指示を接地するためのゼロショット方法であるフォロー(LIFGIF)の指示のための言語が感染した因子グラフを提案します。
Lifgifには、マップが構築されている間に、新しい環境で自然言語ナビゲーション指示に従うためのポリシーも含まれており、物理的な世界で堅牢なナビゲーションパフォーマンスを可能にします。
LIFGIFを評価するために、オブジェクト中心の自然言語ナビゲーション指示の接地を評価するために、新しいデータセットであるオブジェクト中心のVLN(OC-VLN)を提示します。
関連するタスクからの最先端の2つのゼロショットベースライン、オブジェクトゴールナビゲーションとビジョン言語ナビゲーションと比較して、LIFGIFがOCVLNのすべての評価メトリックでそれらよりも優れていることを実証します。
最後に、ボストンのダイナミクススポットロボットで現実世界で続くゼロショットオブジェクト中心の命令を実行するためのLifGIFの有効性を成功裏に実証しました。

要約(オリジナル)

Large scale scenes such as multifloor homes can be robustly and efficiently mapped with a 3D graph of landmarks estimated jointly with robot poses in a factor graph, a technique commonly used in commercial robots such as drones and robot vacuums. In this work, we propose Language-Inferred Factor Graph for Instruction Following (LIFGIF), a zero-shot method to ground natural language instructions in such a map. LIFGIF also includes a policy for following natural language navigation instructions in a novel environment while the map is constructed, enabling robust navigation performance in the physical world. To evaluate LIFGIF, we present a new dataset, Object-Centric VLN (OC-VLN), in order to evaluate grounding of object-centric natural language navigation instructions. We compare to two state-of-the-art zero-shot baselines from related tasks, Object Goal Navigation and Vision Language Navigation, to demonstrate that LIFGIF outperforms them across all our evaluation metrics on OCVLN. Finally, we successfully demonstrate the effectiveness of LIFGIF for performing zero-shot object-centric instruction following in the real world on a Boston Dynamics Spot robot.

arxiv情報

著者 Sonia Raychaudhuri,Duy Ta,Katrina Ashton,Angel X. Chang,Jiuguang Wang,Bernadette Bucher
発行日 2025-05-07 22:19:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Zero-shot Object-Centric Instruction Following: Integrating Foundation Models with Traditional Navigation はコメントを受け付けていません