Hierarchical Equivariant Policy via Frame Transfer

要約

階層的な政策学習における最近の進歩は、システムを高レベルで低レベルのエージェントに分解することの利点を強調し、効率的な長期推論と正確な細粒の制御を可能にします。
ただし、これらの階層レベル間のインターフェースは露出度の低いままであり、既存の階層的手法はドメインの対称性を無視することが多く、その結果、堅牢なパフォーマンスを実現するための広範なデモンストレーションが必要になります。
これらの問題に対処するために、新しい階層的ポリシーフレームワークである階層的等式ポリシー(HEP)を提案します。
高レベルのエージェントの出力を低レベルエージェントの座標フレームとして使用する階層的なポリシー学習のフレーム転送インターフェイスを提案し、柔軟性を維持しながら強力な帰納的バイアスを提供します。
さらに、ドメインの対称性を両方のレベルに統合し、理論的にシステムの全体的な等容量を実証します。
HEPは、複雑なロボット操作タスクで最先端のパフォーマンスを実現し、シミュレーションと現実世界の両方の設定の両方の大幅な改善を示しています。

要約(オリジナル)

Recent advances in hierarchical policy learning highlight the advantages of decomposing systems into high-level and low-level agents, enabling efficient long-horizon reasoning and precise fine-grained control. However, the interface between these hierarchy levels remains underexplored, and existing hierarchical methods often ignore domain symmetry, resulting in the need for extensive demonstrations to achieve robust performance. To address these issues, we propose Hierarchical Equivariant Policy (HEP), a novel hierarchical policy framework. We propose a frame transfer interface for hierarchical policy learning, which uses the high-level agent’s output as a coordinate frame for the low-level agent, providing a strong inductive bias while retaining flexibility. Additionally, we integrate domain symmetries into both levels and theoretically demonstrate the system’s overall equivariance. HEP achieves state-of-the-art performance in complex robotic manipulation tasks, demonstrating significant improvements in both simulation and real-world settings.

arxiv情報

著者 Haibo Zhao,Dian Wang,Yizhe Zhu,Xupeng Zhu,Owen Howell,Linfeng Zhao,Yaoyao Qian,Robin Walters,Robert Platt
発行日 2025-02-21 00:05:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Hierarchical Equivariant Policy via Frame Transfer はコメントを受け付けていません

Stability analysis through folds: An end-loaded elastic with a lever arm

要約

多くの物理システムは、パラメーター依存の変動問題としてモデル化できます。
関連する平衡は、現実的に存在する場合と存在する場合と存在しない場合があり、それらの安定性を調べた後にのみ決定できます。
したがって、安定性を決定し、それらの遷移を追跡することが重要です。
一般に、平衡の安定性特性は、パラメーター空間の折り目の近くに変化します。
安定性の変化の方向は、識別された分岐図として知られる溶液の特定の投影に埋め込まれています。
この記事では、固定されていない末端を特徴とする変動問題のこのような予測を特定します。これは、メカニックで頻繁に遭遇する問題のクラスです。
これらの図を使用して、剛性レバーアームを介して適用される末端荷重の対象となる弾性を研究します。
スナップバックの不安定性のいくつかのインスタンスが報告されており、数値の例によるシステムパラメーターへの依存性があります。
これらの調査結果には、ソフトロボットアームやその他のアクチュエーターデザインの設計に潜在的な用途があります。

要約(オリジナル)

Many physical systems can be modelled as parameter-dependent variational problems. The associated equilibria may or may not exist realistically and can only be determined after examining their stability. Hence, it is crucial to determine the stability and track their transitions. Generally, the stability characteristics of the equilibria change near folds in the parameter space. The direction of stability changes is embedded in a specific projection of the solutions, known as distinguished bifurcation diagrams. In this article, we identify such projections for variational problems characterized by fixed-free ends — a class of problems frequently encountered in mechanics. Using these diagrams, we study an Elastica subject to an end load applied through a rigid lever arm. Several instances of snap-back instability are reported, along with their dependence on system parameters through numerical examples. These findings have potential applications in the design of soft robot arms and other actuator designs.

arxiv情報

著者 Siva Prasad Chakri Dhanakoti
発行日 2025-02-21 00:08:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.soft, cs.RO, math.OC | Stability analysis through folds: An end-loaded elastic with a lever arm はコメントを受け付けていません

CurricuVLM: Towards Safe Autonomous Driving via Personalized Safety-Critical Curriculum Learning with Vision-Language Models

要約

自律運転システムの安全性を確保することは、特にまれであるが潜在的に壊滅的な安全性クリティカルなシナリオを処理する上で、重要な課題のままです。
既存の研究では、自動運転車(AV)テストの安全性が批判的なシナリオの生成を調査しましたが、これらのシナリオを効果的にポリシー学習に効果的に組み込んで安全性を高める作業は限られています。
さらに、AVの進化する行動パターンとパフォーマンスボトルネックに適応するトレーニングカリキュラムの開発は、ほとんど未踏のままです。
これらの課題に対処するために、自律駆動エージェントのパーソナライズされたカリキュラム学習を可能にするためにビジョン言語モデル(VLM)を活用する新しいフレームワークであるCurricuvlmを提案します。
私たちのアプローチは、VLMSのマルチモーダル理解機能をユニークに活用して、エージェントの動作を分析し、パフォーマンスの弱点を特定し、カリキュラム適応のためのテーラードトレーニングシナリオを動的に生成します。
物語の説明を使用した安全でない運転状況の包括的な分析を通じて、CurricuvlmはAVの能力を評価し、重要な行動パターンを特定するための詳細な推論を実行します。
このフレームワークは、これらの特定された制限をターゲットにしたカスタマイズされたトレーニングシナリオを統合し、効果的でパーソナライズされたカリキュラム学習を可能にします。
WAYMOオープンモーションデータセットでの広範な実験は、CurricUVLMが通常および安全性の高いシナリオの両方で最先端のベースラインよりも優れていることを示しており、ナビゲーションの成功、効率の促進、安全メトリックの点で優れたパフォーマンスを達成しています。
さらなる分析により、Curricuvlmは、さまざまなRLアルゴリズムと統合して自律運転システムを強化できる一般的なアプローチとして機能することが明らかになりました。
コードおよびデモビデオは、https://zihaosheng.github.io/curricuvlm/で入手できます。

要約(オリジナル)

Ensuring safety in autonomous driving systems remains a critical challenge, particularly in handling rare but potentially catastrophic safety-critical scenarios. While existing research has explored generating safety-critical scenarios for autonomous vehicle (AV) testing, there is limited work on effectively incorporating these scenarios into policy learning to enhance safety. Furthermore, developing training curricula that adapt to an AV’s evolving behavioral patterns and performance bottlenecks remains largely unexplored. To address these challenges, we propose CurricuVLM, a novel framework that leverages Vision-Language Models (VLMs) to enable personalized curriculum learning for autonomous driving agents. Our approach uniquely exploits VLMs’ multimodal understanding capabilities to analyze agent behavior, identify performance weaknesses, and dynamically generate tailored training scenarios for curriculum adaptation. Through comprehensive analysis of unsafe driving situations with narrative descriptions, CurricuVLM performs in-depth reasoning to evaluate the AV’s capabilities and identify critical behavioral patterns. The framework then synthesizes customized training scenarios targeting these identified limitations, enabling effective and personalized curriculum learning. Extensive experiments on the Waymo Open Motion Dataset show that CurricuVLM outperforms state-of-the-art baselines across both regular and safety-critical scenarios, achieving superior performance in terms of navigation success, driving efficiency, and safety metrics. Further analysis reveals that CurricuVLM serves as a general approach that can be integrated with various RL algorithms to enhance autonomous driving systems. The code and demo video are available at: https://zihaosheng.github.io/CurricuVLM/.

arxiv情報

著者 Zihao Sheng,Zilin Huang,Yansong Qu,Yue Leng,Sruthi Bhavanam,Sikai Chen
発行日 2025-02-21 00:42:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO | CurricuVLM: Towards Safe Autonomous Driving via Personalized Safety-Critical Curriculum Learning with Vision-Language Models はコメントを受け付けていません

Realm: Real-Time Line-of-Sight Maintenance in Multi-Robot Navigation with Unknown Obstacles

要約

複雑な環境でのマルチロボットナビゲーションは、ロボット間のコミュニケーションと相互観察に依存しており、調整と状況認識があります。
このペーパーでは、視線(LOS)接続の制約を備えた未知の環境でのマルチロボットナビゲーションの問題を研究します。
以前の研究はLOSの制約を導出するための既知の環境モデルに限定されていますが、このペーパーでは、リアルタイムポイントクラウド測定からロボット間のLOS制約を直接策定することにより、そのような要件を排除し、ポイントクラウド可視性分析技術を活用します。
潜在的なロボットの動きを考慮して、ロボット間でLOSを失うことの緊急性と感度の両方を定量化するために、新しいLos-Distanceメトリックを提案します。
さらに、2つのロボット間でLOSを失うことの不均衡な緊急性に対処するために、ロボットの共同動きを促進する勾配を生成しながら、全体的な緊急性をキャプチャする融合関数を設計します。
LOSの制約は、接続性を確保するためにロボットのネットワークグラフのフィードラー固有値の陽性を保持する潜在的な関数にエンコードされます。
最後に、提案された接続コントローラーを統合するLOSが制約した探索フレームワークを確立します。
複雑な未知の環境でのマルチロボット探査でのアプリケーションを紹介します。ロボットは、分散したセンシングと通信を通じて常にLOS接続を維持でき、不明な環境を協力してマッピングします。
実装は、https://github.com/bairuofei/los_constrained_navigationでオープンソーシングされています。

要約(オリジナル)

Multi-robot navigation in complex environments relies on inter-robot communication and mutual observations for coordination and situational awareness. This paper studies the multi-robot navigation problem in unknown environments with line-of-sight (LoS) connectivity constraints. While previous works are limited to known environment models to derive the LoS constraints, this paper eliminates such requirements by directly formulating the LoS constraints between robots from their real-time point cloud measurements, leveraging point cloud visibility analysis techniques. We propose a novel LoS-distance metric to quantify both the urgency and sensitivity of losing LoS between robots considering potential robot movements. Moreover, to address the imbalanced urgency of losing LoS between two robots, we design a fusion function to capture the overall urgency while generating gradients that facilitate robots’ collaborative movement to maintain LoS. The LoS constraints are encoded into a potential function that preserves the positivity of the Fiedler eigenvalue of the robots’ network graph to ensure connectivity. Finally, we establish a LoS-constrained exploration framework that integrates the proposed connectivity controller. We showcase its applications in multi-robot exploration in complex unknown environments, where robots can always maintain the LoS connectivity through distributed sensing and communication, while collaboratively mapping the unknown environment. The implementations are open-sourced at https://github.com/bairuofei/LoS_constrained_navigation.

arxiv情報

著者 Ruofei Bai,Shenghai Yuan,Kun Li,Hongliang Guo,Wei-Yun Yau,Lihua Xie
発行日 2025-02-21 02:56:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Realm: Real-Time Line-of-Sight Maintenance in Multi-Robot Navigation with Unknown Obstacles はコメントを受け付けていません

OccProphet: Pushing Efficiency Frontier of Camera-Only 4D Occupancy Forecasting with Observer-Forecaster-Refiner Framework

要約

複雑な交通環境の変動を予測することは、自律運転の安全性に不可欠です。
占有予測における最近の進歩により、歴史的な2D画像を観察することにより、運転環境での将来の3D占有ステータスを予測できました。
ただし、高い計算需要により、トレーニングや推論の段階での占有予測が低下し、エッジエージェントでの展開の実現可能性が妨げられます。
このホワイトペーパーでは、予測の精度を改善しながら、大幅に低い計算要件で占有予測を効率的かつ効果的に学習するために、新しいフレームワーク、つまりオクプラフェットを提案します。
Occprophetは、オブザーバー、予測、精製者の3つの軽量コンポーネントで構成されています。
オブザーバーは、3Dマルチフレームボクセルから、3Dマルチフレームボクセルから3倍の4D凝集を使用して3時型ボクセルから抽出し、予測と精製所は将来の占有率の推論を条件付きで予測および改良します。
ヌスセン、Lyft-Level5、およびヌスセン摂取データセットの実験結果は、オクプラペットがトレーニングと推論に優しいものであることを示しています。
Occprophetは、最先端のCAM4DOCCと比較して、2.6 $ \ Times $ SpeedUpで58 \%$ \ SIM $ 78 \%を2.6 $ \ Times $ speedUpを削減します。
さらに、4 \%$ \ sim $ 18 \%比較的高い予測精度を達成します。
コードとモデルは、https://github.com/jlchen-c/occprophetで公開されています。

要約(オリジナル)

Predicting variations in complex traffic environments is crucial for the safety of autonomous driving. Recent advancements in occupancy forecasting have enabled forecasting future 3D occupied status in driving environments by observing historical 2D images. However, high computational demands make occupancy forecasting less efficient during training and inference stages, hindering its feasibility for deployment on edge agents. In this paper, we propose a novel framework, i.e., OccProphet, to efficiently and effectively learn occupancy forecasting with significantly lower computational requirements while improving forecasting accuracy. OccProphet comprises three lightweight components: Observer, Forecaster, and Refiner. The Observer extracts spatio-temporal features from 3D multi-frame voxels using the proposed Efficient 4D Aggregation with Tripling-Attention Fusion, while the Forecaster and Refiner conditionally predict and refine future occupancy inferences. Experimental results on nuScenes, Lyft-Level5, and nuScenes-Occupancy datasets demonstrate that OccProphet is both training- and inference-friendly. OccProphet reduces 58\%$\sim$78\% of the computational cost with a 2.6$\times$ speedup compared with the state-of-the-art Cam4DOcc. Moreover, it achieves 4\%$\sim$18\% relatively higher forecasting accuracy. Code and models are publicly available at https://github.com/JLChen-C/OccProphet.

arxiv情報

著者 Junliang Chen,Huaiyuan Xu,Yi Wang,Lap-Pui Chau
発行日 2025-02-21 03:21:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | OccProphet: Pushing Efficiency Frontier of Camera-Only 4D Occupancy Forecasting with Observer-Forecaster-Refiner Framework はコメントを受け付けていません

Exploring Quasi-Global Solutions to Compound Lens Based Computational Imaging Systems

要約

最近、データ駆動型の学習を通じて光学システムとダウンストリームアルゴリズムを同時に最適化する共同設計アプローチは、従来の個別の設計アプローチよりも優れたパフォーマンスを実証しています。
ただし、現在のジョイント設計は、特に複数の潜在的な出発点を持つ複合レンズシステムのために、初期レンズの手動での手動識別、課題と制限のポーズに大きく依存しています。
この作業では、準グローバル検索光学(QGSO)を提示して、2つの部分を通じて複合レンズベースの計算イメージングシステムを自動的に設計します。
設計仕様。
(ii)物理的制約を考慮して初期光学システムと画像再構成ネットワークの並列共同最適化を実施し、すべての検索結果の最適ソリューションの選択に至ります。
広範な実験結果は、QGSOが優れたグローバル検索能力の変換エンドツーエンドレンズ設計パラダイムとして機能し、既存のパラダイムと比較してイメージング品質が高い複合レンズベースの計算イメージングシステムを自動的に提供することを示しています。
ソースコードは、https://github.com/ligpy/qgsoで公開されます。

要約(オリジナル)

Recently, joint design approaches that simultaneously optimize optical systems and downstream algorithms through data-driven learning have demonstrated superior performance over traditional separate design approaches. However, current joint design approaches heavily rely on the manual identification of initial lenses, posing challenges and limitations, particularly for compound lens systems with multiple potential starting points. In this work, we present Quasi-Global Search Optics (QGSO) to automatically design compound lens based computational imaging systems through two parts: (i) Fused Optimization Method for Automatic Optical Design (OptiFusion), which searches for diverse initial optical systems under certain design specifications; and (ii) Efficient Physic-aware Joint Optimization (EPJO), which conducts parallel joint optimization of initial optical systems and image reconstruction networks with the consideration of physical constraints, culminating in the selection of the optimal solution in all search results. Extensive experimental results illustrate that QGSO serves as a transformative end-to-end lens design paradigm for superior global search ability, which automatically provides compound lens based computational imaging systems with higher imaging quality compared to existing paradigms. The source code will be made publicly available at https://github.com/LiGpy/QGSO.

arxiv情報

著者 Yao Gao,Qi Jiang,Shaohua Gao,Lei Sun,Kailun Yang,Kaiwei Wang
発行日 2025-02-21 04:05:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO, eess.IV, physics.optics | Exploring Quasi-Global Solutions to Compound Lens Based Computational Imaging Systems はコメントを受け付けていません

FUNCTO: Function-Centric One-Shot Imitation Learning for Tool Manipulation

要約

単一の人間のデモビデオからの学習ツールの使用は、ロボット教育に対する非常に直感的で効率的なアプローチを提供します。
人間は、同じ関数をサポートする多様なツール(例えば、マグカップとティーポットで注ぐ)に実証されたツール操作スキルを簡単に一般化することができますが、現在のワンショット模倣学習(OSIL)メソッドはこれを達成するのに苦労しています。
重要な課題は、同じ関数(つまり、機能内変動)を持つツール間の大幅な幾何学的変動を考慮して、デモンストレーションとテストツールの間に機能的な対応を確立することにあります。
この課題に対処するために、3D機能キーポイント表現との関数中心の対応を確立するOSILメソッドである機能(ツール操作のための関数中心のOSIL)を提案し、ロボットが単一の人間のデモンストレーションビデオから新しいツールにツール操作スキルを一般化できるようにします。
機能内の変動にもかかわらず、同じ機能があります。
この定式化により、(1)機能的なキーポイント抽出、(2)関数中心の対応確立、および(3)機能キーポイントベースのアクションプランニングの3つの段階に因数分解します。
多様なツール操作タスクに関する実際のロボット実験を通じて、モジュール式OSILメソッドとエンドツーエンドの行動クローンメソッドを終了することに対して機能を評価します。
結果は、機能内の幾何学的なバリエーションを持つ新しいツールに一般化する際の機能の優位性を示しています。
詳細については、https://sites.google.com/view/functoをご覧ください。

要約(オリジナル)

Learning tool use from a single human demonstration video offers a highly intuitive and efficient approach to robot teaching. While humans can effortlessly generalize a demonstrated tool manipulation skill to diverse tools that support the same function (e.g., pouring with a mug versus a teapot), current one-shot imitation learning (OSIL) methods struggle to achieve this. A key challenge lies in establishing functional correspondences between demonstration and test tools, considering significant geometric variations among tools with the same function (i.e., intra-function variations). To address this challenge, we propose FUNCTO (Function-Centric OSIL for Tool Manipulation), an OSIL method that establishes function-centric correspondences with a 3D functional keypoint representation, enabling robots to generalize tool manipulation skills from a single human demonstration video to novel tools with the same function despite significant intra-function variations. With this formulation, we factorize FUNCTO into three stages: (1) functional keypoint extraction, (2) function-centric correspondence establishment, and (3) functional keypoint-based action planning. We evaluate FUNCTO against exiting modular OSIL methods and end-to-end behavioral cloning methods through real-robot experiments on diverse tool manipulation tasks. The results demonstrate the superiority of FUNCTO when generalizing to novel tools with intra-function geometric variations. More details are available at https://sites.google.com/view/functo.

arxiv情報

著者 Chao Tang,Anxing Xiao,Yuhong Deng,Tianrun Hu,Wenlong Dong,Hanbo Zhang,David Hsu,Hong Zhang
発行日 2025-02-21 05:54:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | FUNCTO: Function-Centric One-Shot Imitation Learning for Tool Manipulation はコメントを受け付けていません

CoverLib: Classifiers-equipped Experience Library by Iterative Problem Distribution Coverage Maximization for Domain-tuned Motion Planning

要約

ライブラリベースの方法は、事前計算されたライブラリから取得したエクスペリエンスを適応させることにより、高速モーション計画に非常に効果的であることが知られています。
この記事では、このようなライブラリを構築および利用するための原則的なアプローチであるCoverlibを紹介します。
CoverLibは、ライブラリにエクスペリエンスクラシファイアペアを繰り返し追加します。各分類器は、問題スペース内のエクスペリエンスの適応可能な領域に対応します。
この反復プロセスは、発見された領域を効果的にカバーする能力に基づいて次のエクスペリエンスを選択するため、積極的な手順です。
クエリフェーズ中、これらの分類器は、特定の問題に適応できると予想されるエクスペリエンスを選択するために使用されます。
実験結果は、CoverLibがグローバル(サンプリングベース)およびローカル(最適化ベース)の方法で観察される計画性と速度のトレードオフを効果的に軽減することを示しています。
その結果、問題ドメインで迅速な計画と高い成功率の両方を達成します。
さらに、適応アルゴリズムに依存しない性質により、CoverLibは、非線形プログラミングベースおよびサンプリングベースのアルゴリズムを含むさまざまな適応方法とシームレスに統合します。

要約(オリジナル)

Library-based methods are known to be very effective for fast motion planning by adapting an experience retrieved from a precomputed library. This article presents CoverLib, a principled approach for constructing and utilizing such a library. CoverLib iteratively adds an experience-classifier-pair to the library, where each classifier corresponds to an adaptable region of the experience within the problem space. This iterative process is an active procedure, as it selects the next experience based on its ability to effectively cover the uncovered region. During the query phase, these classifiers are utilized to select an experience that is expected to be adaptable for a given problem. Experimental results demonstrate that CoverLib effectively mitigates the trade-off between plannability and speed observed in global (e.g. sampling-based) and local (e.g. optimization-based) methods. As a result, it achieves both fast planning and high success rates over the problem domain. Moreover, due to its adaptation-algorithm-agnostic nature, CoverLib seamlessly integrates with various adaptation methods, including nonlinear programming-based and sampling-based algorithms.

arxiv情報

著者 Hirokazu Ishida,Naoki Hiraoka,Kei Okada,Masayuki Inaba
発行日 2025-02-21 06:23:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | CoverLib: Classifiers-equipped Experience Library by Iterative Problem Distribution Coverage Maximization for Domain-tuned Motion Planning はコメントを受け付けていません

VLAS: Vision-Language-Action Model With Speech Instructions For Customized Robot Manipulation

要約

ビジョン言語アクションモデル(VLA)は、エンドツーエンドのデザインと驚くべきパフォーマンスのために、ロボット操作でますます人気が高まっています。
ただし、既存のVLAは、テキストベースの指示のみをサポートするビジョン言語モデル(VLM)に大きく依存しており、人間とロボットの相互作用のより自然な音声モダリティを無視しています。
従来の音声統合方法には通常、個別の音声認識システムが含まれ、モデルを複雑にし、エラーの伝播を導入します。
さらに、転写手順では、ボイスプリントなど、生のスピーチで非セマンチックな情報が失われます。これは、ロボットがカスタマイズされたタスクを正常に完了するために重要です。
上記の課題を克服するために、音声認識をロボットポリシーモデルに直接統合する新しいエンドツーエンドのVLAであるVLAを提案します。
VLASを使用すると、ロボットは内側の音声テキストアラインメントを介して音声コマンドを理解し、対応するアクションを生成してタスクを満たすことができます。
また、2つの新しいデータセット、SQAとCSIを提示して、テキスト、画像、音声、およびロボットアクションを介したマルチモーダル相互作用の能力をVLAに強化する3段階のチューニングプロセスをサポートします。
さらに一歩進んで、音声検索された生成(RAG)パラダイムは、モデルが個人固有の知識を必要とするタスクを効果的に処理できるように設計されています。
私たちの広範な実験は、VLAが多様な音声コマンドを使用してロボット操作タスクを効果的に達成できることを示しており、シームレスでカスタマイズされたインタラクションエクスペリエンスを提供します。

要約(オリジナル)

Vision-language-action models (VLAs) have become increasingly popular in robot manipulation for their end-to-end design and remarkable performance. However, existing VLAs rely heavily on vision-language models (VLMs) that only support text-based instructions, neglecting the more natural speech modality for human-robot interaction. Traditional speech integration methods usually involves a separate speech recognition system, which complicates the model and introduces error propagation. Moreover, the transcription procedure would lose non-semantic information in the raw speech, such as voiceprint, which may be crucial for robots to successfully complete customized tasks. To overcome above challenges, we propose VLAS, a novel end-to-end VLA that integrates speech recognition directly into the robot policy model. VLAS allows the robot to understand spoken commands through inner speech-text alignment and produces corresponding actions to fulfill the task. We also present two new datasets, SQA and CSI, to support a three-stage tuning process for speech instructions, which empowers VLAS with the ability of multimodal interaction across text, image, speech, and robot actions. Taking a step further, a voice retrieval-augmented generation (RAG) paradigm is designed to enable our model to effectively handle tasks that require individual-specific knowledge. Our extensive experiments show that VLAS can effectively accomplish robot manipulation tasks with diverse speech commands, offering a seamless and customized interaction experience.

arxiv情報

著者 Wei Zhao,Pengxiang Ding,Min Zhang,Zhefei Gong,Shuanghao Bai,Han Zhao,Donglin Wang
発行日 2025-02-21 07:01:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | VLAS: Vision-Language-Action Model With Speech Instructions For Customized Robot Manipulation はコメントを受け付けていません

Interactive incremental learning of generalizable skills with local trajectory modulation

要約

デモンストレーション(LFD)からの学習における一般化の問題は、特に多くのアプローチが出現した動きのプリミティブの文脈の中で、長年にわたってかなりの注目を集めてきました。
最近、2つの重要なアプローチが認識されています。
1つは、実証された軌道を変調することにより地域でスキルを順番に調整するためにポイント経由で活用しますが、もう1つは、一般化の確率の製品を使用して、さまざまな座標系に関して動きをエンコードするいわゆるタスクパラメーターモデルに依存しています。
前者は正確な、ローカル変調に適していますが、後者はワークスペースの大規模な領域を一般化することを目指しており、しばしば複数のオブジェクトを伴います。
両方のアプローチを同時に活用することにより、一般化の質に対処することはほとんど注目されていません。
この作業では、軌跡分布のローカルおよびグローバルな変調を同時に活用するインタラクティブな模倣学習フレームワークを提案します。
カーネル化されたムーブメントプリミティブ(KMP)フレームワークに基づいて、直接的な人間の矯正フィードバックからスキル変調の新しいメカニズムを紹介します。
私たちのアプローチは、特にviaポイントの概念を徐々にインタラクティブに活用します。1)モデルの精度を局所的に改善し、2)実行中にタスクに新しいオブジェクトを追加し、3)デモンストレーションが提供されていない領域にスキルを拡張します。
トルク制御された7-DOF、DLR SARAロボットを使用して、ベアリングリングロードタスクでの方法を評価します。

要約(オリジナル)

The problem of generalization in learning from demonstration (LfD) has received considerable attention over the years, particularly within the context of movement primitives, where a number of approaches have emerged. Recently, two important approaches have gained recognition. While one leverages via-points to adapt skills locally by modulating demonstrated trajectories, another relies on so-called task-parameterized models that encode movements with respect to different coordinate systems, using a product of probabilities for generalization. While the former are well-suited to precise, local modulations, the latter aim at generalizing over large regions of the workspace and often involve multiple objects. Addressing the quality of generalization by leveraging both approaches simultaneously has received little attention. In this work, we propose an interactive imitation learning framework that simultaneously leverages local and global modulations of trajectory distributions. Building on the kernelized movement primitives (KMP) framework, we introduce novel mechanisms for skill modulation from direct human corrective feedback. Our approach particularly exploits the concept of via-points to incrementally and interactively 1) improve the model accuracy locally, 2) add new objects to the task during execution and 3) extend the skill into regions where demonstrations were not provided. We evaluate our method on a bearing ring-loading task using a torque-controlled, 7-DoF, DLR SARA robot.

arxiv情報

著者 Markus Knauer,Alin Albu-Schäffer,Freek Stulp,João Silvério
発行日 2025-02-21 08:46:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | Interactive incremental learning of generalizable skills with local trajectory modulation はコメントを受け付けていません