SignBot: Learning Human-to-Humanoid Sign Language Interaction

要約

手話は、動きと表現を使用して意味を伝える自然で視覚的な形式であり、耳が聞こえない、または耳を傾ける個人のコミュニケーションの重要な手段として機能します(DHH)。
しかし、手話に熟練した人の数は限られたままであり、コミュニケーションのギャップを橋渡しし、少数派との相互作用を促進するための技術的進歩の必要性を強調しています。
具体化されたヒューマノイドロボットの最近の進歩に基づいて、人間のロボット手話相互作用のための新しいフレームワークであるSignbotを提案します。
Signbotは、理解と相互作用のための小脳にインスパイアされたモーション制御コンポーネントと脳指向のモジュールを統合します。
具体的には、Signbotは以下で構成されています。1)人間の手話データセットをロボット互換の運動学に変換するモーションリターゲティング。
2)学習ベースのパラダイムを活用して、手話のジェスチャーを追跡するための堅牢なヒューマノイド制御ポリシーを開発するモーションコントロール。
3)手話の翻訳者、レスカー、および発電機を組み込んだ生成的相互作用により、ロボットと人間間の自然で効果的なコミュニケーションが可能になります。
シミュレーションと現実世界の実験結果は、Signbotが人間とロボットの相互作用を効果的に促進し、多様なロボットとデータセットで手話の動きを実行できることを示しています。
Signbotは、具体化されたヒューマノイドロボットプラットフォームでの自動手話相互作用の大幅な進歩を表し、DHHコミュニティのコミュニケーションアクセシビリティを改善するための有望なソリューションを提供します。

要約(オリジナル)

Sign language is a natural and visual form of language that uses movements and expressions to convey meaning, serving as a crucial means of communication for individuals who are deaf or hard-of-hearing (DHH). However, the number of people proficient in sign language remains limited, highlighting the need for technological advancements to bridge communication gaps and foster interactions with minorities. Based on recent advancements in embodied humanoid robots, we propose SignBot, a novel framework for human-robot sign language interaction. SignBot integrates a cerebellum-inspired motion control component and a cerebral-oriented module for comprehension and interaction. Specifically, SignBot consists of: 1) Motion Retargeting, which converts human sign language datasets into robot-compatible kinematics; 2) Motion Control, which leverages a learning-based paradigm to develop a robust humanoid control policy for tracking sign language gestures; and 3) Generative Interaction, which incorporates translator, responser, and generator of sign language, thereby enabling natural and effective communication between robots and humans. Simulation and real-world experimental results demonstrate that SignBot can effectively facilitate human-robot interaction and perform sign language motions with diverse robots and datasets. SignBot represents a significant advancement in automatic sign language interaction on embodied humanoid robot platforms, providing a promising solution to improve communication accessibility for the DHH community.

arxiv情報

著者 Guanren Qiao,Sixu Lin,Ronglai Zuo,Zhizheng Wu,Kui Jia,Guiliang Liu
発行日 2025-06-05 03:43:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.RO | コメントする

Enhancing Efficiency and Propulsion in Bio-mimetic Robotic Fish through End-to-End Deep Reinforcement Learning

要約

水生生物は、低エネルギー消費により効率的な推進力を生み出す能力で知られています。
既存の研究は、水中ロボット工学のエネルギーコストを削減するためにバイオ風の構造を活用しようとしてきましたが、効率の向上における制御ポリシーの重要な役割はしばしば見落とされています。
この研究では、推進効率を最大化し、エネルギー消費を最小限に抑えるために、ディープ補強学習(DRL)を使用して、バイオ模倣ロボット魚の動きを最適化します。
私たちの新しいDRLアプローチには、拡張圧力認識、観測の変圧器モデル処理シーケンス、およびポリシー転送スキームが組み込まれています。
特に、私たちのアプローチ内でのトレーニングの安定性と速度が大幅に改善され、ロボット魚のエンドツーエンドのトレーニングが可能になります。
これにより、流体力学的環境に対するアジラーの応答が可能になり、事前に定義されたモーションパターンコントロールと比較して、より大きな最適化の可能性があります。
私たちの実験は、コンピューティング流体ダイナミクス(CFD)シミュレーションを使用して、レイノルズ数の6000の数がある自由なストリームで連続的に接続された剛性ロボット魚で行われます。
DRLトレーニングを受けたポリシーは、印象的な結果をもたらし、高い効率と推進の両方を示しています。
また、このポリシーは、エージェントの具体化を紹介し、その身体構造を巧みに利用し、フロー分析を通じて明らかにされるように、周囲の流体のダイナミクスに関与します。
この研究は、DRLトレーニングを通じて生体模倣水中ロボットの最適化に関する貴重な洞察を提供し、構造的な利点を活用し、最終的にはより効率的な水中推進システムに貢献します。

要約(オリジナル)

Aquatic organisms are known for their ability to generate efficient propulsion with low energy expenditure. While existing research has sought to leverage bio-inspired structures to reduce energy costs in underwater robotics, the crucial role of control policies in enhancing efficiency has often been overlooked. In this study, we optimize the motion of a bio-mimetic robotic fish using deep reinforcement learning (DRL) to maximize propulsion efficiency and minimize energy consumption. Our novel DRL approach incorporates extended pressure perception, a transformer model processing sequences of observations, and a policy transfer scheme. Notably, significantly improved training stability and speed within our approach allow for end-to-end training of the robotic fish. This enables agiler responses to hydrodynamic environments and possesses greater optimization potential compared to pre-defined motion pattern controls. Our experiments are conducted on a serially connected rigid robotic fish in a free stream with a Reynolds number of 6000 using computational fluid dynamics (CFD) simulations. The DRL-trained policies yield impressive results, demonstrating both high efficiency and propulsion. The policies also showcase the agent’s embodiment, skillfully utilizing its body structure and engaging with surrounding fluid dynamics, as revealed through flow analysis. This study provides valuable insights into the bio-mimetic underwater robots optimization through DRL training, capitalizing on their structural advantages, and ultimately contributing to more efficient underwater propulsion systems.

arxiv情報

著者 Xinyu Cui,Boai Sun,Yi Zhu,Ning Yang,Haifeng Zhang,Weicheng Cui,Dixia Fan,Jun Wang
発行日 2025-06-05 04:36:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

Learning Two-agent Motion Planning Strategies from Generalized Nash Equilibrium for Model Predictive Control

要約

暗黙のゲーム理論MPC(IGT-MPC)を導入します。これは、モデル予測制御(MPC)フレームの端子コストとゴー関数としてゲーム理論的相互作用の結果を予測する学習価値関数を使用する2つのエージェントモーション計画の分散アルゴリズム(MPC)フレームを使用して、相互作用を誘導し、容量の相互作用を誘導します。
このアプローチは、制約された動的ゲームとして策定する競争的で協力的なマルチエージェントモーション計画の問題に適用されます。
制約された動的ゲームを考えると、初期条件をランダムにサンプリングし、一般化されたナッシュ平衡(GNE)を解決してGNEソリューションのデータセットを生成し、GNEからの各ゲーム理論相互作用の報酬結果を計算します。
データは、単純なニューラルネットワークをトレーニングするために使用され、報酬の結果を予測します。
2台の頭から頭へのレースや無信号の交差点ナビゲーションなどのシナリオで、IGT-MPCを使用して、新たな競争力と調整された行動を紹介します。
IGT-MPCは、機械学習とゲーム理論的推論をモデルベースの分散型マルチエージェントモーション計画に統合する新しい方法を提供します。

要約(オリジナル)

We introduce an Implicit Game-Theoretic MPC (IGT-MPC), a decentralized algorithm for two-agent motion planning that uses a learned value function that predicts the game-theoretic interaction outcomes as the terminal cost-to-go function in a model predictive control (MPC) framework, guiding agents to implicitly account for interactions with other agents and maximize their reward. This approach applies to competitive and cooperative multi-agent motion planning problems which we formulate as constrained dynamic games. Given a constrained dynamic game, we randomly sample initial conditions and solve for the generalized Nash equilibrium (GNE) to generate a dataset of GNE solutions, computing the reward outcome of each game-theoretic interaction from the GNE. The data is used to train a simple neural network to predict the reward outcome, which we use as the terminal cost-to-go function in an MPC scheme. We showcase emerging competitive and coordinated behaviors using IGT-MPC in scenarios such as two-vehicle head-to-head racing and un-signalized intersection navigation. IGT-MPC offers a novel method integrating machine learning and game-theoretic reasoning into model-based decentralized multi-agent motion planning.

arxiv情報

著者 Hansung Kim,Edward L. Zhu,Chang Seok Lim,Francesco Borrelli
発行日 2025-06-05 04:38:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.MA, cs.RO, cs.SY, eess.SY | コメントする

ActivePusher: Active Learning and Planning with Residual Physics for Nonprehensile Manipulation

要約

学習したダイナミクスモデルを使用した計画は、特に正確な分析モデルの取得が困難なプッシュやローリングなどの非摂食設定で、現実世界の長距離操作に対する有望なアプローチを提供します。
学習ベースの方法は有望ですが、トレーニングデータの収集は、必ずしも最も有益なものではないランダムにサンプリングされた相互作用に依存することが多いため、費用と非効率的です。
この課題に対処するために、ActivePusherを提案します。これは、最も有益なスキルパラメーターにデータ収集を集中させるために、残留物理モデリングとカーネルベースの不確実性駆動型のアクティブ学習を組み合わせた新しいフレームワークです。
さらに、ActivePusherはモデルベースの運動力学プランナーとシームレスに統合され、より信頼性の高いアクションに向けたサンプリングをバイアス制御するために不確実性の推定値を活用します。
シミュレーションと実際の環境の両方でアプローチを評価し、ベースライン方法と比較してデータの効率と計画の成功率を改善することを実証します。

要約(オリジナル)

Planning with learned dynamics models offers a promising approach toward real-world, long-horizon manipulation, particularly in nonprehensile settings such as pushing or rolling, where accurate analytical models are difficult to obtain. Although learning-based methods hold promise, collecting training data can be costly and inefficient, as it often relies on randomly sampled interactions that are not necessarily the most informative. To address this challenge, we propose ActivePusher, a novel framework that combines residual-physics modeling with kernel-based uncertainty-driven active learning to focus data acquisition on the most informative skill parameters. Additionally, ActivePusher seamlessly integrates with model-based kinodynamic planners, leveraging uncertainty estimates to bias control sampling toward more reliable actions. We evaluate our approach in both simulation and real-world environments and demonstrate that it improves data efficiency and planning success rates compared to baseline methods.

arxiv情報

著者 Zhuoyun Zhong,Seyedali Golestaneh,Constantinos Chamzas
発行日 2025-06-05 05:28:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

Application of SDRE to Achieve Gait Control in a Bipedal Robot for Knee-Type Exoskeleton Testing

要約

外骨格は、人間の動きを支援するためにリハビリテーションおよび産業用途で広く使用されています。
ただし、外骨格の誤動作と一貫性のない動きの複製により、直接的な人間の検査はリスクをもたらします。
より安全で、より繰り返し可能なテスト環境を提供するために、この研究では、二足歩行ロボットプラットフォームを採用して人間の歩行を再現し、制御された外骨格評価を可能にします。
状態依存性Riccati方程式(SDRE)に基づく制御戦略が策定され、正確な歩行複製のための最適なトルク制御を実現します。
Bipedal Robot Dynamicsは、二重振りモデルを使用して表されます。ここでは、SDRE-Optimized Control Inputは人間の運動軌跡からの逸脱を最小限に抑えます。
運動挙動の制約に合わせるために、人間の歩行を効果的に複製しながら制御プロセスを簡素化するためにパラメーター化された制御方法が導入されます。
提案されたアプローチは、当初、ランピーの台形速度モデルを採用し、その後、モーターコマンドの上書きを介して区分的線形速度表現に適合します。
この変更により、運動ダイナミクスとの互換性を確保しながら、歩行相遷移をより細かく制御できます。
対応するコスト関数は、制御パラメーターを最適化して、SDREコントロールの結果と比較して、関節角、速度、トルクのエラーを最小限に抑えます。
運動制限に従って速度遷移を構築することにより、この方法はリアルタイム制御に関連する計算負荷を減らします。
実験結果は、人間の歩行を再現する際の提案されたパラメーター化された制御方法の実現可能性を検証します。
Bipedal Robotプラットフォームは、膝型エクソスケレトンの信頼性が高く再現可能なテストメカニズムを提供し、制御された条件下での外骨格性能に関する洞察を提供します。

要約(オリジナル)

Exoskeletons are widely used in rehabilitation and industrial applications to assist human motion. However, direct human testing poses risks due to possible exoskeleton malfunctions and inconsistent movement replication. To provide a safer and more repeatable testing environment, this study employs a bipedal robot platform to reproduce human gait, allowing for controlled exoskeleton evaluations. A control strategy based on the State-Dependent Riccati Equation (SDRE) is formulated to achieve optimal torque control for accurate gait replication. The bipedal robot dynamics are represented using double pendulum model, where SDRE-optimized control inputs minimize deviations from human motion trajectories. To align with motor behavior constraints, a parameterized control method is introduced to simplify the control process while effectively replicating human gait. The proposed approach initially adopts a ramping trapezoidal velocity model, which is then adapted into a piecewise linear velocity-time representation through motor command overwriting. This modification enables finer control over gait phase transitions while ensuring compatibility with motor dynamics. The corresponding cost function optimizes the control parameters to minimize errors in joint angles, velocities, and torques relative to SDRE control result. By structuring velocity transitions in accordance with motor limitations, the method reduce the computational load associated with real-time control. Experimental results verify the feasibility of the proposed parameterized control method in reproducing human gait. The bipedal robot platform provides a reliable and repeatable testing mechanism for knee-type exoskeletons, offering insights into exoskeleton performance under controlled conditions.

arxiv情報

著者 Ping-Kong Huang,Chien-Wu Lan,Chin-Tien Wu
発行日 2025-06-05 07:00:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, math.OC | コメントする

Real-Time LPV-Based Non-Linear Model Predictive Control for Robust Trajectory Tracking in Autonomous Vehicles

要約

このペーパーでは、多様な運転条件下で自動運転車の軌跡追跡のためのモデル予測制御(MPC)フレームワークの開発と実装を紹介します。
提案されたアプローチには、状態推定、車両のダイナミクスモデリング、および最適化を統合してリアルタイムのパフォーマンスを確保するモジュラーアーキテクチャが組み込まれています。
状態空間方程式は、さまざまな(LPV)形式(LPV)形式で定式化され、さまざまな軌道の重量マトリックスを最適化するために曲率ベースのチューニング方法が導入されています。
MPCフレームワークは、状態推定と制御の最適化を並行して実行するためにロボットオペレーティングシステム(ROS)を使用して実装され、スケーラビリティと最小レイテンシを確保します。
複数の事前定義された軌跡で広範なシミュレーションとリアルタイムの実験が行われ、積極的な操作や高速条件下であっても、最小限のクロストラックと方向エラーを伴う高精度を示しました。
結果は、提案されたシステムの堅牢性と適応性を強調し、シミュレートされたパフォーマンスと実際のパフォーマンスの間のシームレスなアライメントを実現します。
この作業は、動的な重量調整と協力的な自律ナビゲーションシステムへの統合の基礎を築き、自律運転アプリケーションの安全性と効率を向上させる方法を開催しています。

要約(オリジナル)

This paper presents the development and implementation of a Model Predictive Control (MPC) framework for trajectory tracking in autonomous vehicles under diverse driving conditions. The proposed approach incorporates a modular architecture that integrates state estimation, vehicle dynamics modeling, and optimization to ensure real-time performance. The state-space equations are formulated in a Linear Parameter Varying (LPV) form, and a curvature-based tuning method is introduced to optimize weight matrices for varying trajectories. The MPC framework is implemented using the Robot Operating System (ROS) for parallel execution of state estimation and control optimization, ensuring scalability and minimal latency. Extensive simulations and real-time experiments were conducted on multiple predefined trajectories, demonstrating high accuracy with minimal cross-track and orientation errors, even under aggressive maneuvers and high-speed conditions. The results highlight the robustness and adaptability of the proposed system, achieving seamless alignment between simulated and real-world performance. This work lays the foundation for dynamic weight tuning and integration into cooperative autonomous navigation systems, paving the way for enhanced safety and efficiency in autonomous driving applications.

arxiv情報

著者 Nitish Kumar,Rajalakshmi Pachamuthu
発行日 2025-06-05 07:04:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | コメントする

QueryCAD: Grounded Question Answering for CAD Models

要約

CADモデルは業界で広く使用されており、ロボット自動化プロセスに不可欠です。
ただし、これらのモデルは、情報の分析、解釈、または抽出のためにCADモデルを組み込むことを可能にする容易に利用可能な方法がないため、ロボットプログラムの自動合成など、新しいAIベースのアプローチではめったに考慮されません。
これらの制限に対処するために、CAD質問の回答用に設計された最初のシステムであるQueryCadを提案し、自然言語クエリを使用してCADモデルからの正確な情報を抽出できるようにします。
QueryCadには、パーツの説明に基づいてCADモデルの特定の部分を識別および選択するために開発したオープンボキャブラリーインスタンスセグメンテーションモデルであるSegcadが組み込まれています。
さらに、QueryCadを評価し、将来の研究の基盤を確立するために、CAD質問に応答するベンチマークを提案します。
最後に、QueryCadを自動ロボットプログラム合成フレームワークに統合し、CADモデル(https://claudius-kienle.github.com/querycad)を処理できるようにすることで、ロボット工学の深い学習ソリューションを強化する能力を検証します。

要約(オリジナル)

CAD models are widely used in industry and are essential for robotic automation processes. However, these models are rarely considered in novel AI-based approaches, such as the automatic synthesis of robot programs, as there are no readily available methods that would allow CAD models to be incorporated for the analysis, interpretation, or extraction of information. To address these limitations, we propose QueryCAD, the first system designed for CAD question answering, enabling the extraction of precise information from CAD models using natural language queries. QueryCAD incorporates SegCAD, an open-vocabulary instance segmentation model we developed to identify and select specific parts of the CAD model based on part descriptions. We further propose a CAD question answering benchmark to evaluate QueryCAD and establish a foundation for future research. Lastly, we integrate QueryCAD within an automatic robot program synthesis framework, validating its ability to enhance deep-learning solutions for robotics by enabling them to process CAD models (https://claudius-kienle.github.com/querycad).

arxiv情報

著者 Claudius Kienle,Benjamin Alt,Darko Katic,Rainer Jäkel,Jan Peters
発行日 2025-06-05 07:17:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

Tire Wear Aware Trajectory Tracking Control for Multi-axle Swerve-drive Autonomous Mobile Robots

要約

独立して操縦可能なホイールを備えたマルチアクスルスウェーブドライブ自律モバイルロボット(MS-AGV)は、一般的に高賃金の輸送に使用されます。
この作業では、目的関数でタイヤ摩耗最小化の考慮を必要とするMS-AGV軌道追跡のための新しいモデル予測制御(MPC)メソッドを提示します。
問題解決プロセスをスピードアップするために、階層コントローラーの設計を提案し、\ textit {Magic Formula Tire Model}と\ TextIT {Simplied Tire Wear Model}を統合することにより、動的モデルを簡素化します。
実験では、提案された方法は、通常のパーソナルコンピューターでリアルタイムでシミュレートされたアニーリングと目的関数にタイヤ摩耗を組み込むことで解決できます。タイヤ摩耗は、曲線追跡実験の追跡精度を維持しながら19.19 \%減少します。
より挑戦的なシーンでは、目的の軌道は車両の見出しから60度相殺され、タイヤ摩耗の最適化を考慮せずに、タイヤ摩耗の減少は運動学モデルと比較して65.20 \%に増加しました。

要約(オリジナル)

Multi-axle Swerve-drive Autonomous Mobile Robots (MS-AGVs) equipped with independently steerable wheels are commonly used for high-payload transportation. In this work, we present a novel model predictive control (MPC) method for MS-AGV trajectory tracking that takes tire wear minimization consideration in the objective function. To speed up the problem-solving process, we propose a hierarchical controller design and simplify the dynamic model by integrating the \textit{magic formula tire model} and \textit{simplified tire wear model}. In the experiment, the proposed method can be solved by simulated annealing in real-time on a normal personal computer and by incorporating tire wear into the objective function, tire wear is reduced by 19.19\% while maintaining the tracking accuracy in curve-tracking experiments. In the more challenging scene: the desired trajectory is offset by 60 degrees from the vehicle’s heading, the reduction in tire wear increased to 65.20\% compared to the kinematic model without considering the tire wear optimization.

arxiv情報

著者 Tianxin Hu,Xinhang Xu,Thien-Minh Nguyen,Fen Liu,Shenghai Yuan,Lihua Xie
発行日 2025-06-05 08:38:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

MineInsight: A Multi-sensor Dataset for Humanitarian Demining Robotics in Off-Road Environments

要約

人道的脱出におけるロボット工学の使用には、地雷検出能力を改善するためのコンピュータービジョン技術がますます関与しています。
ただし、多様で現実的なデータセットがない場合、アルゴリズムの信頼できる検証は、研究コミュニティにとって依然として課題です。
このペーパーでは、オフロードの地雷検出用に設計された公開されているマルチセンサーのマルチスペクトルデータセットであるMineInsightを紹介します。
データセットには、3つの異なるトラックに沿って分布している35の異なるターゲット(15の地形と20の一般的に発見されたオブジェクト)があり、多様で現実的なテスト環境を提供します。
MineInsightは、私たちの知る限り、無人の地上車両とそのロボットアームの両方からデュアルビューセンサースキャンを統合した最初のデータセットであり、閉塞を緩和し、空間認識を改善するための複数の視点を提供します。
2つのLIDARと、可視(RGB、モノクロ)、可視短波赤外線(Viswir)、および長波赤外線(LWIR)を含む多様なスペクトル範囲でキャプチャされた画像を備えています。
さらに、データセットには、ターゲットの位置の推定が付いており、検出アルゴリズムを評価するためのベンチマークを提供します。
昼間と夜間の両方の条件で約1時間のデータを記録し、約38,000 RGBフレーム、53,000型のviswirフレーム、および108,000 LWIRフレームを記録しました。
MineInsightは、地雷検出アルゴリズムを開発および評価するためのベンチマークとして機能します。
データセットはhttps://github.com/mariomlz99/mineinsightで入手できます。

要約(オリジナル)

The use of robotics in humanitarian demining increasingly involves computer vision techniques to improve landmine detection capabilities. However, in the absence of diverse and realistic datasets, the reliable validation of algorithms remains a challenge for the research community. In this paper, we introduce MineInsight, a publicly available multi-sensor, multi-spectral dataset designed for off-road landmine detection. The dataset features 35 different targets (15 landmines and 20 commonly found objects) distributed along three distinct tracks, providing a diverse and realistic testing environment. MineInsight is, to the best of our knowledge, the first dataset to integrate dual-view sensor scans from both an Unmanned Ground Vehicle and its robotic arm, offering multiple viewpoints to mitigate occlusions and improve spatial awareness. It features two LiDARs, as well as images captured at diverse spectral ranges, including visible (RGB, monochrome), visible short-wave infrared (VIS-SWIR), and long-wave infrared (LWIR). Additionally, the dataset comes with an estimation of the location of the targets, offering a benchmark for evaluating detection algorithms. We recorded approximately one hour of data in both daylight and nighttime conditions, resulting in around 38,000 RGB frames, 53,000 VIS-SWIR frames, and 108,000 LWIR frames. MineInsight serves as a benchmark for developing and evaluating landmine detection algorithms. Our dataset is available at https://github.com/mariomlz99/MineInsight.

arxiv情報

著者 Mario Malizia,Charles Hamesse,Ken Hasselmann,Geert De Cubber,Nikolaos Tsiogkas,Eric Demeester,Rob Haelterman
発行日 2025-06-05 10:08:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | コメントする

LLMs for sensory-motor control: Combining in-context and iterative learning

要約

連続観測ベクトルを連続アクションベクトルに直接マッピングすることにより、大規模な言語モデル(LLM)が具体化されたエージェントを制御できるようにする方法を提案します。
当初、LLMSは、エージェント、その環境、および意図した目標のテキストの説明に基づいて制御戦略を生成します。
この戦略は、評価中に収集されたパフォーマンスフィードバックと感覚運動データを使用して、LLMSが現在の戦略を改善するように繰り返し促される学習プロセスを通じて繰り返し洗練されます。
この方法は、Gymnasium Libraryからの古典的な制御タスクと、Mujocoライブラリの倒立振り子タスクで検証されています。
ほとんどの場合、エージェントが環境と相互作用するときに収集されたサブシンボリック感覚運動データと推論を通じて導出された象徴的な知識を統合することにより、最適または高性能のソリューションを正常に識別します。

要約(オリジナル)

We propose a method that enables large language models (LLMs) to control embodied agents by directly mapping continuous observation vectors to continuous action vectors. Initially, the LLMs generate a control strategy based on a textual description of the agent, its environment, and the intended goal. This strategy is then iteratively refined through a learning process in which the LLMs are repeatedly prompted to improve the current strategy, using performance feedback and sensory-motor data collected during its evaluation. The method is validated on classic control tasks from the Gymnasium library and the inverted pendulum task from the MuJoCo library. In most cases, it successfully identifies optimal or high-performing solutions by integrating symbolic knowledge derived through reasoning with sub-symbolic sensory-motor data gathered as the agent interacts with its environment.

arxiv情報

著者 Jônata Tyska Carvalho,Stefano Nolfi
発行日 2025-06-05 10:38:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC, cs.LG, cs.RO | コメントする