Disentangled Unsupervised Skill Discovery for Efficient Hierarchical Reinforcement Learning

要約

インテリジェント エージェントの特徴は、環境との監視されていない対話から純粋に再利用可能なスキルを学習できることです。
ただし、既存の教師なしスキル発見手法では、1 つのスキル変数が環境内の多くのエンティティに同時に影響を与える、複雑なスキルを学習することが多く、下流のスキル連鎖が非常に困難になります。
私たちは、下流のタスクを解決するために効率的に再利用できる、もつれを解くスキルを学習する方法である、解き放たれた教師なしスキル発見 (DUSDi) を提案します。
DUSDi はスキルを分解されたコンポーネントに分解します。各スキル コンポーネントは状態空間の 1 つの要素にのみ影響します。
重要なのは、これらのスキルコンポーネントを同時に構成して低レベルのアクションを生成し、階層的な強化学習を通じて下流のタスクに取り組むために効率的に連鎖させることができることです。
DUSDi は、異なるスキルコンポーネントの影響間の絡み合いを強制的に解消するための新しい相互情報ベースの目標を定義し、値因数分解を利用してこの目標を効率的に最適化します。
一連の困難な環境で評価された DUSDi は、もつれのないスキルを学習することに成功し、学習したスキルを下流のタスクを解決するために適用することに関して、以前のスキル発見方法を大幅に上回りました。
コードとスキルの視覚化 (jiahenghu.github.io/DUSDi-site/)。

要約(オリジナル)

A hallmark of intelligent agents is the ability to learn reusable skills purely from unsupervised interaction with the environment. However, existing unsupervised skill discovery methods often learn entangled skills where one skill variable simultaneously influences many entities in the environment, making downstream skill chaining extremely challenging. We propose Disentangled Unsupervised Skill Discovery (DUSDi), a method for learning disentangled skills that can be efficiently reused to solve downstream tasks. DUSDi decomposes skills into disentangled components, where each skill component only affects one factor of the state space. Importantly, these skill components can be concurrently composed to generate low-level actions, and efficiently chained to tackle downstream tasks through hierarchical Reinforcement Learning. DUSDi defines a novel mutual-information-based objective to enforce disentanglement between the influences of different skill components, and utilizes value factorization to optimize this objective efficiently. Evaluated in a set of challenging environments, DUSDi successfully learns disentangled skills, and significantly outperforms previous skill discovery methods when it comes to applying the learned skills to solve downstream tasks. Code and skills visualization at jiahenghu.github.io/DUSDi-site/.

arxiv情報

著者 Jiaheng Hu,Zizhao Wang,Peter Stone,Roberto Martín-Martín
発行日 2024-10-15 04:13:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | Disentangled Unsupervised Skill Discovery for Efficient Hierarchical Reinforcement Learning はコメントを受け付けていません

Reasoning Grasping via Multimodal Large Language Model

要約

人間中心の環境内で動作するロボットシステムは大幅に進歩しているにもかかわらず、既存のモデルは依然として、特定のオブジェクトを識別して操作するために明示的な人間のコマンドに大きく依存しています。
このため、暗黙的な人間の意図を理解し、それに基づいて行動することが重要な環境では、その有効性が制限されます。
この研究では、ロボットが間接的な口頭指示や意図に基づいて把握ポーズを生成する必要がある推論把握という新しいタスクを導入します。
これを達成するために、マルチモーダル大規模言語モデル (LLM) とビジョンベースのロボット把握フレームワークを統合する、エンドツーエンドの推論把握モデルを提案します。
さらに、オブジェクトレベルおよびパーツレベルの把握のための暗黙的な命令を組み込んだ、GraspNet-10億から生成された最初の推論把握ベンチマークデータセットを紹介します。
私たちの結果は、CLIP または LLaVA を把握検出モデルと直接統合すると、困難な推論把握タスクではパフォーマンスが低いのに対し、提案したモデルは推論把握ベンチマークと現実世界の実験の両方で大幅に向上したパフォーマンスを示していることを示しています。

要約(オリジナル)

Despite significant progress in robotic systems for operation within human-centric environments, existing models still heavily rely on explicit human commands to identify and manipulate specific objects. This limits their effectiveness in environments where understanding and acting on implicit human intentions are crucial. In this study, we introduce a novel task: reasoning grasping, where robots need to generate grasp poses based on indirect verbal instructions or intentions. To accomplish this, we propose an end-to-end reasoning grasping model that integrates a multimodal Large Language Model (LLM) with a vision-based robotic grasping framework. In addition, we present the first reasoning grasping benchmark dataset generated from the GraspNet-1 billion, incorporating implicit instructions for object-level and part-level grasping. Our results show that directly integrating CLIP or LLaVA with the grasp detection model performs poorly on the challenging reasoning grasping tasks, while our proposed model demonstrates significantly enhanced performance both in the reasoning grasping benchmark and real-world experiments.

arxiv情報

著者 Shiyu Jin,Jinxuan Xu,Yutian Lei,Liangjun Zhang
発行日 2024-10-15 05:15:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Reasoning Grasping via Multimodal Large Language Model はコメントを受け付けていません

DIAR: Diffusion-model-guided Implicit Q-learning with Adaptive Revaluation

要約

我々は、拡散モデルに基づく適応再評価による暗黙的 Q 学習 (DIAR) フレームワークを導入した、新しいオフライン強化学習 (オフライン RL) アプローチを提案します。
私たちは、オフライン RL における 2 つの重要な課題、つまり配布外のサンプルと長期的な問題に対処します。
私たちは拡散モデルを活用して状態と行動のシーケンス分布を学習し、よりバランスのとれた適応的な意思決定のために価値関数を組み込みます。
DIAR は、現在と将来の状態値を比較することで意思決定の長さを動的に調整する適応的再評価メカニズムを導入し、柔軟な長期的な意思決定を可能にします。
さらに、Q ネットワーク学習と拡散モデルによって導かれた価値関数を組み合わせることにより、Q 値の過大評価に対処します。
普及モデルは多様な潜在的な軌道を生成し、政策の堅牢性と一般化を強化します。
Maze2D、AntMaze、Kitchen などのタスクで実証されているように、DIAR は、長期にわたる報酬の少ない環境において、常に最先端のアルゴリズムを上回ります。

要約(オリジナル)

We propose a novel offline reinforcement learning (offline RL) approach, introducing the Diffusion-model-guided Implicit Q-learning with Adaptive Revaluation (DIAR) framework. We address two key challenges in offline RL: out-of-distribution samples and long-horizon problems. We leverage diffusion models to learn state-action sequence distributions and incorporate value functions for more balanced and adaptive decision-making. DIAR introduces an Adaptive Revaluation mechanism that dynamically adjusts decision lengths by comparing current and future state values, enabling flexible long-term decision-making. Furthermore, we address Q-value overestimation by combining Q-network learning with a value function guided by a diffusion model. The diffusion model generates diverse latent trajectories, enhancing policy robustness and generalization. As demonstrated in tasks like Maze2D, AntMaze, and Kitchen, DIAR consistently outperforms state-of-the-art algorithms in long-horizon, sparse-reward environments.

arxiv情報

著者 Jaehyun Park,Yunho Kim,Sejin Kim,Byung-Jun Lee,Sundong Kim
発行日 2024-10-15 07:09:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | DIAR: Diffusion-model-guided Implicit Q-learning with Adaptive Revaluation はコメントを受け付けていません

Using Zone Inflation and Volume Transfer to Design a Fabric-based Pneumatic Exosuit with both Efficiency and Wearability

要約

ファブリックベースの空気圧外骨格スーツは、人間とマシンのインタラクション性能が優れているため、幅広い応用の可能性を秘めていますが、その構造設計パラダイムはまだ完成しておらず、詳細な研究が必要です。
この論文では、効率と着用性の両方を備えた布地ベースの空気圧外骨格スーツの設計のためのゾーン インフレーションと体積移動の概念を提案します。
ゾーンインフレーションの意味は、空気圧外骨格スーツの膨張領域を膨張-収縮ゾーンと膨張保持ゾーンに分割することで、圧縮空気の消費量を削減し、効率を向上させることができます。
衣服内の膨張可能領域を戦略的に分配する方法である体積移動は、外骨格スーツの着用性を効果的に向上させることができます。
外骨格スーツは、安価な熱可塑性ポリウレタンフィルムと衣服の生地を使用し、熱プレスと縫製によって作られます。
この外骨格スーツの応答時間は 0.5 秒、応力面積は 1500 mm2、外形はわずか 32 mm で、一般的な衣服の中に隠すことができます。
外骨格スーツの出力トルクを誤差 3.6% で予測する数学モデルが開発されました。
機械実験によると、外骨格スーツは 100kPa の圧力で 9.1Nm のトルクを出力します。
表面筋電図検査の実験では、外骨格スーツがユーザーに座位から立位までの動作を促進し、筋電図信号が平均 14.95% 減少することが示されています。
これらの方法を使用して設計された外骨格スーツは、効率と着用性を兼ね備えており、布地ベースの空気圧外骨格スーツの理想的なパラダイムとなることが期待されています。

要約(オリジナル)

Fabric-based pneumatic exosuits have a broad application prospect due to their good human-machine interaction performance, but their structural design paradigm has not yet been finalized and requires in-depth research. This paper proposes the concepts of zone inflation and volume transfer for the design of a fabric-based pneumatic exosuit with both efficiency and wearability. The meaning of zone inflation is to divide the inflation area of pneumatic exosuit into inflation-deflation zone and inflation-holding zone which can reduce the consumption of compressed air and improve efficiency. Volume transfer, a strategic distribution method of inflatable regions inside the garment, can effectively enhance the wearability of the exosuit. Using inexpensive thermoplastic polyurethane film and clothing fabric, the exosuit is made by heat pressing and sewing. The exosuit has a response time of 0.5s, a stress area of 1500mm2, and a profile of only 32mm, which can be hidden inside common clothing. A mathematical model is developed to predict the output torque of the exosuit with an error of 3.6%. Mechanical experiments show that the exosuit outputs a torque of 9.1Nm at a pressure of 100kPa. Surface electromyography experiments show that the exosuit can provide users with a boost from sitting to standing, with an average reduction in electromyography signals of 14.95%. The exosuit designed using these methods synthesizes efficiency and wearability and is expected to be an ideal paradigm for fabric-based pneumatic exosuits.

arxiv情報

著者 Chendong Liu,Dapeng Yang,Jiachen Chen,Yiming Dai,Li Jiang,Shengquan Xie,Hong Liu
発行日 2024-10-15 07:14:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Using Zone Inflation and Volume Transfer to Design a Fabric-based Pneumatic Exosuit with both Efficiency and Wearability はコメントを受け付けていません

Visual Manipulation with Legs

要約

動物は移動と操作の両方に手足を使います。
私たちは四足ロボットにも同様の多用途性を持たせることを目指しています。
この作品では、掴みにくい操作からインスピレーションを得て、四足ロボットが脚を使って物体と対話できるシステムを紹介します。
このシステムには、視覚操作ポリシー モジュールとロコマニピュレーター モジュールという 2 つの主要コンポーネントがあります。
視覚操作ポリシーは、点群の観察とオブジェクト中心のアクションを使用した強化学習 (RL) でトレーニングされ、脚がオブジェクトとどのように対話するかを決定します。
ロコマニピュレーター コントローラーは、インピーダンス制御とモデル予測制御 (MPC) に基づいて、脚の動きと体の姿勢の調整を管理します。
一本の脚でオブジェクトを操作するだけでなく、システムはクリティカルマップに基づいて左脚または右脚を選択し、ベース調整を通じてオブジェクトを遠くのゴールに移動させることができます。
実験では、シミュレーションと現実世界の両方でオブジェクトの姿勢調整タスクに関するシステムを評価し、以前の研究よりも脚を使ったより汎用性の高いオブジェクト操作スキルを実証しました。

要約(オリジナル)

Animals use limbs for both locomotion and manipulation. We aim to equip quadruped robots with similar versatility. This work introduces a system that enables quadruped robots to interact with objects using their legs, inspired by non-prehensile manipulation. The system has two main components: a visual manipulation policy module and a loco-manipulator module. The visual manipulation policy, trained with reinforcement learning (RL) using point cloud observations and object-centric actions, decides how the leg should interact with the object. The loco-manipulator controller manages leg movements and body pose adjustments, based on impedance control and Model Predictive Control (MPC). Besides manipulating objects with a single leg, the system can select from the left or right leg based on critic maps and move objects to distant goals through base adjustment. Experiments evaluate the system on object pose alignment tasks in both simulation and the real world, demonstrating more versatile object manipulation skills with legs than previous work.

arxiv情報

著者 Xialin He,Chengjing Yuan,Wenxuan Zhou,Ruihan Yang,David Held,Xiaolong Wang
発行日 2024-10-15 07:20:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Visual Manipulation with Legs はコメントを受け付けていません

GSORB-SLAM: Gaussian Splatting SLAM benefits from ORB features and Transmittance information

要約

3D ガウス スプラッティング (3DGS) の出現により、最近、高密度ビジュアル SLAM 研究の新たな波が巻き起こりました。
ただし、現在の方法は、アーティファクトやノイズに対する感度、トレーニング視点の次善の選択、および軽いグローバル最適化の欠如などの課題に直面しています。
この論文では、3DGS と ORB 機能を密に結合する高密度 SLAM システムを提案します。
私たちは、堅牢な追跡を実現し、ノイズやアーティファクトの影響を効果的に軽減するための共同最適化アプローチを設計します。
これには、累積透過率から導出された新しい幾何学的観測値とピクセル データから抽出された ORB 特徴を組み合わせることが含まれます。
さらに、マッピング品質を向上させるために、ガウス プリミティブがシーンをコンパクトに表現できるようにする適応ガウス拡張および正則化方法を提案します。
これは、ハイブリッド グラフに基づく視点選択戦略と組み合わされて、過剰適合効果を軽減し、収束品質を向上させます。
最後に、私たちのアプローチは、コンパクトで高品質なシーン表現と正確な位置特定を実現します。
GSORB-SLAM はさまざまなデータセットで評価され、優れたパフォーマンスを実証しています。
コードが利用可能になります。

要約(オリジナル)

The emergence of 3D Gaussian Splatting (3DGS) has recently sparked a renewed wave of dense visual SLAM research. However, current methods face challenges such as sensitivity to artifacts and noise, sub-optimal selection of training viewpoints, and a lack of light global optimization. In this paper, we propose a dense SLAM system that tightly couples 3DGS with ORB features. We design a joint optimization approach for robust tracking and effectively reducing the impact of noise and artifacts. This involves combining novel geometric observations, derived from accumulated transmittance, with ORB features extracted from pixel data. Furthermore, to improve mapping quality, we propose an adaptive Gaussian expansion and regularization method that enables Gaussian primitives to represent the scene compactly. This is coupled with a viewpoint selection strategy based on the hybrid graph to mitigate over-fitting effects and enhance convergence quality. Finally, our approach achieves compact and high-quality scene representations and accurate localization. GSORB-SLAM has been evaluated on different datasets, demonstrating outstanding performance. The code will be available.

arxiv情報

著者 Wancai Zheng,Xinyi Yu,Jintao Rong,Linlin Ou,Yan Wei,Libo Zhou
発行日 2024-10-15 07:25:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | GSORB-SLAM: Gaussian Splatting SLAM benefits from ORB features and Transmittance information はコメントを受け付けていません

DODT: Enhanced Online Decision Transformer Learning through Dreamer’s Actor-Critic Trajectory Forecasting

要約

強化学習の進歩により、複雑な意思決定タスクを学習できる洗練されたモデルが開発されました。
ただし、ワールド モデルを意思決定トランスフォーマーと効率的に統合することは依然として課題です。
この論文では、Dreamer アルゴリズムの予測軌道を生成する機能と、Online Decision Transformer の適応学習の強みを組み合わせた新しいアプローチを紹介します。
私たちの方法論は、Dreamer が生成した軌道がトランスフォーマーの状況に応じた意思決定を強化し、双方向の強化ループを作成する並列トレーニングを可能にします。
私たちは、一連の困難なベンチマークに対するアプローチの有効性を経験的に実証し、既存の方法と比較してサンプル効率の顕著な改善と報酬の最大化を達成しました。
私たちの結果は、提案された統合フレームワークが学習を加速するだけでなく、多様で動的なシナリオにおける堅牢性を実証し、モデルベースの強化学習における重要な前進を示すことを示しています。

要約(オリジナル)

Advancements in reinforcement learning have led to the development of sophisticated models capable of learning complex decision-making tasks. However, efficiently integrating world models with decision transformers remains a challenge. In this paper, we introduce a novel approach that combines the Dreamer algorithm’s ability to generate anticipatory trajectories with the adaptive learning strengths of the Online Decision Transformer. Our methodology enables parallel training where Dreamer-produced trajectories enhance the contextual decision-making of the transformer, creating a bidirectional enhancement loop. We empirically demonstrate the efficacy of our approach on a suite of challenging benchmarks, achieving notable improvements in sample efficiency and reward maximization over existing methods. Our results indicate that the proposed integrated framework not only accelerates learning but also showcases robustness in diverse and dynamic scenarios, marking a significant step forward in model-based reinforcement learning.

arxiv情報

著者 Eric Hanchen Jiang,Zhi Zhang,Dinghuai Zhang,Andrew Lizarraga,Chenheng Xu,Yasi Zhang,Siyan Zhao,Zhengjie Xu,Peiyu Yu,Yuer Tang,Deqian Kong,Ying Nian Wu
発行日 2024-10-15 07:27:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO, stat.ML | DODT: Enhanced Online Decision Transformer Learning through Dreamer’s Actor-Critic Trajectory Forecasting はコメントを受け付けていません

A Framework for Adapting Human-Robot Interaction to Diverse User Groups

要約

現実世界の設定で多様なユーザー グループとの自然かつ直観的な対話を促進するには、ソーシャル ロボットがユーザーのフィードバックに基づいて動作を適応させながら、これらのグループのさまざまな要件や期待に対処できなければなりません。
これまでの研究は特定の人口統計に焦点を当てていることが多いですが、私たちは、さまざまなユーザー グループに合わせてインタラクションを調整し、個々のユーザーが軽微な中断と重大な中断の両方を通じてインタラクションを調整できるようにする、適応型ヒューマン ロボット インタラクション (HRI) のための新しいフレームワークを提案します。
私たちの主な貢献には、オープンソース コード ベースを使用した適応型の ROS ベースの HRI フレームワークの開発が含まれます。
このフレームワークは、高度な音声認識と音声アクティビティ検出を通じて自然な対話をサポートし、対話ブリッジとして大規模言語モデル (LLM) を活用します。
私たちはモジュールテストとシステムトライアルを通じてフレームワークの効率を検証し、年齢認識の高い精度と、繰り返されるユーザー入力や計画変更に対する堅牢性を実証します。

要約(オリジナル)

To facilitate natural and intuitive interactions with diverse user groups in real-world settings, social robots must be capable of addressing the varying requirements and expectations of these groups while adapting their behavior based on user feedback. While previous research often focuses on specific demographics, we present a novel framework for adaptive Human-Robot Interaction (HRI) that tailors interactions to different user groups and enables individual users to modulate interactions through both minor and major interruptions. Our primary contributions include the development of an adaptive, ROS-based HRI framework with an open-source code base. This framework supports natural interactions through advanced speech recognition and voice activity detection, and leverages a large language model (LLM) as a dialogue bridge. We validate the efficiency of our framework through module tests and system trials, demonstrating its high accuracy in age recognition and its robustness to repeated user inputs and plan changes.

arxiv情報

著者 Theresa Pekarek Rosin,Vanessa Hassouna,Xiaowen Sun,Luca Krohm,Henri-Leon Kordt,Michael Beetz,Stefan Wermter
発行日 2024-10-15 08:16:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.HC, cs.RO | A Framework for Adapting Human-Robot Interaction to Diverse User Groups はコメントを受け付けていません

Towards Local Minima-free Robotic Navigation: Model Predictive Path Integral Control via Repulsive Potential Augmentation

要約

モデルベースの制御は、ロボット ナビゲーションの重要なコンポーネントです。
ただし、有限で近視眼的な最適化手順としての固有の性質により、極小値での閉じ込めに苦戦することがよくあります。
以前の研究ではこの問題に取り組んできましたが、反応的な性質によりソリューションの品質が犠牲になったり、プロアクティブなガイダンスのための明示的なパスを生成する際の計算効率が犠牲になったりしていました。
この目的を達成するために、グローバル パスからの誘導なしに局所最小値を積極的に回避する動作計画方法を提案します。
重要なアイデアは、斥力ポテンシャルの増強であり、人工ポテンシャル場を介して、高レベルの方向情報を単一の斥力項としてモデル予測パス積分制御に統合します。
私たちは、極小値を引き起こす障害物がある環境での理論分析とシミュレーションを通じてこの方法を評価します。
結果は、私たちの方法が極小値の回避を保証し、計算効率を低下させることなく大域的最適性の点で既存の方法よりも優れていることを示しています。

要約(オリジナル)

Model-based control is a crucial component of robotic navigation. However, it often struggles with entrapment in local minima due to its inherent nature as a finite, myopic optimization procedure. Previous studies have addressed this issue but sacrificed either solution quality due to their reactive nature or computational efficiency in generating explicit paths for proactive guidance. To this end, we propose a motion planning method that proactively avoids local minima without any guidance from global paths. The key idea is repulsive potential augmentation, integrating high-level directional information into the Model Predictive Path Integral control as a single repulsive term through an artificial potential field. We evaluate our method through theoretical analysis and simulations in environments with obstacles that induce local minima. Results show that our method guarantees the avoidance of local minima and outperforms existing methods in terms of global optimality without decreasing computational efficiency.

arxiv情報

著者 Takahiro Fuke,Masafumi Endo,Kohei Honda,Genya Ishigami
発行日 2024-10-15 08:19:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Towards Local Minima-free Robotic Navigation: Model Predictive Path Integral Control via Repulsive Potential Augmentation はコメントを受け付けていません

LLM2Swarm: Robot Swarms that Responsively Reason, Plan, and Collaborate through LLMs

要約

ロボット群は、複雑なタスクを遂行するために通信および協力する多くの単純なロボットで構成されています。
ロボット コントローラーは通常、専門家がプログラミング コードを使用してケースバイケースで指定する必要があります。
このプロセスは時間がかかり、エラーが発生しやすく、展開中に発生する可能性のあるすべての状況を考慮することはできません。
一方、最近の大規模言語モデル (LLM) は、推論と計画の機能を実証し、マシンと対話してプログラムする新しい方法を導入し、ドメインと常識の知識を表現します。
したがって、LLM をロボット群と統合することで前述の課題に対処し、概念実証 (ショーケース) で可能性を示すことを提案します。
この統合では、2 つのアプローチを検討します。
1 つ目のアプローチは「間接統合」です。LLM を使用してロボット コントローラーを合成および検証します。
このアプローチにより、開発時間と展開前の人的エラーが削減される可能性があります。
さらに、展開中に、新しいロボットの動作をその場で作成するために使用することもできます。
2 番目のアプローチは「直接統合」です。このアプローチでは、各ロボットが展開中に個別の LLM インスタンスをローカルで実行し、ロボット間コラボレーションや人間と群れの相互作用を実現します。
これらのローカル LLM インスタンスにより、各ロボットは自然言語を使用して推論、計画、共同作業を行うことができます。
私たちの主に概念的な貢献に関するさらなる研究を可能にするために、LLM2Swarm システムのソフトウェアとビデオをリリースします (https://github.com/Pold87/LLM2Swarm)。

要約(オリジナル)

Robot swarms are composed of many simple robots that communicate and collaborate to fulfill complex tasks. Robot controllers usually need to be specified by experts on a case-by-case basis via programming code. This process is time-consuming, prone to errors, and unable to take into account all situations that may be encountered during deployment. On the other hand, recent Large Language Models (LLMs) have demonstrated reasoning and planning capabilities, introduced new ways to interact with and program machines, and represent domain and commonsense knowledge. Hence, we propose to address the aforementioned challenges by integrating LLMs with robot swarms and show the potential in proofs of concept (showcases). For this integration, we explore two approaches. The first approach is ‘indirect integration,’ where LLMs are used to synthesize and validate the robot controllers. This approach may reduce development time and human error before deployment. Moreover, during deployment, it could be used for on-the-fly creation of new robot behaviors. The second approach is ‘direct integration,’ where each robot locally executes a separate LLM instance during deployment for robot-robot collaboration and human-swarm interaction. These local LLM instances enable each robot to reason, plan, and collaborate using natural language. To enable further research on our mainly conceptual contribution, we release the software and videos for our LLM2Swarm system: https://github.com/Pold87/LLM2Swarm.

arxiv情報

著者 Volker Strobel,Marco Dorigo,Mario Fritz
発行日 2024-10-15 08:24:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | LLM2Swarm: Robot Swarms that Responsively Reason, Plan, and Collaborate through LLMs はコメントを受け付けていません