LaMOuR: Leveraging Language Models for Out-of-Distribution Recovery in Reinforcement Learning

要約

Deep Renection Learning(DRL)は、ロボット制御において強力なパフォーマンスを実証していますが、分散排出(OOD)状態の影響を受けやすく、しばしば信頼できないアクションとタスクの障害をもたらします。
以前の方法では、OODの発生の最小化または防止に焦点を当てていますが、エージェントがそのような状態に遭遇すると、回復をほとんど無視しています。
最新の研究では、エージェントが分配内の状態に戻ることでこれに対処しようとしましたが、不確実性の推定への依存は、複雑な環境でのスケーラビリティを妨げます。
この制限を克服するために、不確実性の推定に依存せずに回復学習を可能にする、分散排出回復(Lamour)の言語モデルを導入します。
Lamourは、エージェントを元のタスクを正常に実行できる状態に戻す密な報酬コードを生成し、画像の説明、論理的推論、およびコード生成でLVLMSの機能を活用します。
実験結果は、Lamourが多様な移動タスク全体の回復効率を大幅に向上させ、既存の方法が苦労しているヒューマノイド移動やモバイル操作など、複雑な環境に効果的に一般化することさえあることを示しています。
コードと補足資料は、https://lamour-rl.github.io/で入手できます。

要約(オリジナル)

Deep Reinforcement Learning (DRL) has demonstrated strong performance in robotic control but remains susceptible to out-of-distribution (OOD) states, often resulting in unreliable actions and task failure. While previous methods have focused on minimizing or preventing OOD occurrences, they largely neglect recovery once an agent encounters such states. Although the latest research has attempted to address this by guiding agents back to in-distribution states, their reliance on uncertainty estimation hinders scalability in complex environments. To overcome this limitation, we introduce Language Models for Out-of-Distribution Recovery (LaMOuR), which enables recovery learning without relying on uncertainty estimation. LaMOuR generates dense reward codes that guide the agent back to a state where it can successfully perform its original task, leveraging the capabilities of LVLMs in image description, logical reasoning, and code generation. Experimental results show that LaMOuR substantially enhances recovery efficiency across diverse locomotion tasks and even generalizes effectively to complex environments, including humanoid locomotion and mobile manipulation, where existing methods struggle. The code and supplementary materials are available at https://lamour-rl.github.io/.

arxiv情報

著者 Chan Kim,Seung-Woo Seo,Seong-Woo Kim
発行日 2025-03-24 06:16:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | LaMOuR: Leveraging Language Models for Out-of-Distribution Recovery in Reinforcement Learning はコメントを受け付けていません

A Survey on Personalized Alignment — The Missing Piece for Large Language Models in Real-World Applications

要約

大規模な言語モデル(LLMS)は顕著な能力を実証していますが、実際のアプリケーションへの移行は重要な制限を明らかにしています。普遍的な人間の価値との調整を維持しながら、個々の好みに適応できないことです。
現在のアライメント手法では、ユーザーの多様な背景やニーズに対応できない、すべてのサイズのアプローチを採用しています。
このペーパーでは、LLMが個々の好みに基づいて倫理的境界内で行動を適応させることができるパラダイムであるパラダイムの最初の包括的な調査を紹介します。
優先メモリ管理、パーソナライズされた生成、フィードバックベースのアラインメントを含む統一フレームワークを提案し、実装アプローチを体系的に分析し、さまざまなシナリオでの有効性を評価します。
現在の手法、潜在的なリスク、将来の課題を調べることにより、この調査は、より適応性があり倫理的に整合したLLMを開発するための構造化された基盤を提供します。

要約(オリジナル)

Large Language Models (LLMs) have demonstrated remarkable capabilities, yet their transition to real-world applications reveals a critical limitation: the inability to adapt to individual preferences while maintaining alignment with universal human values. Current alignment techniques adopt a one-size-fits-all approach that fails to accommodate users’ diverse backgrounds and needs. This paper presents the first comprehensive survey of personalized alignment-a paradigm that enables LLMs to adapt their behavior within ethical boundaries based on individual preferences. We propose a unified framework comprising preference memory management, personalized generation, and feedback-based alignment, systematically analyzing implementation approaches and evaluating their effectiveness across various scenarios. By examining current techniques, potential risks, and future challenges, this survey provides a structured foundation for developing more adaptable and ethically-aligned LLMs.

arxiv情報

著者 Jian Guan,Junfei Wu,Jia-Nan Li,Chuanqi Cheng,Wei Wu
発行日 2025-03-24 02:58:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | A Survey on Personalized Alignment — The Missing Piece for Large Language Models in Real-World Applications はコメントを受け付けていません

Fish Mouth Inspired Origami Gripper for Robust Multi-Type Underwater Grasping

要約

水中環境でのロボットの把握と操作は、伝統的に陸地で使用されていたロボットの手にユニークな課題を提示します。
これらの課題は、動的な水の条件、柔らかいものから硬い不規則なオブジェクト形状、さまざまな表面摩擦までの幅広いオブジェクト特性に由来しています。
一般的なアプローチの1つは、不足およびソフトアクチュエーターを使用して、埋め込まれたコンプライアンスで指ベースの手を開発することです。
この研究では、指ベースのハンドデザインに依存しない効果的な代替ソリューションを紹介します。
魚の口に触発された折り紙グリッパーを紹介します。これは、水中でさまざまな堅牢な把握タスクを実行するために単一の自由度を利用しています。
革新的な構造は、ヨシムラの折り目パターンの折りたたみに基づいて、単純な一軸引っ張り動きを把握作用に変換します。
折り紙グリッパーは、スケーラブルで最適化可能なデザイン、握り、コンプライアンス、堅牢性を含む、ピンチ、パワーグラス、複数のオブジェクトの同時把握、海底からのスクープなど、明確な利点を提供します。
この作業では、クラゲ、カニ、アワビなどのさまざまな海洋生物を処理できる専門の水中グリッパーの設計、モデリング、製造、および検証について詳しく説明します。
折り紙とバイオに触発されたアプローチを活用することにより、提示されたグリッパーは、水中環境でのロボット把持と操作の可能性を有望であることを示しています。

要約(オリジナル)

Robotic grasping and manipulation in underwater environments present unique challenges for robotic hands traditionally used on land. These challenges stem from dynamic water conditions, a wide range of object properties from soft to stiff, irregular object shapes, and varying surface frictions. One common approach involves developing finger-based hands with embedded compliance using underactuation and soft actuators. This study introduces an effective alternative solution that does not rely on finger-based hand designs. We present a fish mouth inspired origami gripper that utilizes a single degree of freedom to perform a variety of robust grasping tasks underwater. The innovative structure transforms a simple uniaxial pulling motion into a grasping action based on the Yoshimura crease pattern folding. The origami gripper offers distinct advantages, including scalable and optimizable design, grasping compliance, and robustness, with four grasping types: pinch, power grasp, simultaneous grasping of multiple objects, and scooping from the seabed. In this work, we detail the design, modeling, fabrication, and validation of a specialized underwater gripper capable of handling various marine creatures, including jellyfish, crabs, and abalone. By leveraging an origami and bio-inspired approach, the presented gripper demonstrates promising potential for robotic grasping and manipulation in underwater environments.

arxiv情報

著者 Honghao Guo,Junda Huang,Ian Zhang,Boyuan Liang,Xin Ma,Yunhui Liu,Jianshu Zhou
発行日 2025-03-20 19:54:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Fish Mouth Inspired Origami Gripper for Robust Multi-Type Underwater Grasping はコメントを受け付けていません

Depth Matters: Multimodal RGB-D Perception for Robust Autonomous Agents

要約

リアルタイムの制御決定を行うために純粋に認識に依存する自律エージェントは、効率的で堅牢なアーキテクチャを必要とします。
この作業では、深さ情報を使用してRGB入力を増強すると、RGBのみを使用するのと比較して、ステアリングコマンドを予測するエージェントの能力が大幅に向上することを実証します。
融合したRGB-D機能を活用して、シーケンシャルな意思決定を活用する軽量の再発コントローラーをベンチマークします。
モデルをトレーニングするために、物理的なステアリングホイールを介して専門のドライバーが制御する小規模な自動運転車を使用して高品質のデータを収集し、さまざまなレベルのステアリング難易度をキャプチャします。
多様な構成の下でトレーニングされたモデルは、実際のハードウェアに正常に展開されました。
具体的には、我々の調査結果は、深さデータの早期融合が非常に堅牢なコントローラーをもたらすことを明らかにしています。これは、タスクにネットワークの焦点を損なうことなく、フレームドロップとノイズレベルの増加でも効果的なままです。

要約(オリジナル)

Autonomous agents that rely purely on perception to make real-time control decisions require efficient and robust architectures. In this work, we demonstrate that augmenting RGB input with depth information significantly enhances our agents’ ability to predict steering commands compared to using RGB alone. We benchmark lightweight recurrent controllers that leverage the fused RGB-D features for sequential decision-making. To train our models, we collect high-quality data using a small-scale autonomous car controlled by an expert driver via a physical steering wheel, capturing varying levels of steering difficulty. Our models, trained under diverse configurations, were successfully deployed on real hardware. Specifically, our findings reveal that the early fusion of depth data results in a highly robust controller, which remains effective even with frame drops and increased noise levels, without compromising the network’s focus on the task.

arxiv情報

著者 Mihaela-Larisa Clement,Mónika Farsang,Felix Resch,Radu Grosu
発行日 2025-03-20 21:08:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO | Depth Matters: Multimodal RGB-D Perception for Robust Autonomous Agents はコメントを受け付けていません

Parameter Adjustments in POMDP-Based Trajectory Planning for Unsignalized Intersections

要約

このペーパーでは、署名されていない交差点で自動運転車の軌跡計画の問題を調査します。特に、車両に道のりがなくても安全に交差しなければならないシナリオに焦点を当てています。
この問題に対処するために、不確実性の下で計画するために設計された部分的に観察可能なマルコフ決定プロセス(POMDP)フレームワークに基づいた方法を採用しました。
このメソッドは、POMDPの近似ソルバーとして、適応信念ツリー(ABT)アルゴリズムを使用します。
交差点のトポロジーを離散化することから、POMDPの定式化の概要を説明します。
さらに、車両の位置や速度などの進化する状態の予測のためのダイナミクスモデルを提示します。
観察モデルを使用して、これらの状態と不完全な(騒々しい)利用可能な測定値とのつながりについても説明します。
私たちの結果は、この方法が、2つの異なる交差点の航空映像からの実際のトラフィックデータを利用する一連のシミュレーションで衝突のない軌跡を計画できることを確認しました。
さらに、メソッドのパフォーマンスに対するABTアルゴリズムのパラメーター調整の影響を研究しました。
これにより、合理的なパラメーター設定を決定する際のガイダンスが提供されます。これは、将来のメソッドアプリケーションに役立ちます。

要約(オリジナル)

This paper investigates the problem of trajectory planning for autonomous vehicles at unsignalized intersections, specifically focusing on scenarios where the vehicle lacks the right of way and yet must cross safely. To address this issue, we have employed a method based on the Partially Observable Markov Decision Processes (POMDPs) framework designed for planning under uncertainty. The method utilizes the Adaptive Belief Tree (ABT) algorithm as an approximate solver for the POMDPs. We outline the POMDP formulation, beginning with discretizing the intersection’s topology. Additionally, we present a dynamics model for the prediction of the evolving states of vehicles, such as their position and velocity. Using an observation model, we also describe the connection of those states with the imperfect (noisy) available measurements. Our results confirmed that the method is able to plan collision-free trajectories in a series of simulations utilizing real-world traffic data from aerial footage of two distinct intersections. Furthermore, we studied the impact of parameter adjustments of the ABT algorithm on the method’s performance. This provides guidance in determining reasonable parameter settings, which is valuable for future method applications.

arxiv情報

著者 Adam Kollarčík adn Zdeněk Hanzálek
発行日 2025-03-20 21:10:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Parameter Adjustments in POMDP-Based Trajectory Planning for Unsignalized Intersections はコメントを受け付けていません

Ground and Flight Locomotion for Two-Wheeled Drones via Model Predictive Path Integral Control

要約

このペーパーでは、地面を駆動して空中で飛ぶことができる二輪ドローンのモーション計画に対する新しいアプローチを提示します。
二輪ドローンモーション計画の従来の方法は、通常、勾配ベースの最適化に依存しており、障害物の形が微分可能な形で近似できると仮定します。
この制限を克服するために、モデル予測パス積分(MPPI)制御に基づいたモーション計画方法を提案し、運転モードと飛行モードを切り替えることにより、任意に形作られた障害物を介したナビゲーションを可能にします。
モードスイッチングによって引き起こされる不安定性と迅速なソリューションの変更を処理するために、提案されたメソッドは制御スペースを切り替え、MPPIの補助コントローラーを利用します。
シミュレーション結果は、提案された方法が非構造化された環境でのナビゲーションを可能にし、モードスイッチングを通じて効果的な障害物回避を実現することを示しています。

要約(オリジナル)

This paper presents a novel approach to motion planning for two-wheeled drones that can drive on the ground and fly in the air. Conventional methods for two-wheeled drone motion planning typically rely on gradient-based optimization and assume that obstacle shapes can be approximated by a differentiable form. To overcome this limitation, we propose a motion planning method based on Model Predictive Path Integral (MPPI) control, enabling navigation through arbitrarily shaped obstacles by switching between driving and flight modes. To handle the instability and rapid solution changes caused by mode switching, our proposed method switches the control space and utilizes the auxiliary controller for MPPI. Our simulation results demonstrate that the proposed method enables navigation in unstructured environments and achieves effective obstacle avoidance through mode switching.

arxiv情報

著者 Gosuke Kojima,Kohei Honda,Satoshi Nakano,Manabu Yamada
発行日 2025-03-20 21:28:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Ground and Flight Locomotion for Two-Wheeled Drones via Model Predictive Path Integral Control はコメントを受け付けていません

3D-GRAND: A Million-Scale Dataset for 3D-LLMs with Better Grounding and Less Hallucination

要約

言語の統合と3D認識は、物理的な世界を理解し、相互作用する具体化されたエージェントとロボットにとって重要です。
大規模な言語モデル(LLM)は印象的な言語の理解と生成能力を実証していますが、3D環境(3D-LLM)への適応は初期段階に残っています。
主な課題は、言語と3Dシーンの間に密集した接地を持つ大規模なデータセットがないことです。
3Dグランドを紹介します。これは、40,087の家庭用シーンと620万の密集したシーン言語の指示を組み合わせた先駆的な大規模なデータセットを紹介します。
我々の結果は、3D粒を使用した指示の調整により、接地能力が大幅に向上し、3D-LLMの幻覚が減少することが示されています。
貢献の一環として、3D-LLMの幻覚を体系的に評価し、モデルの公正な比較を可能にするための包括的なベンチマーク3Dポープを提案します。
私たちの実験は、データセットサイズと3D-LLMパフォーマンスの間のスケーリング効果を強調し、具体化されたAI研究のための大規模な3Dテキストデータセットの重要性を強調しています。
我々の結果は、効果的なSIMからリアルへの移転の初期シグナルを示しており、大規模な合成データでトレーニングされたモデルが実際の3Dスキャンでうまく機能することを示しています。
3Dグランドと3Dポープを通じて、具体化されたAIコミュニティにリソースと洞察を装備して、より信頼性が高く、より良く根拠のある3D-LLMにつながることを目指しています。
プロジェクトWebサイト:https://3d-grand.github.io

要約(オリジナル)

The integration of language and 3D perception is crucial for embodied agents and robots that comprehend and interact with the physical world. While large language models (LLMs) have demonstrated impressive language understanding and generation capabilities, their adaptation to 3D environments (3D-LLMs) remains in its early stages. A primary challenge is a lack of large-scale datasets with dense grounding between language and 3D scenes. We introduce 3D-GRAND, a pioneering large-scale dataset comprising 40,087 household scenes paired with 6.2 million densely-grounded scene-language instructions. Our results show that instruction tuning with 3D-GRAND significantly enhances grounding capabilities and reduces hallucinations in 3D-LLMs. As part of our contributions, we propose a comprehensive benchmark 3D-POPE to systematically evaluate hallucination in 3D-LLMs, enabling fair comparisons of models. Our experiments highlight a scaling effect between dataset size and 3D-LLM performance, emphasizing the importance of large-scale 3D-text datasets for embodied AI research. Our results demonstrate early signals for effective sim-to-real transfer, indicating that models trained on large synthetic data can perform well on real-world 3D scans. Through 3D-GRAND and 3D-POPE, we aim to equip the embodied AI community with resources and insights to lead to more reliable and better-grounded 3D-LLMs. Project website: https://3d-grand.github.io

arxiv情報

著者 Jianing Yang,Xuweiyi Chen,Nikhil Madaan,Madhavan Iyengar,Shengyi Qian,David F. Fouhey,Joyce Chai
発行日 2025-03-20 23:06:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.RO | 3D-GRAND: A Million-Scale Dataset for 3D-LLMs with Better Grounding and Less Hallucination はコメントを受け付けていません

Displacement-Actuated Continuum Robots: A Joint Space Abstraction

要約

抽象化としての変位作動された連続ロボットは、クラーク変換との関係により、アプローチを大幅に簡素化および改善するための重要な抽象化として示されています。
さらなるポテンシャルを強調するために、ますます人気のある長さの拡張と活用されていないねじれを特徴とするこの抽象化を再検討して拡張します。
各拡張機能について、ジョイント値から関節スペースに埋め込まれたマニホールドのローカル座標への対応するマッピングが提供されます。
各マッピングは、そのコンパクトさと直線性によって特徴付けられます。

要約(オリジナル)

The displacement-actuated continuum robot as an abstraction has been shown as a key abstraction to significantly simplify and improve approaches due to its relation to the Clarke transform. To highlight further potentials, we revisit and extend this abstraction that features an increasingly popular length extension and an underutilized twisting. For each extension, the corresponding mapping from the joint values to the local coordinates of the manifold embedded in the joint spaces is provided. Each mapping is characterized by its compactness and linearity.

arxiv情報

著者 Reinhard M. Grassmann,Jessica Burgner-Kahrs
発行日 2025-03-21 01:16:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Displacement-Actuated Continuum Robots: A Joint Space Abstraction はコメントを受け付けていません

Robotic In-Hand Manipulation for Large-Range Precise Object Movement: The RGMC Champion Solution

要約

複数の器用な指を使用した手の操作は、大きな腕の動きへの依存を減らし、それによってスペースとエネルギーを節約できる重要なロボットスキルです。
この文字は、グラス内のオブジェクトの動きに焦点を当てています。これは、安定した把握内の指の動きのみを通じて、オブジェクトを望ましいポーズに操作することを指します。
重要な課題は、一定の安定した把握を維持しながら、高精度と大きな範囲の動きを同時に達成することにあります。
この問題に対処するために、現実世界のシナリオで新しいオブジェクトに簡単に適用できる、事前トレーニングやオブジェクトのジオメトリを必要とせずに、運動学的軌道の最適化に基づいて、単純で実用的なアプローチを提案します。
このアプローチを採用して、ICRA 2024で開催された第9回ロボットグラッシングおよび操作コンペティション(RGMC)で、ハンドマニピュレーショントラックのチャンピオンシップを獲得しました。
ビデオやコードを含む補足資料は、https://rgmc-xl-team.github.io/ingrasp_manipulationで入手できます。

要約(オリジナル)

In-hand manipulation using multiple dexterous fingers is a critical robotic skill that can reduce the reliance on large arm motions, thereby saving space and energy. This letter focuses on in-grasp object movement, which refers to manipulating an object to a desired pose through only finger motions within a stable grasp. The key challenge lies in simultaneously achieving high precision and large-range movements while maintaining a constant stable grasp. To address this problem, we propose a simple and practical approach based on kinematic trajectory optimization with no need for pretraining or object geometries, which can be easily applied to novel objects in real-world scenarios. Adopting this approach, we won the championship for the in-hand manipulation track at the 9th Robotic Grasping and Manipulation Competition (RGMC) held at ICRA 2024. Implementation details, discussion, and further quantitative experimental results are presented in this letter, which aims to comprehensively evaluate our approach and share our key takeaways from the competition. Supplementary materials including video and code are available at https://rgmc-xl-team.github.io/ingrasp_manipulation .

arxiv情報

著者 Mingrui Yu,Yongpeng Jiang,Chen Chen,Yongyi Jia,Xiang Li
発行日 2025-03-21 01:17:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Robotic In-Hand Manipulation for Large-Range Precise Object Movement: The RGMC Champion Solution はコメントを受け付けていません

KARMA: Augmenting Embodied AI Agents with Long-and-short Term Memory Systems

要約

相互接続された長いシーケンスの家庭用タスクの実行を担当する具体化されたAIエージェントは、多くの場合、コンテキスト内メモリの困難に直面し、タスク実行の非効率性とエラーにつながります。
この問題に対処するために、長期および短期のメモリモジュールを統合する革新的なメモリシステムであるKarmaを紹介し、メモリの補強プロンプトを通じて具体化されたエージェントの計画のための大規模な言語モデル(LLMS)を強化します。
Karmaは長期記憶と短期記憶を区別し、長期メモリは環境の表現として包括的な3Dシーングラフをキャプチャし、短期メモリはオブジェクトの位置と状態の変化を動的に記録します。
このデュアルメモリ構造により、エージェントは関連する過去のシーンエクスペリエンスを取得し、それによりタスク計画の精度と効率を改善できます。
短期メモリは、効果的で適応的なメモリ置換のための戦略を採用しており、より少ないデータを破棄しながら重要な情報の保持を保証します。
メモリで強化された最先端の具体化されたエージェントと比較して、メモリ編成された具体化されたAIエージェントは、AI2-TORシミュレーター内の複合タスクと複雑なタスクでそれぞれ1.3倍と2.3倍の成功率を改善し、タスクの実行効率を3.4xおよび62.7x増加させます。
さらに、Karmaのプラグアンドプレイ機能により、モバイル操作プラットフォームなどの現実世界のロボットシステムへのシームレスな展開が可能になることを実証します。
作品の実験ビデオは、https://youtu.be/4bt7fnw9ehsにあります。
私たちのコードは、https://github.com/wzx0swarm0robotics/karma/tree/masterで入手できます。

要約(オリジナル)

Embodied AI agents responsible for executing interconnected, long-sequence household tasks often face difficulties with in-context memory, leading to inefficiencies and errors in task execution. To address this issue, we introduce KARMA, an innovative memory system that integrates long-term and short-term memory modules, enhancing large language models (LLMs) for planning in embodied agents through memory-augmented prompting. KARMA distinguishes between long-term and short-term memory, with long-term memory capturing comprehensive 3D scene graphs as representations of the environment, while short-term memory dynamically records changes in objects’ positions and states. This dual-memory structure allows agents to retrieve relevant past scene experiences, thereby improving the accuracy and efficiency of task planning. Short-term memory employs strategies for effective and adaptive memory replacement, ensuring the retention of critical information while discarding less pertinent data. Compared to state-of-the-art embodied agents enhanced with memory, our memory-augmented embodied AI agent improves success rates by 1.3x and 2.3x in Composite Tasks and Complex Tasks within the AI2-THOR simulator, respectively, and enhances task execution efficiency by 3.4x and 62.7x. Furthermore, we demonstrate that KARMA’s plug-and-play capability allows for seamless deployment on real-world robotic systems, such as mobile manipulation platforms.Through this plug-and-play memory system, KARMA significantly enhances the ability of embodied agents to generate coherent and contextually appropriate plans, making the execution of complex household tasks more efficient. The experimental videos from the work can be found at https://youtu.be/4BT7fnw9ehs. Our code is available at https://github.com/WZX0Swarm0Robotics/KARMA/tree/master.

arxiv情報

著者 Zixuan Wang,Bo Yu,Junzhe Zhao,Wenhao Sun,Sai Hou,Shuai Liang,Xing Hu,Yinhe Han,Yiming Gan
発行日 2025-03-21 01:58:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | KARMA: Augmenting Embodied AI Agents with Long-and-short Term Memory Systems はコメントを受け付けていません