Human-Robot Collaboration for the Remote Control of Mobile Humanoid Robots with Torso-Arm Coordination

要約

最近、多くのヒューマノイドロボットが、病院や支援生活環境など、さまざまな施設にますます配備されています。
それらの運動学的冗長性は、到達可能性と操作性を高め、複雑で乱雑な環境をナビゲートし、幅広いタスクを実行できるようにします。
ただし、この冗長性は、特にロボットのマクロマイクロ構造(胴体と腕)の動きを調整する上で、重要な制御課題をもたらします。
したがって、リモート制御されたモバイルヒューマノイドロボットの胴体と腕を調整するためのさまざまなヒトロボット共同(HRC)方法を提案し、システムの効率とタスクの実行を強化するために自律性と人間の入力のバランスをとることを目指しています。
提案された方法には、ユーザーが手動で胴体の動きを制御する人間が開始するアプローチ、および到達可能性、タスクの目標、または推定された人間の意図などの要因に基づいて、胴体と腕を自律的に調整するロボットによって開始されたアプローチが含まれます。
N = 17の参加者を使用してユーザー調査を実施して、タスクのパフォーマンス、操作性、エネルギー効率の観点から提案されたアプローチを比較し、参加者が好む方法を分析しました。

要約(オリジナル)

Recently, many humanoid robots have been increasingly deployed in various facilities, including hospitals and assisted living environments, where they are often remotely controlled by human operators. Their kinematic redundancy enhances reachability and manipulability, enabling them to navigate complex, cluttered environments and perform a wide range of tasks. However, this redundancy also presents significant control challenges, particularly in coordinating the movements of the robot’s macro-micro structure (torso and arms). Therefore, we propose various human-robot collaborative (HRC) methods for coordinating the torso and arm of remotely controlled mobile humanoid robots, aiming to balance autonomy and human input to enhance system efficiency and task execution. The proposed methods include human-initiated approaches, where users manually control torso movements, and robot-initiated approaches, which autonomously coordinate torso and arm based on factors such as reachability, task goal, or inferred human intent. We conducted a user study with N=17 participants to compare the proposed approaches in terms of task performance, manipulability, and energy efficiency, and analyzed which methods were preferred by participants.

arxiv情報

著者 Nikita Boguslavskii,Lorena Maria Genua,Zhi Li
発行日 2025-05-09 04:20:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.RO | Human-Robot Collaboration for the Remote Control of Mobile Humanoid Robots with Torso-Arm Coordination はコメントを受け付けていません

End-to-End Driving via Self-Supervised Imitation Learning Using Camera and LiDAR Data

要約

自律運転では、センサーデータから直接車両制御信号を予測するエンドツーエンド(E2E)駆動アプローチが急速に注目を集めています。
安全なE2E運転システムを学習するには、幅広い運転データと人間の介入が必要です。
車両制御データは、多くの人間の運転によって構築されており、大規模な車両制御データセットを構築することは困難です。
多くの場合、公開されている運転データセットは限られた運転シーンで収集され、車両制御データの収集は車両メーカーのみが利用できます。
これらの課題に対処するために、この手紙は、自己監視回帰学習(SSRL)フレームワークに基づいて、E2E運転のために、最初の完全に自己監視された学習フレームワークである自己監視模倣学習(SSIL)を提案します。
擬似ステアリング角度データを構築するために、提案されたSSILは、光検出と範囲のセンサーで推定される現在および以前の時点で車両のポーズから擬似ターゲットを予測します。
さらに、高レベルの命令に応じて運転コマンドを予測する2つのE2E運転ネットワークを提案します。
3つの異なるベンチマークデータセットを使用した数値実験は、提案されているSSILフレームワークが、監視された学習カウンターパートと同等のE2E駆動精度を達成することを示しています。
提案された擬似 – 界面再生予測子は、比例積分微分コントローラーを使用して既存のものよりも優れていました。

要約(オリジナル)

In autonomous driving, the end-to-end (E2E) driving approach that predicts vehicle control signals directly from sensor data is rapidly gaining attention. To learn a safe E2E driving system, one needs an extensive amount of driving data and human intervention. Vehicle control data is constructed by many hours of human driving, and it is challenging to construct large vehicle control datasets. Often, publicly available driving datasets are collected with limited driving scenes, and collecting vehicle control data is only available by vehicle manufacturers. To address these challenges, this letter proposes the first fully self-supervised learning framework, self-supervised imitation learning (SSIL), for E2E driving, based on the self-supervised regression learning (SSRL) framework.The proposed SSIL framework can learn E2E driving networks \emph{without} using driving command data or a pre-trained model. To construct pseudo steering angle data, proposed SSIL predicts a pseudo target from the vehicle’s poses at the current and previous time points that are estimated with light detection and ranging sensors. In addition, we propose two E2E driving networks that predict driving commands depending on high-level instruction. Our numerical experiments with three different benchmark datasets demonstrate that the proposed SSIL framework achieves \emph{very} comparable E2E driving accuracy with the supervised learning counterpart. The proposed pseudo-label predictor outperformed an existing one using proportional integral derivative controller.

arxiv情報

著者 Jin Bok Park,Jinkyu Lee,Muhyun Back,Hyunmin Han,David T. Ma,Sang Min Won,Sung Soo Hwang,Il Yong Chun
発行日 2025-05-09 04:55:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | End-to-End Driving via Self-Supervised Imitation Learning Using Camera and LiDAR Data はコメントを受け付けていません

Demystifying Diffusion Policies: Action Memorization and Simple Lookup Table Alternatives

要約

拡散ポリシーは、少数のデモンストレーションからトレーニングしながら、複雑で高次元のロボット操作タスクで顕著な器用さと堅牢性を実証しています。
しかし、このパフォーマンスの理由は謎のままです。
この論文では、驚くべき仮説を提供します。拡散ポリシーは、アクションルックアップテーブルを本質的に記憶しています。これは有益です。
実行時に、拡散ポリシーは潜在スペースのテスト画像に最も近いトレーニング画像を見つけ、関連するトレーニングアクションシーケンスを思い出して、アクション一般化を必要とせずに反応性を提供します。
これは、モデルがアクション一般化を学習するのに十分なデータ密度がないまばらなデータレジームで効果的です。
体系的な経験的証拠でこの主張を支持します。
猫と犬の分布(OOD)画像を乱暴に条件付けた場合でも、拡散ポリシーは依然としてトレーニングデータからアクションシーケンスを出力します。
この洞察により、拡散ポリシーの軽量な代替手段として、単純なポリシーであるアクションルックアップテーブル(ALT)を提案します。
ALTポリシーは、対照的な画像エンコーダーをハッシュ関数として使用して、最も近い対応するトレーニングアクションシーケンスをインデックス化し、拡散ポリシーが暗黙的に学習する計算を明示的に実行します。
比較的小さなデータセットの場合、ALTは拡散モデルのパフォーマンスと一致し、推論時間の0.0034と0.0085のメモリフットプリントのみを必要とし、リソース制約付きロボットを使用した閉ループの推論がはるかに高速であることを経験的に示します。
また、ALTポリシーをトレーニングして、ランタイム画像間の距離がトレーニング画像から潜在的なスペースで遠すぎて、シンプルだが効果的なランタイムモニターを提供する場合に、明示的なOODフラグを提供します。
詳細については、https://stanfordmsl.github.io/alt/をご覧ください。

要約(オリジナル)

Diffusion policies have demonstrated remarkable dexterity and robustness in intricate, high-dimensional robot manipulation tasks, while training from a small number of demonstrations. However, the reason for this performance remains a mystery. In this paper, we offer a surprising hypothesis: diffusion policies essentially memorize an action lookup table — and this is beneficial. We posit that, at runtime, diffusion policies find the closest training image to the test image in a latent space, and recall the associated training action sequence, offering reactivity without the need for action generalization. This is effective in the sparse data regime, where there is not enough data density for the model to learn action generalization. We support this claim with systematic empirical evidence. Even when conditioned on wildly out of distribution (OOD) images of cats and dogs, the Diffusion Policy still outputs an action sequence from the training data. With this insight, we propose a simple policy, the Action Lookup Table (ALT), as a lightweight alternative to the Diffusion Policy. Our ALT policy uses a contrastive image encoder as a hash function to index the closest corresponding training action sequence, explicitly performing the computation that the Diffusion Policy implicitly learns. We show empirically that for relatively small datasets, ALT matches the performance of a diffusion model, while requiring only 0.0034 of the inference time and 0.0085 of the memory footprint, allowing for much faster closed-loop inference with resource constrained robots. We also train our ALT policy to give an explicit OOD flag when the distance between the runtime image is too far in the latent space from the training images, giving a simple but effective runtime monitor. More information can be found at: https://stanfordmsl.github.io/alt/.

arxiv情報

著者 Chengyang He,Xu Liu,Gadiel Sznaier Camps,Guillaume Sartoretti,Mac Schwager
発行日 2025-05-09 05:11:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Demystifying Diffusion Policies: Action Memorization and Simple Lookup Table Alternatives はコメントを受け付けていません

Formation Maneuver Control Based on the Augmented Laplacian Method

要約

このペーパーでは、2Dスペースと3Dスペースの両方の新しいフォーメーション操作制御方法を提案します。これにより、フォーメーションは任意の方向で翻訳、拡張、回転することができます。
コアイノベーションは、提案された拡張ラプラシアンマトリックスの重量の新しいデザインです。
スカラーを使用する代わりに、指定された回転軸に基づいて設計されたマトリックスとして重みを表し、3次元空間で形成が回転を実行できるようにします。
フォーメーションの柔軟性とスケーラビリティをさらに向上させるために、回転軸調整アプローチと動的エージェント再構成法が開発され、3Dスペースの任意の軸の周りを回転させ、新しいエージェントがフォーメーションに加わることができます。
提案されたアプローチが形成の元の構成を保持することを示すために、理論分析が提供されます。
提案された方法は、より単純化された実装を介して任意のオリエンテーションの回転を実現しながら、隣接要件の削減や一般的または凸の公称構成への依存度の低下を含む、複雑なラプラシアンベースの方法の利点を維持します。
2Dスペースと3Dスペースの両方のシミュレーションは、提案された方法の有効性を検証します。

要約(オリジナル)

This paper proposes a novel formation maneuver control method for both 2-D and 3-D space, which enables the formation to translate, scale, and rotate with arbitrary orientation. The core innovation is the novel design of weights in the proposed augmented Laplacian matrix. Instead of using scalars, we represent weights as matrices, which are designed based on a specified rotation axis and allow the formation to perform rotation in 3-D space. To further improve the flexibility and scalability of the formation, the rotational axis adjustment approach and dynamic agent reconfiguration method are developed, allowing formations to rotate around arbitrary axes in 3-D space and new agents to join the formation. Theoretical analysis is provided to show that the proposed approach preserves the original configuration of the formation. The proposed method maintains the advantages of the complex Laplacian-based method, including reduced neighbor requirements and no reliance on generic or convex nominal configurations, while achieving arbitrary orientation rotations via a more simplified implementation. Simulations in both 2-D and 3-D space validate the effectiveness of the proposed method.

arxiv情報

著者 Xinzhe Zhou,Xuyang Wang,Xiaoming Duan,Yuzhu Bai,Jianping He
発行日 2025-05-09 05:21:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Formation Maneuver Control Based on the Augmented Laplacian Method はコメントを受け付けていません

3D CAVLA: Leveraging Depth and 3D Context to Generalize Vision Language Action Models for Unseen Tasks

要約

3Dでのロボット操作には、ロボットマニピュレーターの$ n $ freedomのジョイントスペース軌跡を学ぶ必要があります。
ロボットは、ワークスペースの実際のマッピングをオブジェクト操作に必要な低レベルの制御に変換するためのセマンティックおよび視覚的認識能力を持っている必要があります。
最近の研究により、RGB画像、言語指示、および共同スペース制御の間のマッピングを学習するための大規模なビジョン言語モデル(VLM)の微調整機能が実証されています。
これらのモデルは通常、ワークスペースと言語の命令の入力RGB画像として採用し、テレオ速度のロボットデモンストレーションの大規模なデータセットでトレーニングされています。
この作業では、チェーンの推論、深さ知覚、および関心検出のタスク指向の領域を統合することにより、人気のある最近のビジョン言語アクションモデルのシーンコンテキストの認識を改善する方法を探ります。
Liberoシミュレーション環境での実験は、提案されたモデルである3D-Cavlaがさまざまなリベロタスクスイートの成功率を改善し、98.1 $ $ \%$の平均成功率を達成することを示しています。
また、私たちの方法のゼロショット機能を評価し、3Dシーンの認識が完全に目に見えないタスクの堅牢な学習と適応につながることを示しています。
3D-Cavlaは、目に見えないタスクで8.8 $ \%$の絶対的な改善を達成します。
コードと目に見えないタスクデータセットをオープンソーシングして、コミュニティ主導の研究を促進します:https://3d-cavla.github.io

要約(オリジナル)

Robotic manipulation in 3D requires learning an $N$ degree-of-freedom joint space trajectory of a robot manipulator. Robots must possess semantic and visual perception abilities to transform real-world mappings of their workspace into the low-level control necessary for object manipulation. Recent work has demonstrated the capabilities of fine-tuning large Vision-Language Models (VLMs) to learn the mapping between RGB images, language instructions, and joint space control. These models typically take as input RGB images of the workspace and language instructions, and are trained on large datasets of teleoperated robot demonstrations. In this work, we explore methods to improve the scene context awareness of a popular recent Vision-Language-Action model by integrating chain-of-thought reasoning, depth perception, and task-oriented region of interest detection. Our experiments in the LIBERO simulation environment show that our proposed model, 3D-CAVLA, improves the success rate across various LIBERO task suites, achieving an average success rate of 98.1$\%$. We also evaluate the zero-shot capabilities of our method, demonstrating that 3D scene awareness leads to robust learning and adaptation for completely unseen tasks. 3D-CAVLA achieves an absolute improvement of 8.8$\%$ on unseen tasks. We will open-source our code and the unseen tasks dataset to promote community-driven research here: https://3d-cavla.github.io

arxiv情報

著者 Vineet Bhat,Yu-Hsiang Lan,Prashanth Krishnamurthy,Ramesh Karri,Farshad Khorrami
発行日 2025-05-09 05:32:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | 3D CAVLA: Leveraging Depth and 3D Context to Generalize Vision Language Action Models for Unseen Tasks はコメントを受け付けていません

Unsupervised Anomaly Detection for Autonomous Robots via Mahalanobis SVDD with Audio-IMU Fusion

要約

信頼できる異常検出は、特に視力またはLIDARに基づいた従来の検出システムが有害または予測不可能な条件で信頼できない場合に、自律的なロボットの安全性を確保するために不可欠です。
このようなシナリオでは、タイムリーで堅牢なフィードバックを提供するために、代替センシングモダリティが必要です。
この目的のために、衝突や内部機械的断層など、自律モバイルロボットの基礎となる異常を検出するために、オーディオおよび慣性測定ユニット(IMU)センサーの使用を調査します。
さらに、限られた標識異常データの課題に対処するために、マハラノビスサポートベクターデータ説明(M-SVDD)に基づいて、監視されていない異常検出フレームワークを提案します。
ユークリッド距離に依存し、等方性特徴分布を想定する従来のSVDDメソッドとは対照的に、私たちのアプローチはマハラノビス距離を使用して、特徴的な寸法を拡大し、特性間の相関をキャプチャし、より表現力のある決定境界を可能にします。
さらに、機能の多様性を維持し、表現の崩壊を防ぐために、再構築ベースの補助ブランチが導入され、異常検出の堅牢性がさらに強化されます。
ビデオhttps://youtu.be/yh1tn6ddd4aに示すように、収集されたモバイルロボットデータセットと4つのパブリックデータセットでの広範な実験は、提案された方法の有効性を示しています。
コードとデータセットはhttps://github.com/jamesyang7/m-svddで入手できます。

要約(オリジナル)

Reliable anomaly detection is essential for ensuring the safety of autonomous robots, particularly when conventional detection systems based on vision or LiDAR become unreliable in adverse or unpredictable conditions. In such scenarios, alternative sensing modalities are needed to provide timely and robust feedback. To this end, we explore the use of audio and inertial measurement unit (IMU) sensors to detect underlying anomalies in autonomous mobile robots, such as collisions and internal mechanical faults. Furthermore, to address the challenge of limited labeled anomaly data, we propose an unsupervised anomaly detection framework based on Mahalanobis Support Vector Data Description (M-SVDD). In contrast to conventional SVDD methods that rely on Euclidean distance and assume isotropic feature distributions, our approach employs the Mahalanobis distance to adaptively scale feature dimensions and capture inter-feature correlations, enabling more expressive decision boundaries. In addition, a reconstruction-based auxiliary branch is introduced to preserve feature diversity and prevent representation collapse, further enhancing the robustness of anomaly detection. Extensive experiments on a collected mobile robot dataset and four public datasets demonstrate the effectiveness of the proposed method, as shown in the video https://youtu.be/yh1tn6DDD4A. Code and dataset are available at https://github.com/jamesyang7/M-SVDD.

arxiv情報

著者 Yizhuo Yang,Jiulin Zhao,Xinhang Xu,Kun Cao,Shenghai Yuan,Lihua Xie
発行日 2025-05-09 06:08:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Unsupervised Anomaly Detection for Autonomous Robots via Mahalanobis SVDD with Audio-IMU Fusion はコメントを受け付けていません

RS2AD: End-to-End Autonomous Driving Data Generation from Roadside Sensor Observations

要約

洗練された制御コマンドを直接生成してマルチモーダル感覚データを処理するエンドツーエンドの自律駆動ソリューションは、自律運転研究の支配的なパラダイムになりました。
ただし、これらのアプローチは主にモデルトレーニングと最適化のための単一車両データ収集に依存しており、高いデータ収集と注釈コスト、重要な運転シナリオの希少性、モデルの一般化を妨げる断片化されたデータセットなどの重要な課題をもたらします。
これらの制限を緩和するために、RS2ADを導入します。RS2ADは、道端のセンサー観測から車両に取り付けられたLIDARデータを再構築および合成するための新しいフレームワークです。
具体的には、我々の方法では、ターゲットビークルの相対ポーズを活用することにより、道端のライダー点雲を車両に取り付けられたライダー座標系に変換します。
その後、高忠実度の車両に取り付けられたLIDARデータは、仮想LIDARモデリング、ポイントクラウド分類、および再サンプリング技術を通じて合成されます。
私たちの知る限り、これは道端のセンサー入力から車両に取り付けられたLIDARデータを再構築する最初のアプローチです。
広範な実験的評価は、KittiデータセットのサプリメントとしてRS2ADメソッド(RS2V-Lデータセット)によって生成されたデータをモデルトレーニングに組み込むことで、3Dオブジェクト検出の精度を大幅に向上させ、エンドツーエンドの自律運転データ生成の効率を大幅に向上させることを示しています。
これらの調査結果は、提案された方法の有効性を強く検証し、自律運転モデル​​の堅牢性を改善しながら、高価な車両に取り付けられたデータ収集への依存を減らす可能性を強調しています。

要約(オリジナル)

End-to-end autonomous driving solutions, which process multi-modal sensory data to directly generate refined control commands, have become a dominant paradigm in autonomous driving research. However, these approaches predominantly depend on single-vehicle data collection for model training and optimization, resulting in significant challenges such as high data acquisition and annotation costs, the scarcity of critical driving scenarios, and fragmented datasets that impede model generalization. To mitigate these limitations, we introduce RS2AD, a novel framework for reconstructing and synthesizing vehicle-mounted LiDAR data from roadside sensor observations. Specifically, our method transforms roadside LiDAR point clouds into the vehicle-mounted LiDAR coordinate system by leveraging the target vehicle’s relative pose. Subsequently, high-fidelity vehicle-mounted LiDAR data is synthesized through virtual LiDAR modeling, point cloud classification, and resampling techniques. To the best of our knowledge, this is the first approach to reconstruct vehicle-mounted LiDAR data from roadside sensor inputs. Extensive experimental evaluations demonstrate that incorporating the data generated by the RS2AD method (the RS2V-L dataset) into model training as a supplement to the KITTI dataset can significantly enhance the accuracy of 3D object detection and greatly improve the efficiency of end-to-end autonomous driving data generation. These findings strongly validate the effectiveness of the proposed method and underscore its potential in reducing dependence on costly vehicle-mounted data collection while improving the robustness of autonomous driving models.

arxiv情報

著者 Ruidan Xing,Runyi Huang,Qing Xu,Lei He
発行日 2025-05-09 06:11:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | RS2AD: End-to-End Autonomous Driving Data Generation from Roadside Sensor Observations はコメントを受け付けていません

Oh F**k! How Do People Feel about Robots that Leverage Profanity?

要約

冒とくは言語そのものと同じくらい古く、呪いは前世紀に特に遍在しています。
同時に、過去の作業はロボットのノルムブレークの潜在的な利点を示しているにもかかわらず、個人およびサービスアプリケーションのロボットはしばしば過度に丁寧です。
したがって、私たちは、人間のユーザーによる社会的認識を改善するための手段として、エラーシナリオで呪いの単語を使用することに興味を持ちました。
このアイデアを調査しました。探索的作業の3つのフェーズを使用して、学生プールを備えたオンラインビデオベースの研究(n = 76)、一般的な米国人口におけるオンラインビデオベースの研究(n = 98)、およびキャンパススペースの概念実証展開(n = 52)を使用して、それぞれに次の条件が含まれていました。
3つの研究すべての結果の驚くべき結果は、エラーの口頭での認識が通常有益であるが(以前の研究に基づいて予想される)、非表現と表現のエラー承認条件(私たちの期待に対抗する)の間にはほとんど有意な違いが現れたということでした。
私たちの仕事の文化的文脈である米国の中で、多くのユーザーはロボットが呪いをかけても気にしないでしょう。
この作業は、典型的なロボットキャラクターのデザインに挑戦する有望でいたずらなデザイン空間を示しています。

要約(オリジナル)

Profanity is nearly as old as language itself, and cursing has become particularly ubiquitous within the last century. At the same time, robots in personal and service applications are often overly polite, even though past work demonstrates the potential benefits of robot norm-breaking. Thus, we became curious about robots using curse words in error scenarios as a means for improving social perceptions by human users. We investigated this idea using three phases of exploratory work: an online video-based study (N = 76) with a student pool, an online video-based study (N = 98) in the general U.S. population, and an in-person proof-of-concept deployment (N = 52) in a campus space, each of which included the following conditions: no-speech, non-expletive error response, and expletive error response. A surprising result in the outcomes for all three studies was that although verbal acknowledgment of an error was typically beneficial (as expected based on prior work), few significant differences appeared between the non-expletive and expletive error acknowledgment conditions (counter to our expectations). Within the cultural context of our work, the U.S., it seems that many users would likely not mind if robots curse, and may even find it relatable and humorous. This work signals a promising and mischievous design space that challenges typical robot character design.

arxiv情報

著者 Madison R. Shippy,Brian J. Zhang,Naomi T. Fitter
発行日 2025-05-09 06:58:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Oh F**k! How Do People Feel about Robots that Leverage Profanity? はコメントを受け付けていません

Augmented Body Communicator: Enhancing daily body expression for people with upper limb limitations through LLM and a robotic arm

要約

上肢の移動制限を持つ個人は、他の人とのやり取りにおいて課題に直面しています。
ロボットアームは現在、主に機能的なタスクに使用されていますが、社会的相互作用中にユーザーのボディーランゲージ能力を高める方法を探る可能性がかなりあります。
このペーパーでは、ロボットアームと大規模な言語モデルを統合する拡張体コミュニケーターシステムを紹介します。
運動記憶を組み込むことで、無効なユーザーとそのサポーターは、ロボットアームのアクションを協力して設計することができます。
次に、LLMシステムは、相互作用中のコンテキストキューに基づいて、最も適切なアクションに関する提案を提供します。
このシステムは、上肢の移動に影響を与える条件を持つ6人の参加者との徹底的なユーザーテストを受けました。
結果は、システムがユーザーの自分自身を表現する能力を向上させることを示しています。
調査結果に基づいて、ボディーランゲージ能力と機能的タスクを備えた障害者をサポートするロボットアームを開発するための推奨事項を提供します。

要約(オリジナル)

Individuals with upper limb movement limitations face challenges in interacting with others. Although robotic arms are currently used primarily for functional tasks, there is considerable potential to explore ways to enhance users’ body language capabilities during social interactions. This paper introduces an Augmented Body Communicator system that integrates robotic arms and a large language model. Through the incorporation of kinetic memory, disabled users and their supporters can collaboratively design actions for the robot arm. The LLM system then provides suggestions on the most suitable action based on contextual cues during interactions. The system underwent thorough user testing with six participants who have conditions affecting upper limb mobility. Results indicate that the system improves users’ ability to express themselves. Based on our findings, we offer recommendations for developing robotic arms that support disabled individuals with body language capabilities and functional tasks.

arxiv情報

著者 Songchen Zhou,Mark Armstrong,Giulia Barbareschi,Toshihiro Ajioka,Zheng Hu,Ryoichi Ando,Kentaro Yoshifuji,Masatane Muto,Kouta Minamizawa
発行日 2025-05-09 07:00:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.RO | Augmented Body Communicator: Enhancing daily body expression for people with upper limb limitations through LLM and a robotic arm はコメントを受け付けていません

Versatile Distributed Maneuvering with Generalized Formations using Guiding Vector Fields

要約

このペーパーでは、一般化されたフォーメーションで多用途の分散操作を実現するための統一されたアプローチを提示します。
具体的には、ロボットの操作を2つの独立したコンポーネント、つまり2つの独立した仮想座標によってパラメーター化された傍受と囲いに分類します。
これらの2つの仮想座標を抽象的なマニホールドの寸法として扱うことで、コンセンサス理論に基づく分散調整メカニズムとともに、対応する特異性のないガイドベクトルフィールド(GVF)を導き出し、さまざまな動きを実現するためにロボットをガイドします(すなわち、汎用性の高い操縦)。
追加のモーションパラメーターは、より複雑な協同組合ロボットモーションを生成できます。
GVFSに基づいて、非ホロノミックロボットモデルのコントローラーを設計します。
理論的な結果に加えて、アプローチの有効性を検証するために、広範なシミュレーションと実験が実行されます。

要約(オリジナル)

This paper presents a unified approach to realize versatile distributed maneuvering with generalized formations. Specifically, we decompose the robots’ maneuvers into two independent components, i.e., interception and enclosing, which are parameterized by two independent virtual coordinates. Treating these two virtual coordinates as dimensions of an abstract manifold, we derive the corresponding singularity-free guiding vector field (GVF), which, along with a distributed coordination mechanism based on the consensus theory, guides robots to achieve various motions (i.e., versatile maneuvering), including (a) formation tracking, (b) target enclosing, and (c) circumnavigation. Additional motion parameters can generate more complex cooperative robot motions. Based on GVFs, we design a controller for a nonholonomic robot model. Besides the theoretical results, extensive simulations and experiments are performed to validate the effectiveness of the approach.

arxiv情報

著者 Yang Lu,Sha Luo,Pengming Zhu,Weijia Yao,Hector Garcia de Marina,Xinglong Zhang,Xin Xu
発行日 2025-05-09 07:15:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Versatile Distributed Maneuvering with Generalized Formations using Guiding Vector Fields はコメントを受け付けていません