Grasping by Spiraling: Reproducing Elephant Movements with Rigid-Soft Robot Synergy

要約

対数スパイラルは、王国と種のいくつかの生物の共通のパターンとして観察されます。
いくつかの例には、シダの芽、脱毛前尾、タコの腕や象の幹などの柔らかい手足が含まれます。
後者の場合、スパイラリングも把握に使用されます。
この戦略がどのように動作を運動のプリミティブに単純化し、それらを組み合わせてスマートにつかむ動きを開発することに動機付けられているこの作業は、文献でより深く調査されている象の幹に焦点を当てています。
柔らかい腕を硬いロボットシステムと組み合わせて、柔らかいトランクと固体の体の組み合わせに基づいて象の把握能力を複製します。
私たちのシステムでは、剛体の腕は位置決めと向きを保証し、象の頭の役割を模倣し、ソフトマニピュレーターは適切な作動パターンの下で曲げてねじれたトランクモーションプリミティブを再現します。
この相乗効果は、文献で報告された9つの異なる象の把握戦略を再現し、さまざまな形とサイズのオブジェクトに対応します。
システムの剛性成分とソフトコンポーネント間の相乗的相互作用は、高度な適応性を維持しながら、制御の複雑さを最小限に抑えます。

要約(オリジナル)

The logarithmic spiral is observed as a common pattern in several living beings across kingdoms and species. Some examples include fern shoots, prehensile tails, and soft limbs like octopus arms and elephant trunks. In the latter cases, spiraling is also used for grasping. Motivated by how this strategy simplifies behavior into kinematic primitives and combines them to develop smart grasping movements, this work focuses on the elephant trunk, which is more deeply investigated in the literature. We present a soft arm combined with a rigid robotic system to replicate elephant grasping capabilities based on the combination of a soft trunk with a solid body. In our system, the rigid arm ensures positioning and orientation, mimicking the role of the elephant’s head, while the soft manipulator reproduces trunk motion primitives of bending and twisting under proper actuation patterns. This synergy replicates 9 distinct elephant grasping strategies reported in the literature, accommodating objects of varying shapes and sizes. The synergistic interaction between the rigid and soft components of the system minimizes the control complexity while maintaining a high degree of adaptability.

arxiv情報

著者 Huishi Huang,Haozhe Wang,Chongyu Fang,Mingge Yan,Ruochen Xu,Yiyuan Zhang,Zhanchi Wang,Fengkang Ying,Jun Liu,Cecilia Laschi,Marcelo H. Ang Jr
発行日 2025-04-02 08:57:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Grasping by Spiraling: Reproducing Elephant Movements with Rigid-Soft Robot Synergy はコメントを受け付けていません

Bench4Merge: A Comprehensive Benchmark for Merging in Realistic Dense Traffic with Micro-Interactive Vehicles

要約

自律運転の能力は急速に進歩していますが、密集した交通に合併することは依然として重要な課題のままです。このシナリオの多くのモーション計画方法が提案されていますが、それらを評価することは困難です。
既存の閉ループシミュレーターのほとんどは、他の車両のルールベースのコントロールに依存しているため、多様性とランダム性が不足しているため、非常にインタラクティブなシナリオでモーション計画機能を正確に評価できません。
さらに、従来の評価メトリックは、密集したトラフィックでのマージのパフォーマンスを包括的に評価するには不十分です。
これに応じて、統合シナリオにおけるモーション計画機能を評価するための閉ループ評価ベンチマークを提案しました。
私たちのアプローチには、複雑さと多様性を大幅に向上させる微小行動特性を備えた大規模なデータセットで訓練された他の車両が含まれます。
さらに、大規模な言語モデル(LLM)を活用して、各自律車両がメインレーンに合流することを評価することにより、評価メカニズムを再構築しました。
広範な実験とテスト車両の展開により、このベンチマークの進歩性が実証されています。
このベンチマークを通じて、既存の方法の評価を取得し、一般的な問題を特定しました。
シミュレーション環境と評価プロセスには、https://github.com/wzm5853/bench4mergeでアクセスできます。

要約(オリジナル)

While the capabilities of autonomous driving have advanced rapidly, merging into dense traffic remains a significant challenge, many motion planning methods for this scenario have been proposed but it is hard to evaluate them. Most existing closed-loop simulators rely on rule-based controls for other vehicles, which results in a lack of diversity and randomness, thus failing to accurately assess the motion planning capabilities in highly interactive scenarios. Moreover, traditional evaluation metrics are insufficient for comprehensively evaluating the performance of merging in dense traffic. In response, we proposed a closed-loop evaluation benchmark for assessing motion planning capabilities in merging scenarios. Our approach involves other vehicles trained in large scale datasets with micro-behavioral characteristics that significantly enhance the complexity and diversity. Additionally, we have restructured the evaluation mechanism by leveraging Large Language Models (LLMs) to assess each autonomous vehicle merging onto the main lane. Extensive experiments and test-vehicle deployment have demonstrated the progressiveness of this benchmark. Through this benchmark, we have obtained an evaluation of existing methods and identified common issues. The simulation environment and evaluation process can be accessed at https://github.com/WZM5853/Bench4Merge.

arxiv情報

著者 Zhengming Wang,Junli Wang,Pengfei Li,Zhaohan Li,Chunyang Liu,Bo Zhang,Peng Li,Yilun Chen
発行日 2025-04-02 09:02:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Bench4Merge: A Comprehensive Benchmark for Merging in Realistic Dense Traffic with Micro-Interactive Vehicles はコメントを受け付けていません

Efficient Alignment of Unconditioned Action Prior for Language-conditioned Pick and Place in Clutter

要約

私たちは、ロボットがターゲットオブジェクトを開いたクラッターで把握し、指定された場所に移動する必要がある言語で条件付けられたピックと場所のタスクを研究します。
いくつかのアプローチでは、Vision Foundationモデルの機能を使用してエンドツーエンドポリシーを学習し、大きなデータセットが必要です。
その他は、ゼロショット設定でファンデーションモデルを組み合わせて、カスケードエラーに苦しんでいます。
さらに、彼らは主にビジョンと言語の基礎モデルを活用しており、アクション事前に焦点を当てています。
このホワイトペーパーでは、ビジョン、言語、行動から基礎の事前を統合することにより、効果的なポリシーを開発することを目指しています。
$^2 $を提案します。これは、1つの注意レイヤーを学習することにより、無条件のアクションプライエアを3Dビジョン言語プライアーと整列させるアクション事前アライメントメソッドを提案します。
アライメント定式化により、当社のポリシーは、より少ないデータでトレーニングし、ゼロショットの一般化機能を維持できます。
ピックと場所の両方のアクションの共有ポリシーが各タスクのパフォーマンスを向上させることを示し、アクションのマルチモーダル性に対応するためのポリシー適応スキームを導入します。
シミュレーションと現実世界での広範な実験は、私たちのポリシーが、散らかったピックと場所の両方のタスクの両方でより少ないステップでより高いタスクの成功率を達成し、目に見えないオブジェクトと言語指示に効果的に一般化することを示しています。
ビデオとコードはhttps://xukechun.github.io/papers/a2で入手できます。

要約(オリジナル)

We study the task of language-conditioned pick and place in clutter, where a robot should grasp a target object in open clutter and move it to a specified place. Some approaches learn end-to-end policies with features from vision foundation models, requiring large datasets. Others combine foundation models in a zero-shot setting, suffering from cascading errors. In addition, they primarily leverage vision and language foundation models, focusing less on action priors. In this paper, we aim to develop an effective policy by integrating foundation priors from vision, language, and action. We propose A$^2$, an action prior alignment method that aligns unconditioned action priors with 3D vision-language priors by learning one attention layer. The alignment formulation enables our policy to train with less data and preserve zero-shot generalization capabilities. We show that a shared policy for both pick and place actions enhances the performance for each task, and introduce a policy adaptation scheme to accommodate the multi-modal nature of actions. Extensive experiments in simulation and the real-world show that our policy achieves higher task success rates with fewer steps for both pick and place tasks in clutter, effectively generalizing to unseen objects and language instructions. Videos and codes are available at https://xukechun.github.io/papers/A2.

arxiv情報

著者 Kechun Xu,Xunlong Xia,Kaixuan Wang,Yifei Yang,Yunxuan Mao,Bing Deng,Rong Xiong,Yue Wang
発行日 2025-04-02 09:52:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Efficient Alignment of Unconditioned Action Prior for Language-conditioned Pick and Place in Clutter はコメントを受け付けていません

8-DoFs Cable Driven Parallel Robots for Bimanual Teleportation

要約

遠隔術は、特に冗長な自由度(DOFS)を持つモバイルマニピュレーターを含む複雑なタスクで、直感的なロボット制御と模倣学習に重要な役割を果たします。
ただし、ほとんどの既存のマスターコントローラーは、6-DOF空間制御と基本的なグリッパー制御に制限されているため、高DOFロボットを制御し、オペレーターを小さなワークスペースに制限するには不十分です。
この作業では、これらの制限を克服するために設計されたケーブル駆動型パラレルロボット(CDPRS)に基づいた、新しい、低コストの高ドフマスターコントローラーを紹介します。
このシステムは、スケーラブルな3 + 3 + n DOF構造に従って、翻訳と方向制御を切り離します。CDPRを使用した大量変換用の3 DOF、ジンバルメカニズムを使用した方向の3 DOF、グリッパーおよび冗長関節制御のための追加DOF。
その軽量ケーブル駆動型の設計により、アクチュエータの負荷を最小限に抑えながら、大規模で適応性のあるワークスペースを可能にします。
エンドエフェクターは、ほとんどのシリアルロボットアームとは異なり、連続的な高トルク入力を必要とせずに安定したままです。
費用対効果の高いアクチュエーターと単純な機械構造を使用して、最初のデュアルアームCDPRベースのマスターコントローラーを開発しました。
デモンストレーションでは、このシステムは、ピックアンドプレイス、結び目、オブジェクトの並べ替え、テープアプリケーションなどのタスクを実行し、2ドフのパンチルトカメラを備えた8ドーフロボットアームを正常に制御しました。
結果は、正確で汎用性が高く、実用的な高度なテレオ操作を示しています。

要約(オリジナル)

Teleoperation plays a critical role in intuitive robot control and imitation learning, particularly for complex tasks involving mobile manipulators with redundant degrees of freedom (DoFs). However, most existing master controllers are limited to 6-DoF spatial control and basic gripper control, making them insufficient for controlling high-DoF robots and restricting the operator to a small workspace. In this work, we present a novel, low-cost, high-DoF master controller based on Cable-Driven Parallel Robots (CDPRs), designed to overcome these limitations. The system decouples translation and orientation control, following a scalable 3 + 3 + n DoF structure: 3 DoFs for large-range translation using a CDPR, 3 DoFs for orientation using a gimbal mechanism, and n additional DoFs for gripper and redundant joint control. Its lightweight cable-driven design enables a large and adaptable workspace while minimizing actuator load. The end-effector remains stable without requiring continuous high-torque input, unlike most serial robot arms. We developed the first dual-arm CDPR-based master controller using cost-effective actuators and a simple mechanical structure. In demonstrations, the system successfully controlled an 8-DoF robotic arm with a 2-DoF pan-tilt camera, performing tasks such as pick-and-place, knot tying, object sorting, and tape application. The results show precise, versatile, and practical high-DoF teleoperation.

arxiv情報

著者 Hung Hon Cheng,Josie Hughes
発行日 2025-04-02 09:54:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | 8-DoFs Cable Driven Parallel Robots for Bimanual Teleportation はコメントを受け付けていません

LL-Localizer: A Life-Long Localization System based on Dynamic i-Octree

要約

このホワイトペーパーでは、ボクセルベースの生涯にわたるローカリゼーション法であるLL-Localizerを提案します。これにより、ロボットは、以前のマップを使用してマルチセッションモードで堅牢かつ正確にローカライズできます。
一方、以前のマップの環境の変化を認識することが困難であることを考えると、実際の操作中にマップされた領域とマップされていない領域の間でロボットが移動する可能性があることを考えると、インクリメンタルボクセルマップを介して確立された戦略に従って必要なときにマップを更新します。
さらに、リアルタイムで高性能を確保し、マップ管理を促進するために、ダイナミックI-Octreeを使用して、ダイナミックオクトリーに基づいて3Dポイントの効率的な組織であり、ローカルマップをロードしてロボットの動作中にマップを更新します。
実験は、当社のシステムが最先端のLIOシステムに匹敵する安定した正確なローカリゼーションを実行できることを示しています。
また、以前のマップの環境が変更されたり、マップされていない領域とマップされていない領域の間でロボットが横断されたりしても、私たちのシステムは、区別なく堅牢で正確なローカリゼーションを維持できます。
私たちのデモは、blibili(https://www.bilibili.com/video/bv1fazhycekz)とyoutube(https://youtu.be/uwn7rcb9ka8)で見つけることができ、プログラムはhttps://github.com/m-evanovic/ll-localizizerで入手できます。

要約(オリジナル)

This paper proposes an incremental voxel-based life-long localization method, LL-Localizer, which enables robots to localize robustly and accurately in multi-session mode using prior maps. Meanwhile, considering that it is difficult to be aware of changes in the environment in the prior map and robots may traverse between mapped and unmapped areas during actual operation, we will update the map when needed according to the established strategies through incremental voxel map. Besides, to ensure high performance in real-time and facilitate our map management, we utilize Dynamic i-Octree, an efficient organization of 3D points based on Dynamic Octree to load local map and update the map during the robot’s operation. The experiments show that our system can perform stable and accurate localization comparable to state-of-the-art LIO systems. And even if the environment in the prior map changes or the robots traverse between mapped and unmapped areas, our system can still maintain robust and accurate localization without any distinction. Our demo can be found on Blibili (https://www.bilibili.com/video/BV1faZHYCEkZ) and youtube (https://youtu.be/UWn7RCb9kA8) and the program will be available at https://github.com/M-Evanovic/LL-Localizer.

arxiv情報

著者 Xinyi Li,Shenghai Yuan,Haoxin Cai,Shunan Lu,Wenhua Wang,Jianqi Liu
発行日 2025-04-02 10:39:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | LL-Localizer: A Life-Long Localization System based on Dynamic i-Octree はコメントを受け付けていません

Learning Dual-Arm Push and Grasp Synergy in Dense Clutter

要約

密集した環境でのロボットの握りは、衝突のないアフォーダンスが不足しているため、困難です。
非充実したアクションは、散らかった環境で実行可能な把握を増加させる可能性がありますが、ほとんどの研究では、二重腕の操作ではなく、単一の腕に焦点を当てています。
単腕システムからのポリシーは、デュアルアーム調整の利点を完全に活用できません。
私たちは、密集した乱雑さで器用な操作を強化するためにオブジェクトを把握するための二重の腕のプッシュグラスの相乗効果を学ぶターゲット指向の階層深補強学習(DRL)フレームワークを提案します。
当社のフレームワークは、デュアルアームプッシュグラスプラス戦略を開発するために、近位政策最適化(PPO)で訓練された、事前に訓練されたディープラーニングバックボーンと新しいCNNベースのDRLモデルを介したアクションを視覚的な観察結果にマッピングします。
バックボーンは、密集した環境での機能マッピングを強化します。
効率的な戦略学習を加速するために、新しいファジーベースの報酬関数が導入されています。
当社のシステムは、Isaacジムで開発および訓練され、シミュレーションおよび実際のロボットでテストされています。
実験結果は、フレームワークが視覚データをデュアルプッシュグラスの動きに効果的にマッピングし、デュアルアームシステムが複雑な環境でターゲットオブジェクトを把握できるようにすることを示しています。
他の方法と比較して、私たちのアプローチは6-DOFの把握候補を生成し、デュアルアームプッシュアクションを可能にし、人間の行動を模倣します。
結果は、この方法が密集した環境でタスクを効率的に完了することを示しています。
https://sites.google.com/view/pg4da/home

要約(オリジナル)

Robotic grasping in densely cluttered environments is challenging due to scarce collision-free grasp affordances. Non-prehensile actions can increase feasible grasps in cluttered environments, but most research focuses on single-arm rather than dual-arm manipulation. Policies from single-arm systems fail to fully leverage the advantages of dual-arm coordination. We propose a target-oriented hierarchical deep reinforcement learning (DRL) framework that learns dual-arm push-grasp synergy for grasping objects to enhance dexterous manipulation in dense clutter. Our framework maps visual observations to actions via a pre-trained deep learning backbone and a novel CNN-based DRL model, trained with Proximal Policy Optimization (PPO), to develop a dual-arm push-grasp strategy. The backbone enhances feature mapping in densely cluttered environments. A novel fuzzy-based reward function is introduced to accelerate efficient strategy learning. Our system is developed and trained in Isaac Gym and then tested in simulations and on a real robot. Experimental results show that our framework effectively maps visual data to dual push-grasp motions, enabling the dual-arm system to grasp target objects in complex environments. Compared to other methods, our approach generates 6-DoF grasp candidates and enables dual-arm push actions, mimicking human behavior. Results show that our method efficiently completes tasks in densely cluttered environments. https://sites.google.com/view/pg4da/home

arxiv情報

著者 Yongliang Wang,Hamidreza Kasaei
発行日 2025-04-02 10:45:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Learning Dual-Arm Push and Grasp Synergy in Dense Clutter はコメントを受け付けていません

Building Knowledge from Interactions: An LLM-Based Architecture for Adaptive Tutoring and Social Reasoning

要約

ロボット工学を個別指導や身体トレーニングなどの日常のシナリオに統合するには、適応性があり、社会的に魅力的で、目標指向の相互作用ができるロボットが必要です。
大規模な言語モデルは、人間のようなコミュニケーションで有望であることを示していますが、それらのスタンドアロンの使用は、メモリの制約と文脈上の一貫性によって妨げられます。
この作業は、社会的および課題指向の人間とロボットの相互作用におけるLLMベースの自律的意思決定を強化するマルチモーダルで認知的にインスピレーションを受けたフレームワークを提示します。
具体的には、ロボットトレーナー向けのLLMベースのエージェントを開発し、ソーシャル会話とタスクガイダンスと目標主導の動機のバランスを取ります。
自律性とパーソナライズをさらに強化するために、経験を選択、保存、取得するためのメモリシステムを導入し、さまざまな相互作用に基づいて構築された知識に基づいて一般化された推論を促進します。
予備的なHRIユーザー調査と合成データセットを使用したオフライン実験は、私たちのアプローチを検証し、複雑な相互作用を管理し、トレーニングタスクを自律的に駆動し、コンテキストメモリを構築および取得するシステムの能力を実証し、社会的にインテリジェントなロボット工学を進めます。

要約(オリジナル)

Integrating robotics into everyday scenarios like tutoring or physical training requires robots capable of adaptive, socially engaging, and goal-oriented interactions. While Large Language Models show promise in human-like communication, their standalone use is hindered by memory constraints and contextual incoherence. This work presents a multimodal, cognitively inspired framework that enhances LLM-based autonomous decision-making in social and task-oriented Human-Robot Interaction. Specifically, we develop an LLM-based agent for a robot trainer, balancing social conversation with task guidance and goal-driven motivation. To further enhance autonomy and personalization, we introduce a memory system for selecting, storing and retrieving experiences, facilitating generalized reasoning based on knowledge built across different interactions. A preliminary HRI user study and offline experiments with a synthetic dataset validate our approach, demonstrating the system’s ability to manage complex interactions, autonomously drive training tasks, and build and retrieve contextual memories, advancing socially intelligent robotics.

arxiv情報

著者 Luca Garello,Giulia Belgiovine,Gabriele Russo,Francesco Rea,Alessandra Sciutti
発行日 2025-04-02 10:45:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Building Knowledge from Interactions: An LLM-Based Architecture for Adaptive Tutoring and Social Reasoning はコメントを受け付けていません

Anticipating Degradation: A Predictive Approach to Fault Tolerance in Robot Swarms

要約

ロボットの群れが長期的な自律性を達成するためには、断層の耐性に対する積極的なアプローチが不可欠です。
以前の取り組みは、自発的な電気機械的障害と障害に対応することに焦点を当ててきました。
ただし、多くの障害は時間とともに徐々に発生します。
そのような断層が障害に対処する前に障害が現れるまで待つことは、さまざまなシナリオでは非効率的で持続不可能です。
この作業は、潜在的な障害が群れの動作を妨げる前に解決される予測維持の原則は、長期的な断層許容度を達成する有望な手段を提供すると主張しています。
これは、群れ断層トレランスへの新しいアプローチであり、テストされたほとんどすべての場合に反応的アプローチに対してテストされた場合、同等または改善されたパフォーマンスを提供することが示されています。

要約(オリジナル)

An active approach to fault tolerance is essential for robot swarms to achieve long-term autonomy. Previous efforts have focused on responding to spontaneous electro-mechanical faults and failures. However, many faults occur gradually over time. Waiting until such faults have manifested as failures before addressing them is both inefficient and unsustainable in a variety of scenarios. This work argues that the principles of predictive maintenance, in which potential faults are resolved before they hinder the operation of the swarm, offer a promising means of achieving long-term fault tolerance. This is a novel approach to swarm fault tolerance, which is shown to give a comparable or improved performance when tested against a reactive approach in almost all cases tested.

arxiv情報

著者 James O’Keeffe
発行日 2025-04-02 10:59:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Anticipating Degradation: A Predictive Approach to Fault Tolerance in Robot Swarms はコメントを受け付けていません

LLM-mediated Dynamic Plan Generation with a Multi-Agent Approach

要約

動的環境への適応性が高い計画方法は、自律的で汎用性の高いロボットの開発に不可欠です。
動的環境に適応できるネットワークを自動的に生成するために、大規模な言語モデル(GPT-4O)を活用する方法を提案します。
提案された方法は、環境の「ステータス」を収集し、条件と目標を表し、それらを使用してエージェントを生成します。
これらのエージェントは、特定の条件に基づいて相互接続されており、柔軟性と一般性を組み合わせたネットワークをもたらします。
評価実験を実施して、提案された方法と自動的に生成されたネットワークを手動で構築した方法と比較し、提案された方法のネットワークの包括性とその高い一般性を確認しました。
この研究は、ロボット工学、自動運転車、スマートシステム、およびその他の複雑な環境に適用される汎用性のある計画方法の開発に向けた大幅な進歩を示しています。

要約(オリジナル)

Planning methods with high adaptability to dynamic environments are crucial for the development of autonomous and versatile robots. We propose a method for leveraging a large language model (GPT-4o) to automatically generate networks capable of adapting to dynamic environments. The proposed method collects environmental ‘status,’ representing conditions and goals, and uses them to generate agents. These agents are interconnected on the basis of specific conditions, resulting in networks that combine flexibility and generality. We conducted evaluation experiments to compare the networks automatically generated with the proposed method with manually constructed ones, confirming the comprehensiveness of the proposed method’s networks and their higher generality. This research marks a significant advancement toward the development of versatile planning methods applicable to robotics, autonomous vehicles, smart systems, and other complex environments.

arxiv情報

著者 Reo Abe,Akifumi Ito,Kanata Takayasu,Satoshi Kurihara
発行日 2025-04-02 11:42:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | LLM-mediated Dynamic Plan Generation with a Multi-Agent Approach はコメントを受け付けていません

Proposition of Affordance-Driven Environment Recognition Framework Using Symbol Networks in Large Language Models

要約

ロボットが人間と共存できるようにする探求において、動的な状況を理解し、常識とアフォーダンスに基づいて適切なアクションを選択することが不可欠です。
従来のAIシステムは、常識に由来する暗黙の知識を表すため、アフォーダンスを適用する際の課題に直面しています。
ただし、大規模な言語モデル(LLM)は、広範な人間の知識を処理する能力のために、新しい機会を提供します。
この研究では、LLM出力を活用することにより、自動アフォーダンス獲得の方法を提案しています。
このプロセスには、LLMを使用してテキストを生成し、形態学的および依存関係分析を使用して出力をシンボルネットワークに再構築し、ネットワーク距離に基づいてアフォーダンスを計算することが含まれます。
例として「Apple」を使用した実験では、説明可能性が高い状態でコンテキスト依存性のアフォーダンスを抽出する方法の能力が示されました。
結果は、LLM出力から再構築された提案されたシンボルネットワークにより、ロボットがアフォーダンスを効果的に解釈し、象徴されたデータと人間のような状況理解の間のギャップを埋めることができることを示唆しています。

要約(オリジナル)

In the quest to enable robots to coexist with humans, understanding dynamic situations and selecting appropriate actions based on common sense and affordances are essential. Conventional AI systems face challenges in applying affordance, as it represents implicit knowledge derived from common sense. However, large language models (LLMs) offer new opportunities due to their ability to process extensive human knowledge. This study proposes a method for automatic affordance acquisition by leveraging LLM outputs. The process involves generating text using LLMs, reconstructing the output into a symbol network using morphological and dependency analysis, and calculating affordances based on network distances. Experiments using “apple” as an example demonstrated the method’s ability to extract context-dependent affordances with high explainability. The results suggest that the proposed symbol network, reconstructed from LLM outputs, enables robots to interpret affordances effectively, bridging the gap between symbolized data and human-like situational understanding.

arxiv情報

著者 Kazuma Arii,Satoshi Kurihara
発行日 2025-04-02 11:48:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Proposition of Affordance-Driven Environment Recognition Framework Using Symbol Networks in Large Language Models はコメントを受け付けていません