CSubBT: A Self-Adjusting Execution Framework for Mobile Manipulation System

要約

現代のインテリジェントテクノロジーの進歩により、マニピュレーターを装備したモバイルロボットは、構造化されていない環境でますます動作しています。
これらのロボットは、知覚された情報に基づいて、長老式タスクの一連のアクションを計画できます。
ただし、実際には、計画されたアクションは、計画に使用される知覚情報と実際の条件との間の矛盾のためにしばしば失敗します。
このホワイトペーパーでは、行動ツリー(BTS)に基づくモバイル操作タスクの一般的な自己調整実行フレームワークである{\ itshape Conditional Subtree}(CSUBBT)を紹介します。
CSUBBTは、シンボリックアクションをサブアクションに分解し、BTSを使用して実行を制御し、プロセス中の潜在的な異常に対処します。
CSUBBTは、一般的な異常を制約の非満足の問題として扱い、異常が検出されたときに制約空間で新しいアクションパラメーターをサンプリングすることにより、タスクの実行においてロボットを継続的に導きます。
シミュレーションと現実世界の設定の両方で、さまざまなプラットフォームでの広範な操作実験を通じて、フレームワークの堅牢性を実証します。

要約(オリジナル)

With the advancements in modern intelligent technologies, mobile robots equipped with manipulators are increasingly operating in unstructured environments. These robots can plan sequences of actions for long-horizon tasks based on perceived information. However, in practice, the planned actions often fail due to discrepancies between the perceptual information used for planning and the actual conditions. In this paper, we introduce the {\itshape Conditional Subtree} (CSubBT), a general self-adjusting execution framework for mobile manipulation tasks based on Behavior Trees (BTs). CSubBT decomposes symbolic action into sub-actions and uses BTs to control their execution, addressing any potential anomalies during the process. CSubBT treats common anomalies as constraint non-satisfaction problems and continuously guides the robot in performing tasks by sampling new action parameters in the constraint space when anomalies are detected. We demonstrate the robustness of our framework through extensive manipulation experiments on different platforms, both in simulation and real-world settings.

arxiv情報

著者 Huihui Guo,Huizhang Luo,Huilong Pi,Mingxing Duan,Kenli Li,Chubo Liu
発行日 2025-02-28 06:46:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | CSubBT: A Self-Adjusting Execution Framework for Mobile Manipulation System はコメントを受け付けていません

Humanoid Whole-Body Locomotion on Narrow Terrain via Dynamic Balance and Reinforcement Learning

要約

人間は、多様な地形全体および極端な条件下で安定性を維持できるようにする繊細な動的バランスメカニズムを持っています。
ただし、最近の大きな進歩にもかかわらず、ヒューマノイドロボットの既存の移動アルゴリズムは、特に外部の知覚(視覚やLIDARなど)を欠く場合に、極端な環境を横断するのに苦労しています。
これは、現在の方法が歩行ベースまたは知覚条件の報酬に依存していることが多く、観察できない障害と突然のバランスの損失を処理するための効果的なメカニズムがないためです。
この課題に対処するために、ヒューマノイドロボットが極端な地形、特に狭い経路と予期せぬ障害を通過することを可能にする動的バランスと強化学習(RL)に基づいた新しい全身運動アルゴリズムを提案します。
具体的には、全身の俳優型の批判的なフレームワークにおけるゼロモーメントポイント(ZMP)駆動型の報酬とタスク駆動型の報酬の拡張尺度を活用して、堅牢な四肢と下肢の調整されたアクションを達成することを目指して、動的バランスメカニズムを導入します。
フルサイズのUnitree H1-2ロボットで実施された実験は、非常に狭い地形と外障害の下でバランスを維持する方法の能力を検証し、複雑な環境に対するロボットの適応性を高める上でその有効性を示しています。
ビデオはhttps://whole-body-loco.github.ioで提供されています。

要約(オリジナル)

Humans possess delicate dynamic balance mechanisms that enable them to maintain stability across diverse terrains and under extreme conditions. However, despite significant advances recently, existing locomotion algorithms for humanoid robots are still struggle to traverse extreme environments, especially in cases that lack external perception (e.g., vision or LiDAR). This is because current methods often rely on gait-based or perception-condition rewards, lacking effective mechanisms to handle unobservable obstacles and sudden balance loss. To address this challenge, we propose a novel whole-body locomotion algorithm based on dynamic balance and Reinforcement Learning (RL) that enables humanoid robots to traverse extreme terrains, particularly narrow pathways and unexpected obstacles, using only proprioception. Specifically, we introduce a dynamic balance mechanism by leveraging an extended measure of Zero-Moment Point (ZMP)-driven rewards and task-driven rewards in a whole-body actor-critic framework, aiming to achieve coordinated actions of the upper and lower limbs for robust locomotion. Experiments conducted on a full-sized Unitree H1-2 robot verify the ability of our method to maintain balance on extremely narrow terrains and under external disturbances, demonstrating its effectiveness in enhancing the robot’s adaptability to complex environments. The videos are given at https://whole-body-loco.github.io.

arxiv情報

著者 Weiji Xie,Chenjia Bai,Jiyuan Shi,Junkai Yang,Yunfei Ge,Weinan Zhang,Xuelong Li
発行日 2025-02-28 07:04:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | Humanoid Whole-Body Locomotion on Narrow Terrain via Dynamic Balance and Reinforcement Learning はコメントを受け付けていません

Characteristics Analysis of Autonomous Vehicle Pre-crash Scenarios

要約

現在までに、自動化された車両(AV)のオープンロードテストで数百のクラッシュが発生しており、AVの信頼性と安全性を改善する必要性を強調しています。
プリクラッシュシナリオ類型は、車両のダイナミクスと運動学の機能に基づいてクラッシュを分類します。
これに基づいて、特性分析は同様のクラッシュの下で同様の機能を特定し、一般的なクラッシュパターンをより効果的に反映し、AVパフォーマンスを向上させるためのよりターゲットを絞った推奨事項を提供することができます。
しかし、現在の研究は、主に従来の人間主導の車両間のクラッシュに集中しており、詳細なAVクラッシュ分析に特化した研究にギャップを残しています。
この論文では、最新のCalifornia AV Collisionレポートを分析し、新しく改訂された事前クラッシュシナリオの類型を使用して、クラッシュ前のシナリオを特定しました。
これらのAVプリクラッシュシナリオを自動的に抽出し、98.1%の精度で24のタイプを正常に識別し、詳細な分析を通じてAVクラッシュの2つの重要なシナリオ(つまり、リアエンドシナリオと交差シナリオ)を取得するための一連のマッピングルールを提案しました。
リアエンドシナリオの関連分析では、重要な環境影響要因がトラフィックコントロールの種類、ロケーションタイプ、光などであることが示されました。詳細な説明で深刻なクラッシュを起こしやすい交差点シナリオの場合、因果分析を採用して重要な因果要因を採用しました。
その後、最適化の推奨事項が策定され、政府の監視とAVメーカーの潜在的な改善の両方に対処しました。
この論文の調査結果は、政府当局が関連する規制の開発を導くことができ、製造業者がAVテストシナリオを設計し、さまざまな現実世界のシナリオに固有の制御アルゴリズムの潜在的な欠点を特定し、AVシステムを効果的に最適化するのに役立ちます。

要約(オリジナル)

To date, hundreds of crashes have occurred in open road testing of automated vehicles (AVs), highlighting the need for improving AV reliability and safety. Pre-crash scenario typology classifies crashes based on vehicle dynamics and kinematics features. Building on this, characteristics analysis can identify similar features under comparable crashes, offering a more effective reflection of general crash patterns and providing more targeted recommendations for enhancing AV performance. However, current studies primarily concentrated on crashes among conventional human-driven vehicles, leaving a gap in research dedicated to in-depth AV crash analyses. In this paper, we analyzed the latest California AV collision reports and used the newly revised pre-crash scenario typology to identify pre-crash scenarios. We proposed a set of mapping rules for automatically extracting these AV pre-crash scenarios, successfully identifying 24 types with a 98.1% accuracy rate, and obtaining two key scenarios of AV crashes (i.e., rear-end scenarios and intersection scenarios) through detailed analysis. Association analyses of rear-end scenarios showed that the significant environmental influencing factors were traffic control type, location type, light, etc. For intersection scenarios prone to severe crashes with detailed descriptions, we employed causal analyses to obtain the significant causal factors: habitual violations and expectations of certain behavior. Optimization recommendations were then formulated, addressing both governmental oversight and AV manufacturers’ potential improvements. The findings of this paper could guide government authorities to develop related regulations, help manufacturers design AV test scenarios, and identify potential shortcomings in control algorithms specific to various real-world scenarios, thereby optimizing AV systems effectively.

arxiv情報

著者 Yixuan Li,Xuesong Wang,Tianyi Wang,Qian Liu
発行日 2025-02-28 07:10:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Characteristics Analysis of Autonomous Vehicle Pre-crash Scenarios はコメントを受け付けていません

Tool-Planner: Task Planning with Clusters across Multiple Tools

要約

大規模な言語モデル(LLM)は、例外的な推論能力を実証しており、さまざまな複雑な問題を解決できるようにしています。
最近、この能力はツール学習のパラダイムに適用されています。
ツール学習には、ツールの使用法とそれに対応する機能の例を提供し、LLMが計画を策定し、各ツールを呼び出して実行するプロセスを実証できるようにします。
LLMは、独立して完了できないタスクに対処でき、それにより異なるタスク全体で潜在能力を高めることができます。
ただし、このアプローチは2つの重要な課題に直面しています。
第一に、冗長エラーの修正は、不安定な計画と長い実行時間につながります。
さらに、複数のツール間で正しい計画を設計することも、ツール学習の課題です。
これらの問題に対処するために、ツールキットに基づいたタスク処理フレームワークであるツールプランナーを提案します。
ツールプレーナーグループツールは、同じ関数を備えたAPI機能に基づいてツールキットになり、LLMがさまざまなツールキットに計画を実装できるようにします。
ツールエラーが発生すると、言語モデルはツールキットに基づいてツールを再選択および調整できます。
実験は、私たちのアプローチが異なるデータセット間で高いパスと勝利率を示し、GPT-4やClaude 3などのモデルでツール学習の計画スキームを最適化し、メソッドの可能性を紹介することを示しています。
私たちのコードはhttps://github.com/oceanntwt/tool-plannerで公開されています

要約(オリジナル)

Large language models (LLMs) have demonstrated exceptional reasoning capabilities, enabling them to solve various complex problems. Recently, this ability has been applied to the paradigm of tool learning. Tool learning involves providing examples of tool usage and their corresponding functions, allowing LLMs to formulate plans and demonstrate the process of invoking and executing each tool. LLMs can address tasks that they cannot complete independently, thereby enhancing their potential across different tasks. However, this approach faces two key challenges. First, redundant error correction leads to unstable planning and long execution time. Additionally, designing a correct plan among multiple tools is also a challenge in tool learning. To address these issues, we propose Tool-Planner, a task-processing framework based on toolkits. Tool-Planner groups tools based on the API functions with the same function into a toolkit and allows LLMs to implement planning across the various toolkits. When a tool error occurs, the language model can reselect and adjust tools based on the toolkit. Experiments show that our approach demonstrates a high pass and win rate across different datasets and optimizes the planning scheme for tool learning in models such as GPT-4 and Claude 3, showcasing the potential of our method. Our code is public at https://github.com/OceannTwT/Tool-Planner

arxiv情報

著者 Yanming Liu,Xinyue Peng,Jiannan Cao,Shi Bo,Yuwei Zhang,Xuhong Zhang,Sheng Cheng,Xun Wang,Jianwei Yin,Tianyu Du
発行日 2025-02-28 07:12:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.RO | Tool-Planner: Task Planning with Clusters across Multiple Tools はコメントを受け付けていません

Towards Semantic 3D Hand-Object Interaction Generation via Functional Text Guidance

要約

ハンドオブジェクト相互作用(HOI)は、人間と環境の基本的なリンクですが、その器用で複雑なポーズがジェスチャー制御に大きな課題をもたらします。
AIとロボット工学の大幅な進歩にもかかわらず、マシンがハンドオブジェクトの相互作用を理解してシミュレートできるようにすることで、機能的な把握タスクのセマンティクスをキャプチャすることはかなりの課題です。
以前の作業は安定した正しい3Dの握りを生成することができますが、それらは、想定されていない把握セマンティクスのために機能的な握りを達成することにはまだ程遠いです。
この課題に対処するために、機能テキストによって駆動される3D HOIを生成するために、革新的な2段階のフレームワーク、機能把握合成ネット(FGS-NET)を提案します。
このフレームワークは、テキスト誘導3Dモデルジェネレーター、機能把握ジェネレーター(FGG)、およびポーズ最適化戦略、機能把握精製機(FGR)で構成されています。
FGGはテキスト入力に基づいて3Dモデルの手とオブジェクトを生成し、FGRはオブジェクトのポーズ近似関数とエネルギー関数を使用してポーズを微調整して、ハンドとオブジェクトの間の相対的な位置が人間の意図と整列し、身体的にもっともらしいものを確保します。
広範な実験は、私たちのアプローチが追加の3D注釈データを必要とせずに正確で高品質のHOI生成を達成することを示しています。

要約(オリジナル)

Hand-object interaction(HOI) is the fundamental link between human and environment, yet its dexterous and complex pose significantly challenges for gesture control. Despite significant advances in AI and robotics, enabling machines to understand and simulate hand-object interactions, capturing the semantics of functional grasping tasks remains a considerable challenge. While previous work can generate stable and correct 3D grasps, they are still far from achieving functional grasps due to unconsidered grasp semantics. To address this challenge, we propose an innovative two-stage framework, Functional Grasp Synthesis Net (FGS-Net), for generating 3D HOI driven by functional text. This framework consists of a text-guided 3D model generator, Functional Grasp Generator (FGG), and a pose optimization strategy, Functional Grasp Refiner (FGR). FGG generates 3D models of hands and objects based on text input, while FGR fine-tunes the poses using Object Pose Approximator and energy functions to ensure the relative position between the hand and object aligns with human intent and remains physically plausible. Extensive experiments demonstrate that our approach achieves precise and high-quality HOI generation without requiring additional 3D annotation data.

arxiv情報

著者 Yongqi Tian,Xueyu Sun,Haoyuan He,Linji Hao,Ning Ding,Caigui Jiang
発行日 2025-02-28 07:42:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Towards Semantic 3D Hand-Object Interaction Generation via Functional Text Guidance はコメントを受け付けていません

Learning-Based Leader Localization for Underwater Vehicles With Optical-Acoustic-Pressure Sensor Fusion

要約

水中車両は、水生環境を探索および監視するための重要な技術として浮上しています。
マルチビェクルシステムの展開は、効率が向上した共同タスクを実行する能力により、大きな関心を集めています。
ただし、特に動的で複雑な水中条件において、マルチ車両構成内でリーダーの水中車両の正確なローカリゼーションを実現することは、重要な課題のままです。
この問題に対処するために、このペーパーでは、光学、音響、圧力センサーを統合してリーダー車両をローカライズする新しいトライモーダルセンサー融合ニューラルネットワークアプローチを紹介します。
提案された方法は、各センサーモダリティのユニークな強度を活用して、ローカリゼーションの精度と堅牢性を向上させます。
具体的には、光学センサーは、正確な相対的なポジショニング、音響センサーを有効にするための高解像度イメージングを提供し、長距離検出と範囲を可能にし、圧力センサーは環境コンテキストの認識を提供します。
これらのセンサーモダリティの融合は、生センサーデータから相補的な機能を抽出して組み合わせるように設計された深い学習アーキテクチャを使用して実装されます。
提案された方法の有効性は、カスタム設計のテストプラットフォームを通じて検証されます。
広範なデータ収集と実験的評価は、トライモーダルアプローチがリーダーのローカリゼーションの精度と堅牢性を大幅に改善し、シングルモーダルとデュアルモーダルの両方の方法を上回ることを示しています。

要約(オリジナル)

Underwater vehicles have emerged as a critical technology for exploring and monitoring aquatic environments. The deployment of multi-vehicle systems has gained substantial interest due to their capability to perform collaborative tasks with improved efficiency. However, achieving precise localization of a leader underwater vehicle within a multi-vehicle configuration remains a significant challenge, particularly in dynamic and complex underwater conditions. To address this issue, this paper presents a novel tri-modal sensor fusion neural network approach that integrates optical, acoustic, and pressure sensors to localize the leader vehicle. The proposed method leverages the unique strengths of each sensor modality to improve localization accuracy and robustness. Specifically, optical sensors provide high-resolution imaging for precise relative positioning, acoustic sensors enable long-range detection and ranging, and pressure sensors offer environmental context awareness. The fusion of these sensor modalities is implemented using a deep learning architecture designed to extract and combine complementary features from raw sensor data. The effectiveness of the proposed method is validated through a custom-designed testing platform. Extensive data collection and experimental evaluations demonstrate that the tri-modal approach significantly improves the accuracy and robustness of leader localization, outperforming both single-modal and dual-modal methods.

arxiv情報

著者 Mingyang Yang,Zeyu Sha,Feitian Zhang
発行日 2025-02-28 08:03:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Learning-Based Leader Localization for Underwater Vehicles With Optical-Acoustic-Pressure Sensor Fusion はコメントを受け付けていません

Hierarchical and Modular Network on Non-prehensile Manipulation in General Environments

要約

ロボットが世帯のような一般的な環境で動作するためには、脱律不可能なオブジェクトを操作するために転倒やローリングなどの非充実した操作アクションを実行できる必要があります。
ただし、非充実した操作に関する以前の作業は、多様な幾何学を持つ環境全体でまだ一般化することはできません。
主な課題は、さまざまな環境制約に適応することにあります。キャビネット内では、ロボットは壁や天井を避けなければなりません。
オブジェクトをステップの一番上に持ち上げるには、ロボットはステップのポーズと範囲を説明する必要があります。
Deep Rehnection Learning(RL)は非摂食操作における印象的な成功を実証していますが、そのような変動を考慮すると、制約の新しい組み合わせごとに多様な戦略を学ばなければならないため、ジェネラリスト政策の課題があります。
これに対処するために、タスク要件に基づいてネットワークモジュールを適応的に再構成するモジュール式および再構成可能なアーキテクチャを提案します。
環境の幾何学的変動性をキャプチャするために、接触ベースのオブジェクト表現(トウモロコシ)を環境形状に拡張し、エージェントを訓練するための多様な環境を生成するための手続き的アルゴリズムを提案します。
まとめると、結果のポリシーは、シミュレーター内で完全にトレーニングしているにもかかわらず、新しい実世界の環境とオブジェクトへのゼロショット転送を可能にします。
さらに、353のオブジェクトを備えた9つのデジタルツインの実世界のシーンを特徴とするシミュレーションベースのベンチマークをリリースして、現実的なドメインでの非充実した操作研究を促進します。

要約(オリジナル)

For robots to operate in general environments like households, they must be able to perform non-prehensile manipulation actions such as toppling and rolling to manipulate ungraspable objects. However, prior works on non-prehensile manipulation cannot yet generalize across environments with diverse geometries. The main challenge lies in adapting to varying environmental constraints: within a cabinet, the robot must avoid walls and ceilings; to lift objects to the top of a step, the robot must account for the step’s pose and extent. While deep reinforcement learning (RL) has demonstrated impressive success in non-prehensile manipulation, accounting for such variability presents a challenge for the generalist policy, as it must learn diverse strategies for each new combination of constraints. To address this, we propose a modular and reconfigurable architecture that adaptively reconfigures network modules based on task requirements. To capture the geometric variability in environments, we extend the contact-based object representation (CORN) to environment geometries, and propose a procedural algorithm for generating diverse environments to train our agent. Taken together, the resulting policy can zero-shot transfer to novel real-world environments and objects despite training entirely within a simulator. We additionally release a simulation-based benchmark featuring nine digital twins of real-world scenes with 353 objects to facilitate non-prehensile manipulation research in realistic domains.

arxiv情報

著者 Yoonyoung Cho,Junhyek Han,Jisu Han,Beomjoon Kim
発行日 2025-02-28 08:42:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | Hierarchical and Modular Network on Non-prehensile Manipulation in General Environments はコメントを受け付けていません

CAT-ORA: Collision-Aware Time-Optimal Formation Reshaping for Efficient Robot Coordination in 3D Environments

要約

このホワイトペーパーでは、エージェント間の衝突を防ぎながら、3次元環境で再変化する時間最適形成の問題に対処するために設計されたアルゴリズムを紹介します。
提案されたアプローチの有用性は、モバイルロボット工学で特に明白です。エージェントは、効率的なナビゲーションまたはタスクの完了のために形成形状の頻繁な変更を必要とするさまざまな現実世界アプリケーションの形成で整理およびナビゲートされることから利益を得ることができます。
バッテリー駆動のモバイルロボットに固有の制約された運用時間を考えると、特にマルチローターの無人航空機(UAV)の場合、フォーメーションの再形成プロセスを完了するために必要な時間は効率的な動作に不可欠です。
提案されている衝突対応の時間最適形成再形成アルゴリズム(CAT-ORA)は、ハンガリー語のアルゴリズムに基づいて、ロボット間衝突回避の解決策を解決します。
理論的検証は、CAT-ORAの最適性を確認し、その有効性はシミュレーションを通じてさらに紹介され、19のUAVを含む実世界の屋外実験があります。
徹底的な数値分析では、CAT-ORAが複雑な形成を実行するのに必要な時間を最大49%、平均して12%を短縮する可能性を示しています。

要約(オリジナル)

In this paper, we introduce an algorithm designed to address the problem of time-optimal formation reshaping in three-dimensional environments while preventing collisions between agents. The utility of the proposed approach is particularly evident in mobile robotics, where agents benefit from being organized and navigated in formation for a variety of real-world applications requiring frequent alterations in formation shape for efficient navigation or task completion. Given the constrained operational time inherent to battery-powered mobile robots, the time needed to complete the formation reshaping process is crucial for their efficient operation, especially in case of multi-rotor Unmanned Aerial Vehicles (UAVs). The proposed Collision-Aware Time-Optimal formation Reshaping Algorithm (CAT-ORA) builds upon the Hungarian algorithm for the solution of the robot-to-goal assignment implementing the inter-agent collision avoidance through direct constraints on mutually exclusive robot-goal pairs combined with a trajectory generation approach minimizing the duration of the reshaping process. Theoretical validations confirm the optimality of CAT-ORA, with its efficacy further showcased through simulations, and a real-world outdoor experiment involving 19 UAVs. Thorough numerical analysis shows the potential of CAT-ORA to decrease the time required to perform complex formation reshaping tasks by up to 49%, and 12% on average compared to commonly used methods in randomly generated scenarios.

arxiv情報

著者 Vit Kratky,Robert Penicka,Jiri Horyna,Petr Stibinger,Tomas Baca,Matej Petrlik,Petr Stepan,Martin Saska
発行日 2025-02-28 09:26:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | CAT-ORA: Collision-Aware Time-Optimal Formation Reshaping for Efficient Robot Coordination in 3D Environments はコメントを受け付けていません

USER-VLM 360: Personalized Vision Language Models with User-aware Tuning for Social Human-Robot Interactions

要約

ビジョン言語モデルをロボットシステムに統合することは、より直感的な方法でマシンが周囲と相互作用できるようにすることにおける重要な進歩を構成します。
VLMは豊富なマルチモーダル推論を提供しますが、既存のアプローチにはユーザー固有の適応性がなく、多くの場合、個々の行動、文脈、または社会的感情的なニュアンスを説明できない一般的な相互作用パラダイムに依存しています。
カスタマイズが試みられると、倫理的な懸念は、ユーザーデータのバイアスの許可されていないバイアス、除外、または不公正な治療から生じます。
これらの二重の課題に対処するために、ユーザー-VLM 360 {\ deg}を提案します。これは、バイアス認識の最適化をマルチモーダルユーザーモデリングと統合した全体的なフレームワークです。
私たちのアプローチ機能:(1)視覚的言語シグナルを使用してリアルタイムで相互作用を適応させるユーザー認識チューニング。
(2)優先最適化によるバイアス緩和。
(3)360 {\ deg}人口統計、感情、関係のメタデータと注釈が付けられた社会的相互作用データセットをキュレーションしました。
8つのベンチマークにわたる評価は、最先端の結果を示しています。パーソナライズされたVQAで +35.3%F1、顔の特徴の理解における +47.5%F1、15%のバイアス削減、およびベースライン上の30倍のスピードアップ。
アブレーション研究では、コンポーネントの有効性が確認され、ペッパーロボットの展開は、多様なユーザー全体でリアルタイムの適応性を検証します。
オープンソースパラメーター効率の高い3B/10Bモデルと、責任ある適応のための倫理的検証フレームワーク。

要約(オリジナル)

The integration of vision-language models into robotic systems constitutes a significant advancement in enabling machines to interact with their surroundings in a more intuitive manner. While VLMs offer rich multimodal reasoning, existing approaches lack user-specific adaptability, often relying on generic interaction paradigms that fail to account for individual behavioral, contextual, or socio-emotional nuances. When customization is attempted, ethical concerns arise from unmitigated biases in user data, risking exclusion or unfair treatment. To address these dual challenges, we propose User-VLM 360{\deg}, a holistic framework integrating multimodal user modeling with bias-aware optimization. Our approach features: (1) user-aware tuning that adapts interactions in real time using visual-linguistic signals; (2) bias mitigation via preference optimization; and (3) curated 360{\deg} socio-emotive interaction datasets annotated with demographic, emotion, and relational metadata. Evaluations across eight benchmarks demonstrate state-of-the-art results: +35.3% F1 in personalized VQA, +47.5% F1 in facial features understanding, 15% bias reduction, and 30X speedup over baselines. Ablation studies confirm component efficacy, and deployment on the Pepper robot validates real-time adaptability across diverse users. We open-source parameter-efficient 3B/10B models and an ethical verification framework for responsible adaptation.

arxiv情報

著者 Hamed Rahimi,Adil Bahaj,Mouad Abrini,Mahdi Khoramshahi,Mounir Ghogho,Mohamed Chetouani
発行日 2025-02-28 09:38:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC, cs.RO | USER-VLM 360: Personalized Vision Language Models with User-aware Tuning for Social Human-Robot Interactions はコメントを受け付けていません

DexGraspVLA: A Vision-Language-Action Framework Towards General Dexterous Grasping

要約

器用な把握は、ロボット工学の根本的でありながら挑戦的な問題のままです。
汎用ロボットは、任意のシナリオで多様なオブジェクトを把握できる必要があります。
ただし、既存の研究は通常、単一オブジェクトの設定や限られた環境などの特定の仮定に依存しており、一般化につながります。
私たちのソリューションは、高レベルのタスクプランナーとして事前に訓練されたビジョン言語モデルを利用し、低レベルのアクションコントローラーとして拡散ベースのポリシーを学習する階層的なフレームワークであるDexGraspVLAです。
重要な洞察は、ドメインシフトの緩和のために模倣学習を効果的に適用できる、ドメイン不変の表現に多様な言語と視覚入力を繰り返し変換することにあります。
したがって、幅広い現実世界のシナリオにわたって堅牢な一般化を可能にします。
特に、私たちの方法は、「ゼロショット」環境で、数千の目に見えないオブジェクト、照明、背景の組み合わせの下で90以上の成功率を達成します。
経験的分析により、環境の変動全体にわたる内部モデルの動作の一貫性がさらに確認され、それによって設計を検証し、その一般化パフォーマンスを説明します。
私たちの仕事が、一般的な器用な握りを達成する上で一歩前進することを願っています。
デモとコードはhttps://dexgraspvla.github.io/にあります。

要約(オリジナル)

Dexterous grasping remains a fundamental yet challenging problem in robotics. A general-purpose robot must be capable of grasping diverse objects in arbitrary scenarios. However, existing research typically relies on specific assumptions, such as single-object settings or limited environments, leading to constrained generalization. Our solution is DexGraspVLA, a hierarchical framework that utilizes a pre-trained Vision-Language model as the high-level task planner and learns a diffusion-based policy as the low-level Action controller. The key insight lies in iteratively transforming diverse language and visual inputs into domain-invariant representations, where imitation learning can be effectively applied due to the alleviation of domain shift. Thus, it enables robust generalization across a wide range of real-world scenarios. Notably, our method achieves a 90+% success rate under thousands of unseen object, lighting, and background combinations in a “zero-shot” environment. Empirical analysis further confirms the consistency of internal model behavior across environmental variations, thereby validating our design and explaining its generalization performance. We hope our work can be a step forward in achieving general dexterous grasping. Our demo and code can be found at https://dexgraspvla.github.io/.

arxiv情報

著者 Yifan Zhong,Xuchuan Huang,Ruochong Li,Ceyao Zhang,Yitao Liang,Yaodong Yang,Yuanpei Chen
発行日 2025-02-28 09:57:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | DexGraspVLA: A Vision-Language-Action Framework Towards General Dexterous Grasping はコメントを受け付けていません