Shifting Long-Context LLMs Research from Input to Output

要約

長いコンテキストの大規模な言語モデル(LLM)の最近の進歩は、主に拡張された入力コンテキストの処理に集中しており、その結果、長いコンテキストの理解に大きな進歩があります。
ただし、長型の出力を生成することの同様に重要な側面は、比較的少ない注目を集めています。
このペーパーでは、長年の生成の課題に対処するためのNLP研究のパラダイムシフトを提唱しています。
斬新な執筆、長期計画、複雑な推論などのタスクでは、モデルが広範なコンテキストを理解し、一貫性があり、文脈的に豊富で、論理的に一貫した拡張テキストを生成する必要があります。
これらの要求は、現在のLLM機能の重要なギャップを強調しています。
この不足しているドメインの重要性を強調し、高品質で長期の出力を生成するために調整された基本的なLLMSを開発するための焦点を絞った努力を求め、実世界のアプリケーションの大きな可能性を秘めています。

要約(オリジナル)

Recent advancements in long-context Large Language Models (LLMs) have primarily concentrated on processing extended input contexts, resulting in significant strides in long-context comprehension. However, the equally critical aspect of generating long-form outputs has received comparatively less attention. This paper advocates for a paradigm shift in NLP research toward addressing the challenges of long-output generation. Tasks such as novel writing, long-term planning, and complex reasoning require models to understand extensive contexts and produce coherent, contextually rich, and logically consistent extended text. These demands highlight a critical gap in current LLM capabilities. We underscore the importance of this under-explored domain and call for focused efforts to develop foundational LLMs tailored for generating high-quality, long-form outputs, which hold immense potential for real-world applications.

arxiv情報

著者 Yuhao Wu,Yushi Bai,Zhiqing Hu,Shangqing Tu,Ming Shan Hee,Juanzi Li,Roy Ka-Wei Lee
発行日 2025-03-07 03:14:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Shifting Long-Context LLMs Research from Input to Output はコメントを受け付けていません

The Spinning Blimp: Design and Control of a Novel Minimalist Aerial Vehicle Leveraging Rotational Dynamics and Locomotion

要約

このペーパーでは、低エネルギーの安定した飛行用に設計された、空中(LTA)の空中航空機であるスピニングプリンプを紹介します。
浮力のためにオブラートスフェロイドヘリウムバルーンを利用して、車両は長期にわたる空中状態を維持しながら、最小限のエネルギー消費を達成します。
ユニークで低コストのデザインは、パペラと組み合わせた受動的に配置された翼を採用して、紡績挙動を誘導し、内在する振り子に似た安定化を提供します。
翻訳の動きを制御するために、スピニング飛行機の連続的な回転性を利用する制御戦略を提案します。
車両の費用対効果は、パトロール、ローカリゼーション、空気および乱流モニタリング、国内監視など、さまざまなアプリケーションに非常に適しています。
実験的評価は、設計の有効性を確認し、航空用途向けの多目的で経済的に実行可能なソリューションとしての可能性を強調しています。

要約(オリジナル)

This paper presents the Spinning Blimp, a novel lighter-than-air (LTA) aerial vehicle designed for low-energy stable flight. Utilizing an oblate spheroid helium balloon for buoyancy, the vehicle achieves minimal energy consumption while maintaining prolonged airborne states. The unique and low-cost design employs a passively arranged wing coupled with a propeller to induce a spinning behavior, providing inherent pendulum-like stabilization. We propose a control strategy that takes advantage of the continuous revolving nature of the spinning blimp to control translational motion. The cost-effectiveness of the vehicle makes it highly suitable for a variety of applications, such as patrolling, localization, air and turbulence monitoring, and domestic surveillance. Experimental evaluations affirm the design’s efficacy and underscore its potential as a versatile and economically viable solution for aerial applications.

arxiv情報

著者 Leonardo Santens,Diego S. D’Antonio,Shuhang Hou,David Saldaña
発行日 2025-03-06 05:41:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | The Spinning Blimp: Design and Control of a Novel Minimalist Aerial Vehicle Leveraging Rotational Dynamics and Locomotion はコメントを受け付けていません

Dur360BEV: A Real-world 360-degree Single Camera Dataset and Benchmark for Bird-Eye View Mapping in Autonomous Driving

要約

Dur360Bevは、高解像度の128チャンネル3D LIDARとRTK-REFINED GNSS/INSシステムを装備した新しい球状カメラの自律運転データセットと、単一の球体カメラのみを使用してBirdeye-View(BEV)マップを生成するように設計されたベンチマークアーキテクチャを紹介します。
このデータセットとベンチマークは、特に複数のパースペクティブカメラの代わりに単一の360度カメラを使用することでハードウェアの複雑さを減らすことにより、自律運転におけるBEV生成の課題に対処します。
ベンチマークアーキテクチャ内で、球面画像と2Dから3Dから3Dから3Dを投影するための洗練されたサンプリング戦略を活用する新しい球面イメージからBEVモジュールを提案します。
私たちのアプローチには、BEVセグメンテーションタスクでしばしば遭遇する極端なクラスの不均衡に対処するために特に適応した焦点損失の革新的なアプリケーションも含まれており、DUR360BEVデータセットのセグメンテーションパフォーマンスの改善を示しています。
結果は、ベンチマークがセンサーのセットアップを簡素化するだけでなく、競争力のあるパフォーマンスも達成することを示しています。

要約(オリジナル)

We present Dur360BEV, a novel spherical camera autonomous driving dataset equipped with a high-resolution 128-channel 3D LiDAR and a RTK-refined GNSS/INS system, along with a benchmark architecture designed to generate Bird-Eye-View (BEV) maps using only a single spherical camera. This dataset and benchmark address the challenges of BEV generation in autonomous driving, particularly by reducing hardware complexity through the use of a single 360-degree camera instead of multiple perspective cameras. Within our benchmark architecture, we propose a novel spherical-image-to-BEV module that leverages spherical imagery and a refined sampling strategy to project features from 2D to 3D. Our approach also includes an innovative application of focal loss, specifically adapted to address the extreme class imbalance often encountered in BEV segmentation tasks, that demonstrates improved segmentation performance on the Dur360BEV dataset. The results show that our benchmark not only simplifies the sensor setup but also achieves competitive performance.

arxiv情報

著者 Wenke E,Chao Yuan,Li Li,Yixin Sun,Yona Falinie A. Gaus,Amir Atapour-Abarghouei,Toby P. Breckon
発行日 2025-03-06 05:59:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Dur360BEV: A Real-world 360-degree Single Camera Dataset and Benchmark for Bird-Eye View Mapping in Autonomous Driving はコメントを受け付けていません

GAGrasp: Geometric Algebra Diffusion for Dexterous Grasping

要約

幾何学的代数表現を活用して、SE(3)変換への等量化を強制する器用な把握生成のための新しいフレームワークであるGagraspを提案します。
SE(3)対称性の制約をアーキテクチャに直接エンコードすることにより、私たちの方法はデータとパラメーターの効率を改善し、多様なオブジェクトのポーズ全体で堅牢な把握を把握します。
さらに、微分可能な物理学に基づいた洗練された洗練層を組み込みます。これにより、生成されたグラスが物理的にもっともらしいと安定していることが保証されます。
広範な実験は、既存の方法と比較した一般化、安定性、および適応性におけるモデルの優れたパフォーマンスを示しています。
https://gagrasp.github.io/の追加の詳細

要約(オリジナル)

We propose GAGrasp, a novel framework for dexterous grasp generation that leverages geometric algebra representations to enforce equivariance to SE(3) transformations. By encoding the SE(3) symmetry constraint directly into the architecture, our method improves data and parameter efficiency while enabling robust grasp generation across diverse object poses. Additionally, we incorporate a differentiable physics-informed refinement layer, which ensures that generated grasps are physically plausible and stable. Extensive experiments demonstrate the model’s superior performance in generalization, stability, and adaptability compared to existing methods. Additional details at https://gagrasp.github.io/

arxiv情報

著者 Tao Zhong,Christine Allen-Blanchette
発行日 2025-03-06 06:00:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO | GAGrasp: Geometric Algebra Diffusion for Dexterous Grasping はコメントを受け付けていません

DVM-SLAM: Decentralized Visual Monocular Simultaneous Localization and Mapping for Multi-Agent Systems

要約

協調的な同時ローカリゼーションとマッピング(C-SLAM)により、複数のエージェントが不明な環境のマッピングで協力しながら、同時に自分の位置を推定できます。
このアプローチは、エージェント間で情報を共有し、ドリフトを削減し、より大きな領域の集合的な調査を可能にすることにより、堅牢性、スケーラビリティ、および精度を向上させます。
この論文では、最初のオープンソース分散型単眼C-SLAMシステムである分散化された視覚的単眼スラム(DVM-SLAM)を提示します。
低コストと軽量の単眼ビジョンセンサーのみを利用することにより、私たちのシステムは小さなロボットとマイクロエアリアル車(MAV)に適しています。
DVM-SLAMの実際の適用性は、カスタム衝突回避フレームワークを備えた物理ロボットで検証され、リアルタイムのマルチエージェント自律ナビゲーションシナリオでの可能性を示しています。
また、最先端の中央集権化された単眼Cスラムシステムに匹敵する精度を示します。
私たちはコードをオープンソーシングし、オンラインで補足資料を提供します。

要約(オリジナル)

Cooperative Simultaneous Localization and Mapping (C-SLAM) enables multiple agents to work together in mapping unknown environments while simultaneously estimating their own positions. This approach enhances robustness, scalability, and accuracy by sharing information between agents, reducing drift, and enabling collective exploration of larger areas. In this paper, we present Decentralized Visual Monocular SLAM (DVM-SLAM), the first open-source decentralized monocular C-SLAM system. By only utilizing low-cost and light-weight monocular vision sensors, our system is well suited for small robots and micro aerial vehicles (MAVs). DVM-SLAM’s real-world applicability is validated on physical robots with a custom collision avoidance framework, showcasing its potential in real-time multi-agent autonomous navigation scenarios. We also demonstrate comparable accuracy to state-of-the-art centralized monocular C-SLAM systems. We open-source our code and provide supplementary material online.

arxiv情報

著者 Joshua Bird,Jan Blumenkamp,Amanda Prorok
発行日 2025-03-06 06:10:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MA, cs.RO | DVM-SLAM: Decentralized Visual Monocular Simultaneous Localization and Mapping for Multi-Agent Systems はコメントを受け付けていません

Real-time Spatial-temporal Traversability Assessment via Feature-based Sparse Gaussian Process

要約

現実世界のタスク、特に屋外の非構造化環境での地上モバイルロボットを実際に適用するには、地形分析が重要です。
この論文では、自律的なロボットが複雑な地形を効果的にナビゲートできるようにすることを目的とした、新しい空間的な横断性評価方法を提案します。
当社のアプローチでは、スパースガウスプロセス(SGP)を利用して、ポイントクラウドスキャンから直接幾何学的特徴(曲率、勾配、標高など)を抽出します。
これらの機能は、高解像度のローカルトラバース性マップを構築するために使用されます。
次に、空間的なベイジアンガウスカーネル(BGK)推論方法を設計して、斜面、平坦性、勾配、不確実性メトリックなどの要因を考慮しながら、履歴データとリアルタイムのデータを統合しながら、横断性スコアを動的に評価します。
GPUアクセラレーションは特徴抽出ステップに適用され、システムはリアルタイムのパフォーマンスを実現します。
多様な地形シナリオ全体の広範なシミュレーション実験は、私たちの方法が精度と計算効率の両方でSOTAアプローチを上回ることを示しています。
さらに、トラバース性マップと統合された自律ナビゲーションフレームワークを開発し、複雑な屋外環境で微分駆動型の車両で検証します。
私たちのコードは、コミュニティ、https://github.com/zju-fast-lab/fsgp_bgkによるさらなる研究開発のためのオープンソースになります。

要約(オリジナル)

Terrain analysis is critical for the practical application of ground mobile robots in real-world tasks, especially in outdoor unstructured environments. In this paper, we propose a novel spatial-temporal traversability assessment method, which aims to enable autonomous robots to effectively navigate through complex terrains. Our approach utilizes sparse Gaussian processes (SGP) to extract geometric features (curvature, gradient, elevation, etc.) directly from point cloud scans. These features are then used to construct a high-resolution local traversability map. Then, we design a spatial-temporal Bayesian Gaussian kernel (BGK) inference method to dynamically evaluate traversability scores, integrating historical and real-time data while considering factors such as slope, flatness, gradient, and uncertainty metrics. GPU acceleration is applied in the feature extraction step, and the system achieves real-time performance. Extensive simulation experiments across diverse terrain scenarios demonstrate that our method outperforms SOTA approaches in both accuracy and computational efficiency. Additionally, we develop an autonomous navigation framework integrated with the traversability map and validate it with a differential driven vehicle in complex outdoor environments. Our code will be open-source for further research and development by the community, https://github.com/ZJU-FAST-Lab/FSGP_BGK.

arxiv情報

著者 Senming Tan,Zhenyu Hou,Zhihao Zhang,Long Xu,Mengke Zhang,Zhaoqi He,Chao Xu,Fei Gao,Yanjun Cao
発行日 2025-03-06 06:26:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Real-time Spatial-temporal Traversability Assessment via Feature-based Sparse Gaussian Process はコメントを受け付けていません

Tensegrity Robot Proprioceptive State Estimation with Geometric Constraints

要約

硬いロッドと弾性ケーブルの相乗的なアセンブリを特徴とするTenseGrityロボットは、衝撃に耐性のある堅牢な構造を形成します。
ただし、この設計は、運動学とダイナミクスに複雑さをもたらし、制御と状態の推定を複雑にします。
この作業は、緊張性ロボ​​ットの新しい固有受容状態推定器を提示します。
推定器は、最初に3バープリズム時制構造の幾何学的制約を使用し、IMUおよびモーターエンコーダー測定と組み合わせて、ロボットの形状と向きを再構築します。
次に、Tensegrityロボットのグローバルな位置と方向を推定するために、順方向運動学を備えた接触補助不変式カルマンフィルターを採用します。
状態推定器の精度は、シミュレートされた環境と現実世界の時制ロボットアプリケーションの両方のグラウンドトゥルースデータに対して評価されます。
従来の剛性ロボットの状態推定パフォーマンスに匹敵する平均ドリフト率は4.2%です。
この州の推定器は、TenseGrity Robot状態の推定における最先端を前進させ、オンボードセンサーを使用してリアルタイムで実行する可能性があり、非構造化環境でのTenseGrityロボットの完全な自律性への道を開いています。

要約(オリジナル)

Tensegrity robots, characterized by a synergistic assembly of rigid rods and elastic cables, form robust structures that are resistant to impacts. However, this design introduces complexities in kinematics and dynamics, complicating control and state estimation. This work presents a novel proprioceptive state estimator for tensegrity robots. The estimator initially uses the geometric constraints of 3-bar prism tensegrity structures, combined with IMU and motor encoder measurements, to reconstruct the robot’s shape and orientation. It then employs a contact-aided invariant extended Kalman filter with forward kinematics to estimate the global position and orientation of the tensegrity robot. The state estimator’s accuracy is assessed against ground truth data in both simulated environments and real-world tensegrity robot applications. It achieves an average drift percentage of 4.2%, comparable to the state estimation performance of traditional rigid robots. This state estimator advances the state of the art in tensegrity robot state estimation and has the potential to run in real-time using onboard sensors, paving the way for full autonomy of tensegrity robots in unstructured environments.

arxiv情報

著者 Wenzhe Tong,Tzu-Yuan Lin,Jonathan Mi,Yicheng Jiang,Maani Ghaffari,Xiaonan Huang
発行日 2025-03-06 06:56:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Tensegrity Robot Proprioceptive State Estimation with Geometric Constraints はコメントを受け付けていません

Large-Scale UWB Anchor Calibration and One-Shot Localization Using Gaussian Process

要約

Ultra-Wideband(UWB)は、正確なホームアイテムのローカリゼーションのためにAirTagsなどのデバイスで人気を博していますが、シーポートのような大きな環境に拡大すると大きな課題に直面しています。
主な課題は、物流環境で一般的な障害条件におけるキャリブレーションとローカリゼーションです。
視線(LOS)に依存する従来のキャリブレーション方法は、港や倉庫では遅く、費用がかかり、信頼性が高く、業界の大規模なローカリゼーションが重要な問題となっています。
これらの課題を克服するために、UWBライダー融合ベースのキャリブレーションとワンショットローカリゼーションフレームワークを提案します。
私たちの方法では、ガウスプロセスを使用して、サンプリングされたUWB範囲を備えた連続時間のLidar慣性匂いからアンカーの位置を推定します。
このアプローチは、大規模な領域、つまり600×450平方メートルで1ラウンドのサンプリングで正確で信頼できるキャリブレーションを保証します。
LOSの問題では、アンカーの位置がわかっている場合でも、UWBのみのローカリゼーションが問題になる可能性があります。
UWB-rangeフィルターを適用することにより、Lidarループ閉鎖記述子の検索範囲が大幅に減少し、精度と速度の両方が改善されることを実証します。
この概念は、他のループ閉鎖検出方法に適用でき、大規模な倉庫や港に費用対効果の高いローカリゼーションを可能にします。
ビデオ(https://youtu.be/oy8jqkdm7lu)に示すように、UWBのみおよびLIDAR-inertial Methodが不足している挑戦的な環境の精度を大幅に改善します。
コミュニティで使用するために、データセットとキャリブレーションコードをオープンソーシングします。

要約(オリジナル)

Ultra-wideband (UWB) is gaining popularity with devices like AirTags for precise home item localization but faces significant challenges when scaled to large environments like seaports. The main challenges are calibration and localization in obstructed conditions, which are common in logistics environments. Traditional calibration methods, dependent on line-of-sight (LoS), are slow, costly, and unreliable in seaports and warehouses, making large-scale localization a significant pain point in the industry. To overcome these challenges, we propose a UWB-LiDAR fusion-based calibration and one-shot localization framework. Our method uses Gaussian Processes to estimate anchor position from continuous-time LiDAR Inertial Odometry with sampled UWB ranges. This approach ensures accurate and reliable calibration with just one round of sampling in large-scale areas, I.e., 600×450 square meter. With the LoS issues, UWB-only localization can be problematic, even when anchor positions are known. We demonstrate that by applying a UWB-range filter, the search range for LiDAR loop closure descriptors is significantly reduced, improving both accuracy and speed. This concept can be applied to other loop closure detection methods, enabling cost-effective localization in large-scale warehouses and seaports. It significantly improves precision in challenging environments where UWB-only and LiDAR-Inertial methods fall short, as shown in the video (https://youtu.be/oY8jQKdM7lU). We will open-source our datasets and calibration codes for community use.

arxiv情報

著者 Shenghai Yuan,Boyang Lou,Thien-Minh Nguyen,Pengyu Yin,Muqing Cao,Xinghang Xu,Jianping Li,Jie Xu,Siyu Chen,Lihua Xie
発行日 2025-03-06 07:11:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Large-Scale UWB Anchor Calibration and One-Shot Localization Using Gaussian Process はコメントを受け付けていません

Simulation-based Analysis Of Highway Trajectory Planning Using High-Order Polynomial For Highly Automated Driving Function

要約

自律運転の基本的なタスクの1つは、安全な軌跡計画、車両の運転が必要な場所を決定するタスク、障害物を避け、安全規則に従い、道路の基本的な限界を尊重することです。
このような方法の実際の適用には、周囲の環境条件や車線の変化、衝突回避、車線マージなどの動きを考慮することが含まれます。
この論文の焦点は、高度に自動化された駆動機能(HADF)のために高次の多項式を使用して、安全な衝突フリー高速道路の変化軌道を開発および実装することです。
計画は、多くの場合、制御よりも高レベルのプロセスと見なされます。
行動計画モジュール(BPM)は、環境状況を含むシナリオでモーション計画を使用して車両の安全性を確保するために、車線変更操作のような高レベルの運転アクションを計画するように設計されています。
(bpm)から受け取った推奨事項に基づいて、関数はそれに対応する軌跡を生成します。
提案された計画システムは、同じ方向の多項式ベースのアルゴリズムを備えた状況固有の2レーンハイウェイシナリオです。
軌道システムをサポートするために、多項式曲線を使用して全体的な複雑さを減らし、それによって迅速な計算を可能にします。
提案された車線変更シナリオがモデル化されており、MATLABシミュレーション環境を通じて結果が分析(検証および検証)されています。
この論文で提案されている方法は、車線の変化する操縦の安全性と安定性の大幅な改善を達成しました。

要約(オリジナル)

One of the fundamental tasks of autonomous driving is safe trajectory planning, the task of deciding where the vehicle needs to drive, while avoiding obstacles, obeying safety rules, and respecting the fundamental limits of road. Real-world application of such a method involves consideration of surrounding environment conditions and movements such as Lane Change, collision avoidance, and lane merge. The focus of the paper is to develop and implement safe collision free highway Lane Change trajectory using high order polynomial for Highly Automated Driving Function (HADF). Planning is often considered as a higher-level process than control. Behavior Planning Module (BPM) is designed that plans the high-level driving actions like Lane Change maneuver to safely achieve the functionality of transverse guidance ensuring safety of the vehicle using motion planning in a scenario including environmental situation. Based on the recommendation received from the (BPM), the function will generate a desire corresponding trajectory. The proposed planning system is situation specific with polynomial based algorithm for same direction two lane highway scenario. To support the trajectory system polynomial curve can be used to reduces overall complexity and thereby allows rapid computation. The proposed Lane Change scenario is modeled, and results has been analyzed (verified and validate) through the MATLAB simulation environment. The method proposed in this paper has achieved a significant improvement in safety and stability of Lane Changing maneuver.

arxiv情報

著者 Milin Patel,Marzana Khatun,Rolf Jung,Michael Glaß
発行日 2025-03-06 07:23:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Simulation-based Analysis Of Highway Trajectory Planning Using High-Order Polynomial For Highly Automated Driving Function はコメントを受け付けていません

VLA Model-Expert Collaboration for Bi-directional Manipulation Learning

要約

ビジョン言語アクション(VLA)モデルの出現により、ロボット操作の基礎モデルが生まれました。
これらのモデルは大幅な改善を達成しましたが、マルチタスク操作の一般化は依然として限られています。
この研究では、VLAモデルのパフォーマンスを向上させるために限られた数の専門家のアクションを活用するVLAモデルと専門家のコラボレーションフレームワークを提案しています。
このアプローチは、手動操作と比較して専門家のワークロードを減らし、同時にVLAモデルの信頼性と一般化を改善します。
さらに、コラボレーション中に収集された操作データはVLAモデルをさらに改善することができ、人間の参加者はスキルを同時に強化します。
この双方向学習ループは、コラボレーションシステムの全体的なパフォーマンスを高めます。
さまざまなVLAモデルにわたる実験結果は、タスク全体の成功率の改善によって証明されるように、共同操作と学習における提案されたシステムの有効性を示しています。
さらに、Brain-Computer Interface(BCI)を使用した検証は、コラボレーションシステムが操作中にVLAモデルを関与させることにより、低速アクションシステムの効率を高めることを示しています。
これらの有望な結果は、ロボット工学の基礎モデルの時代における人間とロボットの相互作用を進める方法を開きます。
(プロジェクトWebサイト:https://aoqunjin.github.io/expert-vla/)

要約(オリジナル)

The emergence of vision-language-action (VLA) models has given rise to foundation models for robot manipulation. Although these models have achieved significant improvements, their generalization in multi-task manipulation remains limited. This study proposes a VLA model-expert collaboration framework that leverages a limited number of expert actions to enhance VLA model performance. This approach reduces expert workload relative to manual operation while simultaneously improving the reliability and generalization of VLA models. Furthermore, manipulation data collected during collaboration can further refine the VLA model, while human participants concurrently enhance their skills. This bi-directional learning loop boosts the overall performance of the collaboration system. Experimental results across various VLA models demonstrate the effectiveness of the proposed system in collaborative manipulation and learning, as evidenced by improved success rates across tasks. Additionally, validation using a brain-computer interface (BCI) indicates that the collaboration system enhances the efficiency of low-speed action systems by involving VLA model during manipulation. These promising results pave the way for advancing human-robot interaction in the era of foundation models for robotics. (Project website: https://aoqunjin.github.io/Expert-VLA/)

arxiv情報

著者 Tian-Yu Xiang,Ao-Qun Jin,Xiao-Hu Zhou,Mei-Jiang Gui,Xiao-Liang Xie,Shi-Qi Liu,Shuang-Yi Wang,Sheng-Bin Duang,Si-Cheng Wang,Zheng Lei,Zeng-Guang Hou
発行日 2025-03-06 07:25:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | VLA Model-Expert Collaboration for Bi-directional Manipulation Learning はコメントを受け付けていません