Retrieval Dexterity: Efficient Object Retrieval in Clutters with Dexterous Hand

要約

複数のオブジェクトの下に埋もれたオブジェクトを取得することは、挑戦的であるだけでなく、時間がかかります。
このような環境で操作を実行すると、複雑な接触関係により大きな困難があります。
既存のメソッドは通常、各閉塞オブジェクトを順番に把握および削除し、実行時間が長くなり、すべてのオクルードオブジェクトに非実用的な把握能力を必要とすることにより、このタスクに対処します。
このホワイトペーパーでは、マルチオブジェクト積み上げ環境で効率的なオブジェクト検索のための器用なアームハンドシステムを紹介します。
当社のアプローチは、多様で慎重に設計された乱雑な環境内で大規模な並列強化学習を活用して、ポリシーを訓練します。
これらのポリシーは、ターゲットオブジェクトの十分な表面積を露出させるためにオブジェクトを効率的にクリアするオブジェクトを効率的にクリアする緊急の操作スキル(たとえば、プッシュ、攪拌、突起)を示しています。
多様なクラッター構成で10を超える家庭用オブジェクトのセットで広範な評価を実施し、訓練されたオブジェクトと目に見えないオブジェクトの両方で優れた検索性能と効率性を示しています。
さらに、学習したポリシーは、実際のマルチフィンガーロボットシステムに実質的な適用性を検証し、実際の適用性を検証することに成功しました。
ビデオは、プロジェクトWebサイトhttps://changwinde.github.io/retrdexにあります。

要約(オリジナル)

Retrieving objects buried beneath multiple objects is not only challenging but also time-consuming. Performing manipulation in such environments presents significant difficulty due to complex contact relationships. Existing methods typically address this task by sequentially grasping and removing each occluding object, resulting in lengthy execution times and requiring impractical grasping capabilities for every occluding object. In this paper, we present a dexterous arm-hand system for efficient object retrieval in multi-object stacked environments. Our approach leverages large-scale parallel reinforcement learning within diverse and carefully designed cluttered environments to train policies. These policies demonstrate emergent manipulation skills (e.g., pushing, stirring, and poking) that efficiently clear occluding objects to expose sufficient surface area of the target object. We conduct extensive evaluations across a set of over 10 household objects in diverse clutter configurations, demonstrating superior retrieval performance and efficiency for both trained and unseen objects. Furthermore, we successfully transfer the learned policies to a real-world dexterous multi-fingered robot system, validating their practical applicability in real-world scenarios. Videos can be found on our project website https://ChangWinde.github.io/RetrDex.

arxiv情報

著者 Fengshuo Bai,Yu Li,Jie Chu,Tawei Chou,Runchuan Zhu,Ying Wen,Yaodong Yang,Yuanpei Chen
発行日 2025-02-26 09:46:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Retrieval Dexterity: Efficient Object Retrieval in Clutters with Dexterous Hand はコメントを受け付けていません

From planning to policy: distilling $\texttt{Skill-RRT}$ for long-horizon prehensile and non-prehensile manipulation

要約

現在のロボットは、プレヘンサイル前および非摂取のスキルの長いシーケンスを必要とする操作タスクの課題に直面しています。
これには、連絡先が豊富な相互作用を処理し、それらの長期的な結果を考慮しながら複数のスキルを接続することが含まれます。
このホワイトペーパーでは、長老の問題を解決することができるが、大規模な計算時間を必要とする計画アルゴリズムを蒸留するために模倣学習を活用するフレームワークを提示します。
スキルの適用性チェックと効率的な長距離計画のためのサンプリングの中間オブジェクトポーズサンプリングを組み込んだ急速に探索するランダムツリー(RRT)の拡張である$ \ texttt {skill-rrt} $を導入します。
スキルチェーンを有効にするために、オブジェクトの妨害を最小限に抑えながらスキル間の遷移を示す$ \ textit {Connectors} $、目標調整されたポリシーを提案します。
怠zyな計画を使用すると、コネクタは関連する移行で選択的にトレーニングされ、トレーニングのコストが削減されます。
高品質のデモンストレーションは、$ \ texttt {Skill-RRT} $で生成され、ノイズベースのリプレイメカニズムによって洗練され、堅牢なポリシーパフォーマンスが確保されます。
完全にシミュレーションで訓練された蒸留ポリシーは、現実世界へのゼロショット転送、3つの挑戦的な操作タスクで80%以上の成功率を達成しています。
シミュレーションでは、私たちのアプローチは、最先端のスキルベースの強化学習方法、$ \ texttt {maple} $、および$ \ texttt {skill-rrt} $よりも優れています。

要約(オリジナル)

Current robots face challenges in manipulation tasks that require a long sequence of prehensile and non-prehensile skills. This involves handling contact-rich interactions and chaining multiple skills while considering their long-term consequences. This paper presents a framework that leverages imitation learning to distill a planning algorithm, capable of solving long-horizon problems but requiring extensive computation time, into a policy for efficient action inference. We introduce $\texttt{Skill-RRT}$, an extension of the rapidly-exploring random tree (RRT) that incorporates skill applicability checks and intermediate object pose sampling for efficient long-horizon planning. To enable skill chaining, we propose $\textit{connectors}$, goal-conditioned policies that transition between skills while minimizing object disturbance. Using lazy planning, connectors are selectively trained on relevant transitions, reducing the cost of training. High-quality demonstrations are generated with $\texttt{Skill-RRT}$ and refined by a noise-based replay mechanism to ensure robust policy performance. The distilled policy, trained entirely in simulation, zero-shot transfer to the real world, and achieves over 80% success rates across three challenging manipulation tasks. In simulation, our approach outperforms the state-of-the-art skill-based reinforcement learning method, $\texttt{MAPLE}$, and $\texttt{Skill-RRT}$.

arxiv情報

著者 Haewon Jung,Donguk Lee,Haecheol Park,JunHyeop Kim,Beomjoon Kim
発行日 2025-02-26 02:49:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | From planning to policy: distilling $\texttt{Skill-RRT}$ for long-horizon prehensile and non-prehensile manipulation はコメントを受け付けていません

Ordered Genetic Algorithm for Entrance Dependent Vehicle Routing Problem in Farms

要約

車両ルーティングの問題(VRP)は、多くの生産シナリオで重要な役割を果たす広く研究されている問題です。
VRPの実際のシナリオでは、都市のサイズとその入り口が最適化プロセスに大きく影響する可能性があることに気付きました。
これに対処するために、そのような問題を説明するために、入り口に依存するVRP(EDVRP)を構築しました。
農場でEDVRPに数学的定式化を提供し、それを解決するために順序付けられた遺伝的アルゴリズム(OGA)を提案します。
OGAの有効性は、ランダムに生成された多数のケースを含む実験を通じて実証されています。
結果は、OGAがランダム戦略ベースラインと注文せずに遺伝的アルゴリズムと比較して特定の利点を提供することを示しています。
さらに、この論文で導入された新しいオペレーターは、アブレーション実験を通じて検証されており、アルゴリズムのパフォーマンスを向上させる有効性を証明しています。

要約(オリジナル)

Vehicle Routing Problems (VRP) are widely studied issues that play important roles in many production scenarios. We have noticed that in some practical scenarios of VRP, the size of cities and their entrances can significantly influence the optimization process. To address this, we have constructed the Entrance Dependent VRP (EDVRP) to describe such problems. We provide a mathematical formulation for the EDVRP in farms and propose an Ordered Genetic Algorithm (OGA) to solve it. The effectiveness of OGA is demonstrated through our experiments, which involve a multitude of randomly generated cases. The results indicate that OGA offers certain advantages compared to a random strategy baseline and a genetic algorithm without ordering. Furthermore, the novel operators introduced in this paper have been validated through ablation experiments, proving their effectiveness in enhancing the performance of the algorithm.

arxiv情報

著者 Haotian Xu,Xiaohui Fan,Jialin Zhu,Qing Zhuo,Tao Zhang
発行日 2025-02-26 06:21:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Ordered Genetic Algorithm for Entrance Dependent Vehicle Routing Problem in Farms はコメントを受け付けていません

Small Language Models: Survey, Measurements, and Insights

要約

小言語モデル(SLM)は、最新のスマートデバイスでの広範な採用にもかかわらず、主にデータセンターやクラウド環境に展開されている大規模な言語モデル(LLM)のカウンターパートと比較して、学問的な注目を大幅に受けていません。
研究者は、人工的な一般情報を追求するためにLLMの能力を改善し続けていますが、SLM Researchは、マシンインテリジェンスをよりアクセスしやすく、手頃で、日常のタスクに効率的にすることを目指しています。
100m-5Bパラメーターを備えたトランスベースのデコーダーのみの言語モデルに焦点を当て、70の最先端のオープンソースSLMを調査し、アーキテクチャ、トレーニングデータセット、トレーニングアルゴリズムの3つの軸にわたる技術革新を分析します。
さらに、常識的な推論、数学、コンテキスト内学習、長いコンテキストなど、さまざまなドメインでそれらの能力を評価します。
デバイス上のランタイムコストに関するさらなる洞察を得るために、推論の遅延とメモリフットプリントをベンチマークします。
ベンチマークデータの詳細な分析を通じて、この分野での研究を進めるための貴重な洞察を提供します。

要約(オリジナル)

Small language models (SLMs), despite their widespread adoption in modern smart devices, have received significantly less academic attention compared to their large language model (LLM) counterparts, which are predominantly deployed in data centers and cloud environments. While researchers continue to improve the capabilities of LLMs in the pursuit of artificial general intelligence, SLM research aims to make machine intelligence more accessible, affordable, and efficient for everyday tasks. Focusing on transformer-based, decoder-only language models with 100M-5B parameters, we survey 70 state-of-the-art open-source SLMs, analyzing their technical innovations across three axes: architectures, training datasets, and training algorithms. In addition, we evaluate their capabilities in various domains, including commonsense reasoning, mathematics, in-context learning, and long context. To gain further insight into their on-device runtime costs, we benchmark their inference latency and memory footprints. Through in-depth analysis of our benchmarking data, we offer valuable insights to advance research in this field.

arxiv情報

著者 Zhenyan Lu,Xiang Li,Dongqi Cai,Rongjie Yi,Fangming Liu,Xiwen Zhang,Nicholas D. Lane,Mengwei Xu
発行日 2025-02-26 06:34:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Small Language Models: Survey, Measurements, and Insights はコメントを受け付けていません

Citrus: Leveraging Expert Cognitive Pathways in a Medical Language Model for Advanced Medical Decision Support

要約

大規模な言語モデル(LLM)、特に推論能力を持つものは、近年急速に進歩しており、幅広いアプリケーションにわたって重大な可能性を示しています。
しかし、特に病気の推論タスクにおけるヘルスケアでの彼らの展開は、専門家レベルの認知データを取得するという課題によって妨げられています。
この論文では、医療専門家の認知プロセスをエミュレートすることにより、臨床の専門知識とAI推論のギャップを埋める医療言語モデルであるCitrusを紹介します。
このモデルは、臨床医の意思決定経路を正確にキャプチャする新しいアプローチを使用して合成された、シミュレートされた専門家疾患推論データの大規模なコーパスで訓練されています。
このアプローチにより、柑橘類は病状の診断と治療に関与する複雑な推論プロセスをよりよくシミュレートすることができます。
医療推論タスクのために公開されているデータセットの不足をさらに説明するために、カスタムビルドされた医療診断対話データセットを含む最終段階のトレーニングデータをリリースします。
このオープンソースの貢献は、この分野でのさらなる研究開発をサポートすることを目的としています。
MEDQAなどの権威あるベンチマークを使用した評価は、医療推論と言語理解のタスクをカバーすることで、柑橘類が同様のサイズの他のモデルと比較して優れたパフォーマンスを達成することを示しています。
これらの結果は、医療意思決定支援システムを大幅に強化する柑橘類の可能性を強調し、臨床的意思決定のためのより正確で効率的なツールを提供します。

要約(オリジナル)

Large language models (LLMs), particularly those with reasoning capabilities, have rapidly advanced in recent years, demonstrating significant potential across a wide range of applications. However, their deployment in healthcare, especially in disease reasoning tasks, is hindered by the challenge of acquiring expert-level cognitive data. In this paper, we introduce Citrus, a medical language model that bridges the gap between clinical expertise and AI reasoning by emulating the cognitive processes of medical experts. The model is trained on a large corpus of simulated expert disease reasoning data, synthesized using a novel approach that accurately captures the decision-making pathways of clinicians. This approach enables Citrus to better simulate the complex reasoning processes involved in diagnosing and treating medical conditions. To further address the lack of publicly available datasets for medical reasoning tasks, we release the last-stage training data, including a custom-built medical diagnostic dialogue dataset. This open-source contribution aims to support further research and development in the field. Evaluations using authoritative benchmarks such as MedQA, covering tasks in medical reasoning and language understanding, show that Citrus achieves superior performance compared to other models of similar size. These results highlight Citrus potential to significantly enhance medical decision support systems, providing a more accurate and efficient tool for clinical decision-making.

arxiv情報

著者 Guoxin Wang,Minyu Gao,Shuai Yang,Ya Zhang,Lizhi He,Liang Huang,Hanlin Xiao,Yexuan Zhang,Wanyue Li,Lu Chen,Jintao Fei,Xin Li
発行日 2025-02-26 02:50:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Citrus: Leveraging Expert Cognitive Pathways in a Medical Language Model for Advanced Medical Decision Support はコメントを受け付けていません

How Far are LLMs from Real Search? A Comprehensive Study on Efficiency, Completeness, and Inherent Capabilities

要約

検索は、さまざまなドメインにわたる問題解決において根本的な役割を果たし、ほとんどの現実世界の意思決定の問題は体系的な検索を通じて解決可能です。
検索と学習に関する最近の議論からインスピレーションを得て、3つの観点から検索モデル(LLM)の補完的な関係を体系的に探求します。
まず、学習が検索効率を高め、学習(SEAL)を介して検索を提案する方法を分析します。これは、効果的かつ効率的な検索のためにLLMを活用するフレームワークです。
第二に、SEAL-Cにさらに拡張して、検索中に厳しい完全性を確保します。
3つの実際の計画タスクにわたる評価は、シールが従来のアプローチと比較して検索スペースを最大99.1%削減しながら、ほぼ完璧な精度を達成することを示しています。
最後に、LLMが独立して検索機能を開発できるかどうかを調査することにより、実際の検索からどれだけ遠いかを調査します。
私たちの分析は、現在のLLMが複雑な問題で効率的な検索と闘っている一方で、体系的な検索戦略を組み込むことで問題解決能力が大幅に向上することを明らかにしています。
これらの調査結果は、アプローチの有効性を検証するだけでなく、実際のアプリケーションのLLMSの検索能力を改善する必要性を強調しています。

要約(オリジナル)

Search plays a fundamental role in problem-solving across various domains, with most real-world decision-making problems being solvable through systematic search. Drawing inspiration from recent discussions on search and learning, we systematically explore the complementary relationship between search and Large Language Models (LLMs) from three perspectives. First, we analyze how learning can enhance search efficiency and propose Search via Learning (SeaL), a framework that leverages LLMs for effective and efficient search. Second, we further extend SeaL to SeaL-C to ensure rigorous completeness during search. Our evaluation across three real-world planning tasks demonstrates that SeaL achieves near-perfect accuracy while reducing search spaces by up to 99.1% compared to traditional approaches. Finally, we explore how far LLMs are from real search by investigating whether they can develop search capabilities independently. Our analysis reveals that while current LLMs struggle with efficient search in complex problems, incorporating systematic search strategies significantly enhances their problem-solving capabilities. These findings not only validate the effectiveness of our approach but also highlight the need for improving LLMs’ search abilities for real-world applications.

arxiv情報

著者 Minhua Lin,Hui Liu,Xianfeng Tang,Jingying Zeng,Zhenwei Dai,Chen Luo,Zheng Li,Xiang Zhang,Qi He,Suhang Wang
発行日 2025-02-26 06:40:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | How Far are LLMs from Real Search? A Comprehensive Study on Efficiency, Completeness, and Inherent Capabilities はコメントを受け付けていません

Learning Decentralized Swarms Using Rotation Equivariant Graph Neural Networks

要約

集中制御なしで集合的な目標を最適化するエージェントのオーケストレーションは、自律艦隊の制御、センサーネットワークを使用した監視と偵察などのアプリケーションにとって挑戦的でありながら重要です。
分散型コントローラーの設計は、自然界で見られる自己組織化に触発されており、インスピレーションの顕著な源が群がっています。
ただし、分散型コントローラーは群れの凝集を維持するのに苦労しています。
グラフニューラルネットワーク(GNN)アーキテクチャは、群れの凝集を維持できる分散型コントローラーを開発するための不可欠な機械学習ツールとして浮上していますが、群れのダイナミクスに存在する対称性を悪用し、一般化を妨げることができません。
分散型の群れGNNコントローラーの回転等積と翻訳の不変性対称性を実施し、これらの対称性が施行されていない既存のGNNコントローラーよりも70%少ないトレーニングデータと75%少ないトレーニング可能なウェイトで同等の散布コントロールを実現します。
また、対称性コントローラーが既存のGNNコントローラーよりも優れていることを示します。
コードとアニメーションは、http://github.com/utah-math-data-science/equivariant-decentralized-controllersで入手できます。

要約(オリジナル)

The orchestration of agents to optimize a collective objective without centralized control is challenging yet crucial for applications such as controlling autonomous fleets, and surveillance and reconnaissance using sensor networks. Decentralized controller design has been inspired by self-organization found in nature, with a prominent source of inspiration being flocking; however, decentralized controllers struggle to maintain flock cohesion. The graph neural network (GNN) architecture has emerged as an indispensable machine learning tool for developing decentralized controllers capable of maintaining flock cohesion, but they fail to exploit the symmetries present in flocking dynamics, hindering their generalizability. We enforce rotation equivariance and translation invariance symmetries in decentralized flocking GNN controllers and achieve comparable flocking control with 70% less training data and 75% fewer trainable weights than existing GNN controllers without these symmetries enforced. We also show that our symmetry-aware controller generalizes better than existing GNN controllers. Code and animations are available at http://github.com/Utah-Math-Data-Science/Equivariant-Decentralized-Controllers.

arxiv情報

著者 Taos Transue,Bao Wang
発行日 2025-02-24 19:59:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: (Primary), 68Q32, 68T42, cs.LG, cs.RO | Learning Decentralized Swarms Using Rotation Equivariant Graph Neural Networks はコメントを受け付けていません

SET-PAiREd: Designing for Parental Involvement in Learning with an AI-Assisted Educational Robot

要約

AIアシストの学習コンパニオンロボットは、早期教育でますます使用されています。
多くの親は、コンテンツの適切性について懸念を表明しますが、AIとロボットが子供の学習をサポートするために限られたスキル、時間、エネルギーをどのように補うかを高く評価しています。
カードベースのキットを設計し、親の関与の範囲が異なるシナリオを体系的にキャプチャしました。
ペアリングされたプロトタイプインターフェイスを開発し、学習コンパニオンロボットを作成して、両親がレビューおよび改訂できるLLM生成の教育コンテンツを提供しました。
親は、ロボットに何を助けてほしいかを決定することにより、活動への関与を柔軟に調整できます。
3〜5歳の子供を持つ20の家族を含む在宅フィールドスタディを実施しました。
私たちの仕事は、AIとロボットからの期待が異なるサポートのレベルを、子供をサポートするために親を柔軟に含めるための革新的な相互作用パラダイムを示すプロトタイプを必要とする可能性のある経験的理解に貢献しています。

要約(オリジナル)

AI-assisted learning companion robots are increasingly used in early education. Many parents express concerns about content appropriateness, while they also value how AI and robots could supplement their limited skill, time, and energy to support their children’s learning. We designed a card-based kit, SET, to systematically capture scenarios that have different extents of parental involvement. We developed a prototype interface, PAiREd, with a learning companion robot to deliver LLM-generated educational content that can be reviewed and revised by parents. Parents can flexibly adjust their involvement in the activity by determining what they want the robot to help with. We conducted an in-home field study involving 20 families with children aged 3-5. Our work contributes to an empirical understanding of the level of support parents with different expectations may need from AI and robots and a prototype that demonstrates an innovative interaction paradigm for flexibly including parents in supporting their children.

arxiv情報

著者 Hui-Ru Ho,Nitigya Kargeti,Ziqi Liu,Bilge Mutlu
発行日 2025-02-24 20:16:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.RO | SET-PAiREd: Designing for Parental Involvement in Learning with an AI-Assisted Educational Robot はコメントを受け付けていません

UASTHN: Uncertainty-Aware Deep Homography Estimation for UAV Satellite-Thermal Geo-localization

要約

地理的ローカリゼーションは、無人航空機(UAV)ナビゲーションシステムの不可欠なコンポーネントであり、屋外環境での絶対的な自己局在化を確実に確保しています。
GPS信号の中断または低照明の課題に対処するために、熱ジオローカリゼーション(TG)は航空の熱画像を使用して、参照衛星マップと整列してUAVの位置を正確に決定します。
ただし、既存のTGメソッドには、出力の不確実性測定がありません。テクスチャレスまたは破損した熱画像、自己類似または時代遅れの衛星マップ、幾何学的ノイズ、または衛星マップを超えるサーマル画像の存在下でのシステムの堅牢性の妥協がありません。
これらの制限を克服するために、このペーパーでは、TGアプリケーションのディープホモグラフィー推定(DHE)タスクにおける不確実性推定(UE)の新しいアプローチであるUasthnを提示します。
具体的には、データの不確実性を効果的に測定するために、トリミングされた画像ビューのホモグラフィーコンセンサスを活用する、新しい作物ベースのテスト時間拡張(CropTTA)戦略を導入します。
このアプローチは、モデルの不確実性に使用されるディープアンサンブル(DE)によって補完され、あらゆるDHEモデルとの効率を向上させ、シームレスな統合を伴う同等のパフォーマンスを提供します。
複数のDHEモデルにわたる広範な実験は、TGアプリケーションにおけるCropTTAの有効性と効率を示しています。
検出された故障症例の分析は、困難な条件下でのCropttaの信頼性の向上を強調しています。
最後に、データとモデルの不確実性の両方を包括的に評価するために、CropttaとDEを組み合わせる能力を実証します。
私たちの研究は、ローカリゼーションと不確実性の推定のより広い交差点に関する深い洞察を提供します。
コードとモデルは公開されています。

要約(オリジナル)

Geo-localization is an essential component of Unmanned Aerial Vehicle (UAV) navigation systems to ensure precise absolute self-localization in outdoor environments. To address the challenges of GPS signal interruptions or low illumination, Thermal Geo-localization (TG) employs aerial thermal imagery to align with reference satellite maps to accurately determine the UAV’s location. However, existing TG methods lack uncertainty measurement in their outputs, compromising system robustness in the presence of textureless or corrupted thermal images, self-similar or outdated satellite maps, geometric noises, or thermal images exceeding satellite maps. To overcome these limitations, this paper presents UASTHN, a novel approach for Uncertainty Estimation (UE) in Deep Homography Estimation (DHE) tasks for TG applications. Specifically, we introduce a novel Crop-based Test-Time Augmentation (CropTTA) strategy, which leverages the homography consensus of cropped image views to effectively measure data uncertainty. This approach is complemented by Deep Ensembles (DE) employed for model uncertainty, offering comparable performance with improved efficiency and seamless integration with any DHE model. Extensive experiments across multiple DHE models demonstrate the effectiveness and efficiency of CropTTA in TG applications. Analysis of detected failure cases underscores the improved reliability of CropTTA under challenging conditions. Finally, we demonstrate the capability of combining CropTTA and DE for a comprehensive assessment of both data and model uncertainty. Our research provides profound insights into the broader intersection of localization and uncertainty estimation. The code and models are publicly available.

arxiv情報

著者 Jiuhong Xiao,Giuseppe Loianno
発行日 2025-02-24 20:40:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | UASTHN: Uncertainty-Aware Deep Homography Estimation for UAV Satellite-Thermal Geo-localization はコメントを受け付けていません

Steering Your Generalists: Improving Robotic Foundation Models via Value Guidance

要約

多様なデモンストレーションデータセットで訓練された大規模な汎用ロボットポリシーは、さまざまなシーンのさまざまなロボットを制御することと、操作スキルの幅広いレパートリーを獲得するために、非常に効果的であることが示されています。
ただし、そのようなポリシーがトレーニングされているデータは一般に混合品質です。タスクを完全に実行する可能性は低いだけでなく、データセットが大きいほど、最高品質の例のみをキュレートすることが難しくなります。
また、ある実施形態からの最適なデータが、別の実施形態でトレーニングするための最適なデータがいかに不明であるかは不明のままです。
このホワイトペーパーでは、オフラインRLを介して学習した値関数に従ってアクションを再ランクすることにより、展開時間にそのようなジェネラリストロボットポリシーのパフォーマンスを強化する一般的かつ広く適用可能なアプローチを提示します。
このアプローチは、バリューガイド付きポリシーステアリング(V-GPS)と呼ばれ、ポリシーの重みに微調整したりアクセスすることさえすることなく、幅広い異なるジェネラリストポリシーと互換性があります。
同じ値関数は、異なるデータセットでトレーニングされていても、異なるアーキテクチャを備えた5つの異なる最先端のポリシーのパフォーマンスを改善できることを示しています。
コードとビデオは、https://nakamotoo.github.io/v-gpsにあります

要約(オリジナル)

Large, general-purpose robotic policies trained on diverse demonstration datasets have been shown to be remarkably effective both for controlling a variety of robots in a range of different scenes, and for acquiring broad repertoires of manipulation skills. However, the data that such policies are trained on is generally of mixed quality — not only are human-collected demonstrations unlikely to perform the task perfectly, but the larger the dataset is, the harder it is to curate only the highest quality examples. It also remains unclear how optimal data from one embodiment is for training on another embodiment. In this paper, we present a general and broadly applicable approach that enhances the performance of such generalist robot policies at deployment time by re-ranking their actions according to a value function learned via offline RL. This approach, which we call Value-Guided Policy Steering (V-GPS), is compatible with a wide range of different generalist policies, without needing to fine-tune or even access the weights of the policy. We show that the same value function can improve the performance of five different state-of-the-art policies with different architectures, even though they were trained on distinct datasets, attaining consistent performance improvement on multiple robotic platforms across a total of 12 tasks. Code and videos can be found at: https://nakamotoo.github.io/V-GPS

arxiv情報

著者 Mitsuhiko Nakamoto,Oier Mees,Aviral Kumar,Sergey Levine
発行日 2025-02-24 21:05:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | Steering Your Generalists: Improving Robotic Foundation Models via Value Guidance はコメントを受け付けていません