LMOD: A Large Multimodal Ophthalmology Dataset and Benchmark for Large Vision-Language Models

要約

眼科では、診断や治療計画のために詳細な画像解析に大きく依存している。大規模視覚言語モデル(LVLM)は複雑な視覚情報を理解する上で有望であるが、眼科画像におけるその性能はまだ十分に検討されていない。我々は、眼科画像におけるLVLMを評価するためのデータセットとベンチマークであるLMODを紹介し、解剖学的理解、診断分析、人口統計抽出をカバーする。LMODには、光コヒーレンストモグラフィー、走査型レーザー検眼鏡、眼球写真、手術シーン、カラー眼底写真にまたがる21,993枚の画像が含まれる。我々は、13の最新のLVLMをベンチマークし、それらが眼科画像を理解するには完璧には程遠いことを発見した。モデルは診断分析と人口統計抽出に苦戦し、空間推論、診断分析、領域外クエリの処理、眼科画像のバイオマーカーを扱うための安全対策に弱点があることが明らかになった。

要約(オリジナル)

Ophthalmology relies heavily on detailed image analysis for diagnosis and treatment planning. While large vision-language models (LVLMs) have shown promise in understanding complex visual information, their performance on ophthalmology images remains underexplored. We introduce LMOD, a dataset and benchmark for evaluating LVLMs on ophthalmology images, covering anatomical understanding, diagnostic analysis, and demographic extraction. LMODincludes 21,993 images spanning optical coherence tomography, scanning laser ophthalmoscopy, eye photos, surgical scenes, and color fundus photographs. We benchmark 13 state-of-the-art LVLMs and find that they are far from perfect for comprehending ophthalmology images. Models struggle with diagnostic analysis and demographic extraction, reveal weaknesses in spatial reasoning, diagnostic analysis, handling out-of-domain queries, and safeguards for handling biomarkers of ophthalmology images.

arxiv情報

著者 Zhenyue Qin,Yu Yin,Dylan Campbell,Xuansheng Wu,Ke Zou,Yih-Chung Tham,Ninghao Liu,Xiuzhen Zhang,Qingyu Chen
発行日 2024-10-03 02:29:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | コメントする

OccRWKV: Rethinking Efficient 3D Semantic Occupancy Prediction with Linear Complexity

要約

3D セマンティック占有予測ネットワークは、3D シーンの幾何学的およびセマンティック構造を再構築する際に優れた機能を実証し、ロボット ナビゲーションや自動運転システムに重要な情報を提供します。
しかし、高密度のネットワーク構造設計によるオーバーヘッドが大きいため、既存のネットワークは精度と遅延のバランスをとるという課題に直面しています。
このペーパーでは、Receptance Weighted Key Value (RWKV) からインスピレーションを得た効率的なセマンティック占有ネットワークである OccRWKV を紹介します。
OccRWKV は、セマンティクス、占有予測、および機能融合を個別のブランチに分離し、それぞれに Sem-RWKV ブロックと Geo-RWKV ブロックを組み込んでいます。
これらのブロックは、長距離の依存関係をキャプチャするように設計されており、ネットワークがドメイン固有の表現 (つまり、セマンティクスとジオメトリ) を学習できるようになり、予測精度が向上します。
現実世界の 3D 占有のまばらな性質を利用して、特徴を鳥瞰図 (BEV) 空間に投影することで計算オーバーヘッドを削減し、効率的な特徴強化と融合のための BEV-RWKV ブロックを提案します。
これにより、パフォーマンスを損なうことなく 22.2 FPS でのリアルタイム推論が可能になります。
実験では、OccRWKV が SemanticKITTI データセットで最先端の手法を上回っており、最良のベースラインである Co-Occ よりも 20 倍高速でありながら 25.1 の mIoU を達成し、ロボットでのリアルタイム展開に適していることが実証されています。
自律航行の効率。
コードとビデオはプロジェクト ページ https://jmwang0117.github.io/OccRWKV/ で入手できます。

要約(オリジナル)

3D semantic occupancy prediction networks have demonstrated remarkable capabilities in reconstructing the geometric and semantic structure of 3D scenes, providing crucial information for robot navigation and autonomous driving systems. However, due to their large overhead from dense network structure designs, existing networks face challenges balancing accuracy and latency. In this paper, we introduce OccRWKV, an efficient semantic occupancy network inspired by Receptance Weighted Key Value (RWKV). OccRWKV separates semantics, occupancy prediction, and feature fusion into distinct branches, each incorporating Sem-RWKV and Geo-RWKV blocks. These blocks are designed to capture long-range dependencies, enabling the network to learn domain-specific representation (i.e., semantics and geometry), which enhances prediction accuracy. Leveraging the sparse nature of real-world 3D occupancy, we reduce computational overhead by projecting features into the bird’s-eye view (BEV) space and propose a BEV-RWKV block for efficient feature enhancement and fusion. This enables real-time inference at 22.2 FPS without compromising performance. Experiments demonstrate that OccRWKV outperforms the state-of-the-art methods on the SemanticKITTI dataset, achieving a mIoU of 25.1 while being 20 times faster than the best baseline, Co-Occ, making it suitable for real-time deployment on robots to enhance autonomous navigation efficiency. Code and video are available on our project page: https://jmwang0117.github.io/OccRWKV/.

arxiv情報

著者 Junming Wang,Wei Yin,Xiaoxiao Long,Xingyu Zhang,Zebin Xing,Xiaoyang Guo,Qian Zhang
発行日 2024-10-01 20:56:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | コメントする

An Approach to Elicit Human-Understandable Robot Expressions to Support Human-Robot Interaction

要約

人間とロボットの自然でシームレスなコラボレーションには、ロボットの意図を理解することが不可欠です。
ロボットに非言語コミュニケーション手段を確保することは、直感的かつ暗黙的な対話の基礎となります。
このために、私たちは人間が理解できるロボット表現を導き出し、設計するアプローチを提供します。
非ヒューマノイド ロボットのコンテキストでアプローチの概要を説明します。
私たちは人間の模倣と演技を、ジェスチャー誘発の 2 段階の研究と組み合わせました。第 1 段階では表現を引き出し、第 2 段階ではそれが理解できることを確認しました。
単純な 6-DoF ロボット アームの式を導き出すアプローチの 2 つの研究 (N=16 \& N=260) を通じて応用例を示します。
これにより、注意を引くことへの好奇心や関心を示すロボットの表現をデザインできることを示します。
私たちの主な貢献は、ロボットのための理解可能な表現を生成および検証し、より自然な人間とロボットのインタラクションを可能にするアプローチです。

要約(オリジナル)

Understanding the intentions of robots is essential for natural and seamless human-robot collaboration. Ensuring that robots have means for non-verbal communication is a basis for intuitive and implicit interaction. For this, we contribute an approach to elicit and design human-understandable robot expressions. We outline the approach in the context of non-humanoid robots. We paired human mimicking and enactment with research from gesture elicitation in two phases: first, to elicit expressions, and second, to ensure they are understandable. We present an example application through two studies (N=16 \& N=260) of our approach to elicit expressions for a simple 6-DoF robotic arm. We show that it enabled us to design robot expressions that signal curiosity and interest in getting attention. Our main contribution is an approach to generate and validate understandable expressions for robots, enabling more natural human-robot interaction.

arxiv情報

著者 Jan Leusmann,Steeven Villa,Thomas Liang,Chao Wang,Albrecht Schmidt,Sven Mayer
発行日 2024-10-01 21:01:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.RO | コメントする

Two-Finger Soft Gripper Force Modulation via Kinesthetic Feedback

要約

私たちは、触覚センサーに依存せずに、2 本指グリッパーの柔らかい指と物体との間の接触力を調整する方法を研究します。
この研究は、接触検出に関する以前の結果のフォローアップです。
ここで、私たちの仮説は、指と物体の接触が検出されると、指の曲げ測定値と接触の瞬間の曲げとの間の望ましい差を維持するコントローラーが、接触力を維持および調整するのに十分であるというものです。
このアプローチは、単一のオブジェクトに接触しているときに両方の指に同時に適用できます。
私たちは仮説の検証に成功し、接触力とピーク引き抜き力の大きさと、乗算係数で表される望ましい差との関係を特徴づけました。
すべての結果は実際の物理デバイス上で実行されます。

要約(オリジナル)

We investigate a method to modulate contact forces between the soft fingers of a two-finger gripper and an object, without relying on tactile sensors. This work is a follow-up to our previous results on contact detection. Here, our hypothesis is that once the contact between a finger and an object is detected, a controller that keeps a desired difference between the finger bending measurement and its bending at the moment of contact is sufficient to maintain and modulate the contact force. This approach can be simultaneously applied to both fingers while getting in contact with a single object. We successfully tested the hypothesis, and characterized the contact and peak pull-out force magnitude vs. the desired difference expressed by a multiplicative factor. All of the results are performed on a real physical device.

arxiv情報

著者 Stephanie O. Herrera,Tae Myung Huh,Dejan Milutinovic
発行日 2024-10-01 21:19:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

RoTip: A Finger-Shaped Tactile Sensor with Active Rotation

要約

近年の光学式触覚センサー技術の進歩は、主にセンシング精度の向上とセンシング方式の範囲の拡大に重点が置かれています。
より巧みな操作の要件を満たすためには、触覚センサーをより動的にする動きがあるはずです。
この論文では、独立して制御されるジョイントとその表面全体で接触を感知する機能を備えた独自に設計された、新しい視覚ベースの触覚センサーである RoTip を紹介します。
センサーの回転機能は、物体の表面に接触しながらセンサーを動かすことができるため、日常の物体、特に薄くて柔軟な物体を操作する場合に特に重要です。
操作実験は、私たちが提案する RoTip が剛体および柔軟な物体を操作できることを実証しており、指全体の触覚フィードバックとアクティブな回転機能により、より複雑で正確な操作タスクを探索できる可能性があります。

要約(オリジナル)

In recent years, advancements in optical tactile sensor technology have primarily centred on enhancing sensing precision and expanding the range of sensing modalities. To meet the requirements for more skilful manipulation, there should be a movement towards making tactile sensors more dynamic. In this paper, we introduce RoTip, a novel vision-based tactile sensor that is uniquely designed with an independently controlled joint and the capability to sense contact over its entire surface. The rotational capability of the sensor is particularly crucial for manipulating everyday objects, especially thin and flexible ones, as it enables the sensor to mobilize while in contact with the object’s surface. The manipulation experiments demonstrate the ability of our proposed RoTip to manipulate rigid and flexible objects, and the full-finger tactile feedback and active rotation capabilities have the potential to explore more complex and precise manipulation tasks.

arxiv情報

著者 Xuyang Zhang,Jiaqi Jiang,Shan Luo
発行日 2024-10-01 21:28:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

Human-Robot Co-Transportation with Human Uncertainty-Aware MPC and Pose Optimization

要約

本稿では、移動ベースとロボットアームを備えたロボットマニピュレータに基づく人間とロボットの共同輸送のための新しい制御アルゴリズムを提案する。
主な焦点は、ロボットの全身運動学とポーズの最適化を通じて人間の不確実性に適応することです。
人間の不確実性を明示的にモデル化し、ロボット アームのポーズを最適化するために通常の MPC よりも追加の変数を含む拡張モデル予測制御 (MPC) 定式化を導入します。
私たちの方法論の中核には、2 段階の反復設計が含まれます。各計画期間で、候補セットからロボット アームの最適な姿勢 (関節角度の組み合わせ) を選択し、推定制御コストを最小限に抑えることを目指します。
この選択は、不確実性を考慮した離散代数リカッティ方程式 (DARE) を解くことに基づいており、移動ベースとロボット アームの両方に最適な制御入力も通知されます。
提案されたアプローチの有効性を検証するために、不確実性を考慮した DARE の理論的導出を提供し、さまざまな軌道やノイズ レベルなどのさまざまな条件下でフェッチ ロボットを使用してシミュレーション実験とハードウェア実験を実行します。
結果は、私たちが提案したアプローチがベースライン アルゴリズムを上回るパフォーマンスを示していることを示しています。

要約(オリジナル)

This paper proposes a new control algorithm for human-robot co-transportation based on a robot manipulator equipped with a mobile base and a robotic arm. The primary focus is to adapt to human uncertainties through the robot’s whole-body kinematics and pose optimization. We introduce an augmented Model Predictive Control (MPC) formulation that explicitly models human uncertainties and contains extra variables than regular MPC to optimize the pose of the robotic arm. The core of our methodology involves a two-step iterative design: At each planning horizon, we select the best pose of the robotic arm (joint angle combination) from a candidate set, aiming to achieve the lowest estimated control cost. This selection is based on solving an uncertainty-aware Discrete Algebraic Ricatti Equation (DARE), which also informs the optimal control inputs for both the mobile base and the robotic arm. To validate the effectiveness of the proposed approach, we provide theoretical derivation for the uncertainty-aware DARE and perform simulated and hardware experiments using a Fetch robot under varying conditions, including different trajectories and noise levels. The results reveal that our proposed approach outperforms baseline algorithms.

arxiv情報

著者 Al Jaber Mahmud,Amir Hossain Raj,Duc M. Nguyen,Xuesu Xiao,Xuan Wang
発行日 2024-10-01 21:54:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

Exploring How Non-Prehensile Manipulation Expands Capability in Robots Experiencing Multi-Joint Failure

要約

この研究では、多関節ロック (LMJ) の障害が発生してもロボットマニピュレーターが操作タスクを実行できるようにするための戦略として、非把握的マニピュレーション (NPM) と全身インタラクションを検討しています。
LMJ は、2 つ以上のジョイントが動作不能になる重大なシステム障害です。
これらはロボットの構成と制御空間に制約を課し、その結果、把握のみのアプローチの能力と範囲が制限されます。
このアプローチには、次の 3 つのコンポーネントが含まれます。i) ロボットの故障が制約されたワークスペースのモデル化、ii) このワークスペース内の NPM アクションの運動力学マップの生成、および iii) シミュレーションインザループ アプローチを使用する操作アクション プランナー
運動力学マップから実行する最適なアクションを選択します。
実験による評価では、私たちのアプローチにより、LMJ ケースにおける故障が制限された到達可能領域を 79% 増加できることが示されています。
さらに、エンドエフェクターが使用できない場合は最大 88.9% の成功率、使用可能な場合は最大 100% の成功率で現実世界の操作を完了する能力を実証します。

要約(オリジナル)

This work explores non-prehensile manipulation (NPM) and whole-body interaction as strategies for enabling robotic manipulators to conduct manipulation tasks despite experiencing locked multi-joint (LMJ) failures. LMJs are critical system faults where two or more joints become inoperable; they impose constraints on the robot’s configuration and control spaces, consequently limiting the capability and reach of a prehensile-only approach. This approach involves three components: i) modeling the failure-constrained workspace of the robot, ii) generating a kinodynamic map of NPM actions within this workspace, and iii) a manipulation action planner that uses a sim-in-the-loop approach to select the best actions to take from the kinodynamic map. The experimental evaluation shows that our approach can increase the failure-constrained reachable area in LMJ cases by 79%. Further, it demonstrates the ability to complete real-world manipulation with up to 88.9% success when the end-effector is unusable and up to 100% success when it is usable.

arxiv情報

著者 Gilberto Briscoe-Martinez,Anuj Pasricha,Ava Abderezaei,Santosh Chaganti,Sarath Chandra Vajrala,Sri Kanth Popuri,Alessandro Roncone
発行日 2024-10-01 22:17:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

M2P2: A Multi-Modal Passive Perception Dataset for Off-Road Mobility in Extreme Low-Light Conditions

要約

長時間にわたるオフロードの自律ミッションでは、ロボットが周囲の照明条件に関係なく周囲を継続的に認識する必要があります。
既存の自律システムのほとんどは、環境の幾何学形状とセマンティクスを認識するために、LiDAR、RADAR、飛行時間センサーなどのアクティブ センシングに大きく依存するか、カラー カメラなどの (ステレオ) 可視光イメージング センサーを使用します。
完全に受動的な知覚が必要で、可視光カメラが認識できない程度に照明条件が悪化するシナリオでは、障害物回避などの下流のモビリティタスクのほとんどが不可能になります。
このような課題に対処するために、この論文では、薄明かりから無光の状態でのオフロードモビリティを可能にするマルチモーダル受動的知覚データセット M2P2 を紹介します。
当社は、サーマル、イベント、ステレオ RGB カメラ、GPS、2 つの慣性測定ユニット (IMU)、およびグランド トゥルース用の高解像度 LiDAR を含むマルチモーダル センサー スイートを、新しいマルチセンサー キャリブレーション手順を使用して設計します。
マルチモーダルな知覚ストリームを共通の座標系に効率的に変換します。
当社の 10 時間、32 km のデータセットには、ロボットのオドメトリやアクションなどのモビリティ データも含まれており、明るい場所、暗い場所、光のない状態、さらに舗装された場所、トレイル上、トレイル外の地形もカバーしています。
私たちの結果は、エンドツーエンドの学習と古典的な計画を使用した極度の低照度条件下での受動的な知覚のみによってオフロードモビリティが可能であることを示しています。
プロジェクトの Web サイトは https://cs.gmu.edu/~xiao/Research/M2P2/ にあります。

要約(オリジナル)

Long-duration, off-road, autonomous missions require robots to continuously perceive their surroundings regardless of the ambient lighting conditions. Most existing autonomy systems heavily rely on active sensing, e.g., LiDAR, RADAR, and Time-of-Flight sensors, or use (stereo) visible light imaging sensors, e.g., color cameras, to perceive environment geometry and semantics. In scenarios where fully passive perception is required and lighting conditions are degraded to an extent that visible light cameras fail to perceive, most downstream mobility tasks such as obstacle avoidance become impossible. To address such a challenge, this paper presents a Multi-Modal Passive Perception dataset, M2P2, to enable off-road mobility in low-light to no-light conditions. We design a multi-modal sensor suite including thermal, event, and stereo RGB cameras, GPS, two Inertia Measurement Units (IMUs), as well as a high-resolution LiDAR for ground truth, with a novel multi-sensor calibration procedure that can efficiently transform multi-modal perceptual streams into a common coordinate system. Our 10-hour, 32 km dataset also includes mobility data such as robot odometry and actions and covers well-lit, low-light, and no-light conditions, along with paved, on-trail, and off-trail terrain. Our results demonstrate that off-road mobility is possible through only passive perception in extreme low-light conditions using end-to-end learning and classical planning. The project website can be found at https://cs.gmu.edu/~xiao/Research/M2P2/

arxiv情報

著者 Aniket Datar,Anuj Pokhrel,Mohammad Nazeri,Madhan B. Rao,Chenhui Pan,Yufan Zhang,Andre Harrison,Maggie Wigness,Philip R. Osteen,Jinwei Ye,Xuesu Xiao
発行日 2024-10-01 22:28:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

Learning to Build by Building Your Own Instructions

要約

複雑な視覚オブジェクトの構造的理解は、人工知能の重要な未解決の要素です。
これを研究するために、LTRON で最近提案された Break-and-Make 問題に対する新しい手法を開発しました。この問題では、エージェントは、コンポーネントとその構造に関する情報を収集するために、単一の対話型セッションを使用して、これまで見たことのない LEGO アセンブリを構築する方法を学習する必要があります。
私たちは、独自の視覚的な説明書を作成できる \textbf{\ours} と呼ばれるエージェントを構築することで、この問題に取り組みます。
目に見えないアセンブリを逆アセンブルし、そのイメージを定期的に保存することで、エージェントは一連の命令を作成して、再構築に必要な情報を得ることができます。
これらの命令は、モデルが一度に 1 ステップずつ組み立てプロセスについて推論できるようにする明示的な記憶を形成し、長期にわたる暗黙的な記憶の必要性を回避します。
これにより、これまで可能であったものよりもはるかに大きなレゴ アセンブリでトレーニングできるようになります。
このモデルの力を実証するために、手順に従って構築されたレゴ車両の新しいデータセットをリリースします。このデータセットには、それぞれ平均 31 個のレンガが含まれており、分解と再組み立てには 100 ステップ以上が必要です。
これらのモデルは、モデル自身の間違いから学習できるオンライン模倣学習を使用してトレーニングされます。
最後に、学習環境を簡素化し、使いやすさを向上させる、LTRON と Break-and-Make 問題に対する小さな改善もいくつか提供します。

要約(オリジナル)

Structural understanding of complex visual objects is an important unsolved component of artificial intelligence. To study this, we develop a new technique for the recently proposed Break-and-Make problem in LTRON where an agent must learn to build a previously unseen LEGO assembly using a single interactive session to gather information about its components and their structure. We attack this problem by building an agent that we call \textbf{\ours} that is able to make its own visual instruction book. By disassembling an unseen assembly and periodically saving images of it, the agent is able to create a set of instructions so that it has the information necessary to rebuild it. These instructions form an explicit memory that allows the model to reason about the assembly process one step at a time, avoiding the need for long-term implicit memory. This in turn allows us to train on much larger LEGO assemblies than has been possible in the past. To demonstrate the power of this model, we release a new dataset of procedurally built LEGO vehicles that contain an average of 31 bricks each and require over one hundred steps to disassemble and reassemble. We train these models using online imitation learning which allows the model to learn from its own mistakes. Finally, we also provide some small improvements to LTRON and the Break-and-Make problem that simplify the learning environment and improve usability.

arxiv情報

著者 Aaron Walsman,Muru Zhang,Adam Fishman,Ali Farhadi,Dieter Fox
発行日 2024-10-01 22:39:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | コメントする

Affordance-Guided Reinforcement Learning via Visual Prompting

要約

強化学習 (RL) を備えたロボットは、報酬信号だけから幅広いスキルを学習できる可能性があります。
ただし、一般的な操作タスクで堅牢かつ高密度の報酬信号を取得することは依然として課題です。
既存の学習ベースのアプローチでは、タスク固有の報酬関数を学習するために、人間による成功と失敗のデモンストレーションなどの重要なデータが必要です。
最近では、物理的コンテキストで視覚的推論を実行し、操作タスクのための粗いロボットの動きを生成できる、ロボット工学のための大規模なマルチモーダル基礎モデルの採用も増えています。
この範囲の機能を動機として、この研究では、自律型 RL のビジョン言語モデル (VLM) によって形成された報酬を活用する方法である、キーポイントベースの改善のためのアフォーダンス ガイダンス (KAGI) を紹介します。
最先端の VLM は、ゼロショットのキーポイントを通じてアフォーダンスに関する印象的な推論を実証しており、私たちはこれらを使用して、自律的なロボット学習を導く高密度の報酬を定義します。
自然言語記述によって指定された現実世界の操作タスクにおいて、KAGI は自律 RL のサンプル効率を向上させ、20K のオンライン微調整ステップでタスクを正常に完了できるようにします。
さらに、事前トレーニングに使用されるドメイン内デモンストレーションの数の削減に対する KAGI の堅牢性を実証し、35,000 のオンライン微調整ステップで同様のパフォーマンスに達します。
プロジェクトのウェブサイト: https://sites.google.com/view/affordance-guided-rl

要約(オリジナル)

Robots equipped with reinforcement learning (RL) have the potential to learn a wide range of skills solely from a reward signal. However, obtaining a robust and dense reward signal for general manipulation tasks remains a challenge. Existing learning-based approaches require significant data, such as human demonstrations of success and failure, to learn task-specific reward functions. Recently, there is also a growing adoption of large multi-modal foundation models for robotics that can perform visual reasoning in physical contexts and generate coarse robot motions for manipulation tasks. Motivated by this range of capability, in this work, we present Keypoint-based Affordance Guidance for Improvements (KAGI), a method leveraging rewards shaped by vision-language models (VLMs) for autonomous RL. State-of-the-art VLMs have demonstrated impressive reasoning about affordances through keypoints in zero-shot, and we use these to define dense rewards that guide autonomous robotic learning. On real-world manipulation tasks specified by natural language descriptions, KAGI improves the sample efficiency of autonomous RL and enables successful task completion in 20K online fine-tuning steps. Additionally, we demonstrate the robustness of KAGI to reductions in the number of in-domain demonstrations used for pre-training, reaching similar performance in 35K online fine-tuning steps. Project website: https://sites.google.com/view/affordance-guided-rl

arxiv情報

著者 Olivia Y. Lee,Annie Xie,Kuan Fang,Karl Pertsch,Chelsea Finn
発行日 2024-10-02 00:40:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | コメントする