RefAV: Towards Planning-Centric Scenario Mining

要約

自動運転車(AVS)は、通常の艦隊テスト中にHDマップにローカライズされたマルチモーダルデータのテラバイトを収集し、擬似ラベルテラバイトを収集します。
ただし、未発行の運転ログから興味深く安全性の高いシナリオを特定することは、依然として重要な課題です。
従来のシナリオマイニング技術はエラーが発生しやすく、時間がかかることはありますが、多くの場合、手作りの構造化されたクエリに依存しています。
この作業では、最近の視覚言語モデル(VLM)のレンズを介して時空間シナリオマイニングを再訪して、説明されたシナリオが駆動ログで発生するかどうかを検出し、もしそうなら、時間と空間の両方で正確にローカライズします。
この問題に対処するために、Argoverse 2センサーデータセットの1000の駆動ログから派生したモーション計画に関連する複雑なマルチエージェント相互作用を説明する10,000個の多様な自然言語クエリの大規模なデータセットであるRefavを紹介します。
いくつかの参照マルチオブジェクトトラッカーを評価し、ベースラインの経験的分析を提示します。
特に、既製のVLMSの素朴な再利用によりパフォーマンスが低下することがわかり、シナリオマイニングがユニークな課題をもたらすことを示唆しています。
コードとデータセットはhttps://github.com/cainand/refav/およびhttps://argoverse.github.io/user-guide/tasks/scenario_mining.htmlで入手できます。

要約(オリジナル)

Autonomous Vehicles (AVs) collect and pseudo-label terabytes of multi-modal data localized to HD maps during normal fleet testing. However, identifying interesting and safety-critical scenarios from uncurated driving logs remains a significant challenge. Traditional scenario mining techniques are error-prone and prohibitively time-consuming, often relying on hand-crafted structured queries. In this work, we revisit spatio-temporal scenario mining through the lens of recent vision-language models (VLMs) to detect whether a described scenario occurs in a driving log and, if so, precisely localize it in both time and space. To address this problem, we introduce RefAV, a large-scale dataset of 10,000 diverse natural language queries that describe complex multi-agent interactions relevant to motion planning derived from 1000 driving logs in the Argoverse 2 Sensor dataset. We evaluate several referential multi-object trackers and present an empirical analysis of our baselines. Notably, we find that naively repurposing off-the-shelf VLMs yields poor performance, suggesting that scenario mining presents unique challenges. Our code and dataset are available at https://github.com/CainanD/RefAV/ and https://argoverse.github.io/user-guide/tasks/scenario_mining.html

arxiv情報

著者 Cainan Davidson,Deva Ramanan,Neehar Peri
発行日 2025-05-27 10:14:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.RO | RefAV: Towards Planning-Centric Scenario Mining はコメントを受け付けていません

Efficient Robotic Policy Learning via Latent Space Backward Planning

要約

現在のロボット計画方法は、多くの場合、完全なピクセルの詳細でマルチフレーム画像を予測することに依存しています。
このきめの細かいアプローチは一般的な世界モデルとして機能しますが、下流のポリシー学習に2つの重要な課題を導入します。リアルタイムの展開を妨げる実質的な計算コストと、アクション抽出を誤解させる可能性のある不正確さを蓄積します。
粗粒のサブゴールを計画することは、効率性の問題を部分的に軽減します。
ただし、彼らの将来の計画スキームは、蓄積エラーのために依然としてオフタスクの予測をもたらす可能性があり、長期的な目標の誤りをつなぐことができます。
これは重要な疑問を提起します。ロボット計画は、長老のマルチステージタスクでのリアルタイム制御に十分な効率的かつ正確である可能性がありますか?
これに対処するために、タスクを最終的な潜在的な目標に接地することから始まり、その後の中間サブゴールを現在の状態に近い予測することから始まる潜在スペース後方計画スキーム(LBP)を提案します。
接地された最終目標により、後方のサブゴール計画は常にタスクの完了を認識し、計画の地平線全体に沿ってタスク上の予測を促進することができます。
サブゴール条件付きポリシーには、学習可能なトークンが組み込まれており、サブゴールシーケンスを要約し、各サブゴールがアクション抽出をガイドする方法を決定します。
大規模なシミュレーションとリアルロボットの長老型実験を通じて、LBPは既存の微細な計画方法を上回り、SOTAパフォーマンスを達成することを示しています。
プロジェクトページ:https://lbp-authors.github.io

要約(オリジナル)

Current robotic planning methods often rely on predicting multi-frame images with full pixel details. While this fine-grained approach can serve as a generic world model, it introduces two significant challenges for downstream policy learning: substantial computational costs that hinder real-time deployment, and accumulated inaccuracies that can mislead action extraction. Planning with coarse-grained subgoals partially alleviates efficiency issues. However, their forward planning schemes can still result in off-task predictions due to accumulation errors, leading to misalignment with long-term goals. This raises a critical question: Can robotic planning be both efficient and accurate enough for real-time control in long-horizon, multi-stage tasks? To address this, we propose a Latent Space Backward Planning scheme (LBP), which begins by grounding the task into final latent goals, followed by recursively predicting intermediate subgoals closer to the current state. The grounded final goal enables backward subgoal planning to always remain aware of task completion, facilitating on-task prediction along the entire planning horizon. The subgoal-conditioned policy incorporates a learnable token to summarize the subgoal sequences and determines how each subgoal guides action extraction. Through extensive simulation and real-robot long-horizon experiments, we show that LBP outperforms existing fine-grained and forward planning methods, achieving SOTA performance. Project Page: https://lbp-authors.github.io

arxiv情報

著者 Dongxiu Liu,Haoyi Niu,Zhihao Wang,Jinliang Zheng,Yinan Zheng,Zhonghong Ou,Jianming Hu,Jianxiong Li,Xianyuan Zhan
発行日 2025-05-27 10:30:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO | Efficient Robotic Policy Learning via Latent Space Backward Planning はコメントを受け付けていません

Visuospatial Cognitive Assistant

要約

ビデオベースの空間認知は、ロボット工学と具体化されたAIにとって不可欠ですが、現在の視覚言語モデル(VLM)に挑戦しています。
この論文は、2つの重要な貢献をしています。
まず、VICA(視覚空間認知アシスタント)-322Kを紹介します。322K、実際の屋内ビデオ(Arkitscenes、Scannet、Scannet ++)の322,003 QAペアの多様なデータセットを紹介し、3Dメタデータベースの複雑な推論の監督を提供します。
第二に、VICA-322Kで微調整されたVICA-7Bを開発します。VICA-322Kは、8つのVSIベンチタスクすべてで新しい最先端を達成し、より大きなモデルを含む既存のモデルを上回ります(たとえば、絶対距離で+26.1)。
解釈可能性のために、明示的な推論チェーンを備えたデータセットであるVICA-Thinking-2.68Kを提示し、VICA-7Bを微調整して、その空間推論を明確にするモデルであるVICA-7B考えを作成します。
私たちの研究は、ターゲットデータの重要性を強調し、時間的空間モデリングを改善するためのパスを提案しています。
すべてのリソースをリリースして、堅牢な視覚空間情報の研究を促進します。

要約(オリジナル)

Video-based spatial cognition is vital for robotics and embodied AI but challenges current Vision-Language Models (VLMs). This paper makes two key contributions. First, we introduce ViCA (Visuospatial Cognitive Assistant)-322K, a diverse dataset of 322,003 QA pairs from real-world indoor videos (ARKitScenes, ScanNet, ScanNet++), offering supervision for 3D metadata-grounded queries and video-based complex reasoning. Second, we develop ViCA-7B, fine-tuned on ViCA-322K, which achieves new state-of-the-art on all eight VSI-Bench tasks, outperforming existing models, including larger ones (e.g., +26.1 on Absolute Distance). For interpretability, we present ViCA-Thinking-2.68K, a dataset with explicit reasoning chains, and fine-tune ViCA-7B to create ViCA-7B-Thinking, a model that articulates its spatial reasoning. Our work highlights the importance of targeted data and suggests paths for improved temporal-spatial modeling. We release all resources to foster research in robust visuospatial intelligence.

arxiv情報

著者 Qi Feng
発行日 2025-05-27 10:59:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.RO | Visuospatial Cognitive Assistant はコメントを受け付けていません

Towards Visuospatial Cognition via Hierarchical Fusion of Visual Experts

要約

マルチモーダルの大手言語モデル(MLLM)は一般的なビジョン言語タスクに優れていますが、視覚空間認知 – 空間レイアウト、関係、ダイナミクスに関する推論 – は依然として重要な課題です。
多くの場合、既存のモデルには、必要なアーキテクチャコンポーネントと、きめ細かい空間的理解のための専門的なトレーニングデータが欠けています。
空間推論を強化するために設計された新規MLLMであるVICA2(視覚空間認知アシスタント2)を紹介します。
VICA2は、セマンティクス用のSiglipと空間構造のhieraを統合するデュアルビジョンエンコーダーアーキテクチャを備えており、効率のためのトークン比制御メカニズムと組み合わせています。
また、ターゲット命令チューニングのために322,000を超える空間的に接地された質問回答ペアを備えた新しい大規模なデータセットであるVICA-322Kも開発しました。
挑戦的なVSIベンチベンチマークでは、VICA2-7Bモデルは最先端の平均スコア56.8を達成し、大規模なオープンソースモデル(LLAVA-Next-Video-72B、40.9など)および主要な専有モデル(Gemini-1.5 Pro、45.4)を大幅に上回ります。
これは、コンパクトモデルで強力な視覚空間知能を達成する際のアプローチの有効性を示しています。
さらなる研究を促進するために、VICA2、そのコードベース、およびVICA-322Kデータセットをリリースします。

要約(オリジナル)

While Multimodal Large Language Models (MLLMs) excel at general vision-language tasks, visuospatial cognition – reasoning about spatial layouts, relations, and dynamics – remains a significant challenge. Existing models often lack the necessary architectural components and specialized training data for fine-grained spatial understanding. We introduce ViCA2 (Visuospatial Cognitive Assistant 2), a novel MLLM designed to enhance spatial reasoning. ViCA2 features a dual vision encoder architecture integrating SigLIP for semantics and Hiera for spatial structure, coupled with a token ratio control mechanism for efficiency. We also developed ViCA-322K, a new large-scale dataset with over 322,000 spatially grounded question-answer pairs for targeted instruction tuning. On the challenging VSI-Bench benchmark, our ViCA2-7B model achieves a state-of-the-art average score of 56.8, significantly surpassing larger open-source models (e.g., LLaVA-NeXT-Video-72B, 40.9) and leading proprietary models (Gemini-1.5 Pro, 45.4). This demonstrates the effectiveness of our approach in achieving strong visuospatial intelligence with a compact model. We release ViCA2, its codebase, and the ViCA-322K dataset to facilitate further research.

arxiv情報

著者 Qi Feng
発行日 2025-05-27 11:10:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.RO | Towards Visuospatial Cognition via Hierarchical Fusion of Visual Experts はコメントを受け付けていません

Visual Cues Enhance Predictive Turn-Taking for Two-Party Human Interaction

要約

ターンテイクは豊富にマルチモーダルです。
予測的なターンテイキングモデル(PTTM)は、自然主義的な人間とロボットの相互作用を促進しますが、ほとんどは発話のみに依存しています。
音声と表情、ヘッドポーズ、視線などの視覚的な手がかりを組み合わせたマルチモーダルPTTMであるMM-VAPを紹介します。
ビデオ会議の相互作用の最先端のオーディオのみを上回ることがわかります(84%対79%の保留/シフト予測の精度)。
すべてのホールドとシフトを集約する以前の作業とは異なり、私たちはターン間の沈黙の期間単位でグループ化します。
これは、視覚的な機能を含めることにより、MM-VAPがスピーカーの移行のすべての期間にわたって最先端のオーディオのみのターンテイキングモデルを上回ることを明らかにしています。
詳細なアブレーション研究を実施します。これは、表情の特徴がモデルのパフォーマンスに最も貢献することを明らかにしています。
したがって、私たちの作業仮説は、対話者が互いに見える場合、ターンテイクに視覚的な手がかりが不可欠であり、したがって正確なターンテーキング予測のために含める必要があるということです。
さらに、電話スピーチを使用したPTTMトレーニングの自動音声アライメントの適合性を検証します。
この作業は、マルチモーダルPTTMの最初の包括的な分析を表しています。
将来の仕事への影響について説明し、すべてのコードを公開します。

要約(オリジナル)

Turn-taking is richly multimodal. Predictive turn-taking models (PTTMs) facilitate naturalistic human-robot interaction, yet most rely solely on speech. We introduce MM-VAP, a multimodal PTTM which combines speech with visual cues including facial expression, head pose and gaze. We find that it outperforms the state-of-the-art audio-only in videoconferencing interactions (84% vs. 79% hold/shift prediction accuracy). Unlike prior work which aggregates all holds and shifts, we group by duration of silence between turns. This reveals that through the inclusion of visual features, MM-VAP outperforms a state-of-the-art audio-only turn-taking model across all durations of speaker transitions. We conduct a detailed ablation study, which reveals that facial expression features contribute the most to model performance. Thus, our working hypothesis is that when interlocutors can see one another, visual cues are vital for turn-taking and must therefore be included for accurate turn-taking prediction. We additionally validate the suitability of automatic speech alignment for PTTM training using telephone speech. This work represents the first comprehensive analysis of multimodal PTTMs. We discuss implications for future work and make all code publicly available.

arxiv情報

著者 Sam O’Connor Russell,Naomi Harte
発行日 2025-05-27 11:24:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.RO | Visual Cues Enhance Predictive Turn-Taking for Two-Party Human Interaction はコメントを受け付けていません

A domain adaptation neural network for digital twin-supported fault diagnosis

要約

デジタルツインは、モデルトレーニングのシミュレーションデータを生成することにより、深い学習ベースの障害診断に十分なラベル付きデータがないことに対する有望なソリューションを提供します。
ただし、シミュレーションと現実世界のシステムの不一致は、実際のシナリオでモデルが適用されると、パフォーマンスが大幅に低下する可能性があります。
この問題に対処するために、シミュレーション(ソースドメイン)から実世界(ターゲットドメイン)データへの知識転送を可能にするドメイン副産物ニューラルネットワーク(DANN)に基づいた障害診断フレームワークを提案します。
公開されているロボット障害障害診断データセットを使用して提案されたフレームワークを評価します。これには、デジタルツインモデルによって生成された3,600のシーケンスと、物理システムから収集された90の実際のシーケンスが含まれます。
DANNメソッドは、CNN、TCN、トランス、LSTMなどの一般的に使用される軽量の深い学習モデルと比較されます。
実験結果は、ドメインの適応を組み込むことで診断パフォーマンスが大幅に向上することを示しています。
たとえば、DANNをベースラインCNNモデルに適用すると、実際のテストデータの精度が70.00%から80.22%に向上し、SIMからリアルのギャップを埋める際のドメイン適応の有効性が示されます。

要約(オリジナル)

Digital twins offer a promising solution to the lack of sufficient labeled data in deep learning-based fault diagnosis by generating simulated data for model training. However, discrepancies between simulation and real-world systems can lead to a significant drop in performance when models are applied in real scenarios. To address this issue, we propose a fault diagnosis framework based on Domain-Adversarial Neural Networks (DANN), which enables knowledge transfer from simulated (source domain) to real-world (target domain) data. We evaluate the proposed framework using a publicly available robotics fault diagnosis dataset, which includes 3,600 sequences generated by a digital twin model and 90 real sequences collected from physical systems. The DANN method is compared with commonly used lightweight deep learning models such as CNN, TCN, Transformer, and LSTM. Experimental results show that incorporating domain adaptation significantly improves the diagnostic performance. For example, applying DANN to a baseline CNN model improves its accuracy from 70.00% to 80.22% on real-world test data, demonstrating the effectiveness of domain adaptation in bridging the sim-to-real gap.

arxiv情報

著者 Zhenling Chen,Haiwei Fu,Zhiguo Zeng
発行日 2025-05-27 11:27:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO, cs.SY, eess.SY | A domain adaptation neural network for digital twin-supported fault diagnosis はコメントを受け付けていません

Human-Centered Development of Guide Dog Robots: Quiet and Stable Locomotion Control

要約

四足動物は、その類似のフォームファクターのために、犬のガイドに匹敵する支援を提供できる有望なシステムです。
ただし、これらのロボットをブラインドおよび低ビジョン(BLV)の個人にとって信頼できるオプションにすることには、さまざまな課題が残っています。
これらの課題の中で、ウォーキング中の騒音とぎくしゃくした動きは、既存の四足動物の重要な欠点があります。
これらの問題は盲導犬のロボットの研究ではほとんど見落とされていますが、ガイドドッグハンドラーやトレーナーとのインタビューは、ナビゲーションのために環境音に大きく依存しているBLVの個人にとって、音響および身体障害が特に破壊的であることを明らかにしました。
これらの問題に対処するために、人間の歩行速度を維持しながら、堅牢で安定したバランスコントロールを維持しながら、ゆっくりと足を踏み入れ、足のスイング/接触を滑らかにするための新しいウォーキングコントローラーを開発しました。
コントローラーは、知覚システムと統合して、階段などの非フラット地形の移動を促進します。
私たちのコントローラーは、Unitree GO1ロボットで広範囲にテストされ、他の制御方法と比較すると、デフォルトの移動コントローラーの半分である大幅な騒音削減が示されました。
この研究では、混合メソッドアプローチを採用して、BLV個人との使いやすさを評価します。
屋内ウォーキング実験では、参加者はコントローラーをロボットのデフォルトコントローラーと比較しました。
結果は、コントローラーの優れた受け入れを示し、盲導犬のロボットのユーザーエクスペリエンスを改善する可能性を強調しました。
ビデオデモンストレーション(オーディオで最もよく見る)は、https://youtu.be/8-pz_8hqe6sで入手可能です。

要約(オリジナル)

A quadruped robot is a promising system that can offer assistance comparable to that of dog guides due to its similar form factor. However, various challenges remain in making these robots a reliable option for blind and low-vision (BLV) individuals. Among these challenges, noise and jerky motion during walking are critical drawbacks of existing quadruped robots. While these issues have largely been overlooked in guide dog robot research, our interviews with guide dog handlers and trainers revealed that acoustic and physical disturbances can be particularly disruptive for BLV individuals, who rely heavily on environmental sounds for navigation. To address these issues, we developed a novel walking controller for slow stepping and smooth foot swing/contact while maintaining human walking speed, as well as robust and stable balance control. The controller integrates with a perception system to facilitate locomotion over non-flat terrains, such as stairs. Our controller was extensively tested on the Unitree Go1 robot and, when compared with other control methods, demonstrated significant noise reduction — half of the default locomotion controller. In this study, we adopt a mixed-methods approach to evaluate its usability with BLV individuals. In our indoor walking experiments, participants compared our controller to the robot’s default controller. Results demonstrated superior acceptance of our controller, highlighting its potential to improve the user experience of guide dog robots. Video demonstration (best viewed with audio) available at: https://youtu.be/8-pz_8Hqe6s.

arxiv情報

著者 Shangqun Yu,Hochul Hwang,Trung M. Dang,Joydeep Biswas,Nicholas A. Giudice,Sunghoon Ivan Lee,Donghyun Kim
発行日 2025-05-27 12:30:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.RO | Human-Centered Development of Guide Dog Robots: Quiet and Stable Locomotion Control はコメントを受け付けていません

CoBOS: Constraint-Based Online Scheduler for Human-Robot Collaboration

要約

個々の活動と共有ワークスペースへのアクセスを調整する必要があるため、人間とロボットを含むアセンブリプロセスは挑戦的なシナリオです。
固定ロボットプログラムは、固定プロトコルから分岐する余地を残しません。
このようなプロセスに取り組むことは、ユーザーにとってストレスがかかり、効果のない動作や失敗につながる可能性があります。
Cobosと呼ばれる動作ツリーを促進するリアクティブ実行制御フレームワークにおけるオンライン制約ベースのスケジューリングの新しいアプローチを提案します。
これにより、ロボットは、アクティビティの完了やアクティビティ選択の遅延(人間)などの不確実なイベントに適応することができます。
ロボットの同僚が行動を適応させるために、人間が選択した活動を最もよく補完するために共通のタスクを完了するため、ユーザーはストレスが少なくなります。
労働条件の改善に加えて、私たちのアルゴリズムは、非常に不確実なシナリオでさえ、効率の向上につながります。
56000の実験で確率的シミュレーション研究を使用してアルゴリズムを評価します。
他のすべての比較方法を4〜10%のマージンで上回ります。
フランカエミカパンダロボットを使用した最初の実際のロボット実験と、HTC Vive VRグローブに基づく人間の追跡は有望に見えます。

要約(オリジナル)

Assembly processes involving humans and robots are challenging scenarios because the individual activities and access to shared workspace have to be coordinated. Fixed robot programs leave no room to diverge from a fixed protocol. Working on such a process can be stressful for the user and lead to ineffective behavior or failure. We propose a novel approach of online constraint-based scheduling in a reactive execution control framework facilitating behavior trees called CoBOS. This allows the robot to adapt to uncertain events such as delayed activity completions and activity selection (by the human). The user will experience less stress as the robotic coworkers adapt their behavior to best complement the human-selected activities to complete the common task. In addition to the improved working conditions, our algorithm leads to increased efficiency, even in highly uncertain scenarios. We evaluate our algorithm using a probabilistic simulation study with 56000 experiments. We outperform all other compared methods by a margin of 4-10%. Initial real robot experiments using a Franka Emika Panda robot and human tracking based on HTC Vive VR gloves look promising.

arxiv情報

著者 Marina Ionova,Jan Kristof Behrens
発行日 2025-05-27 12:46:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | CoBOS: Constraint-Based Online Scheduler for Human-Robot Collaboration はコメントを受け付けていません

A Distributional Treatment of Real2Sim2Real for Object-Centric Agent Adaptation in Vision-Driven Deformable Linear Object Manipulation

要約

視覚的知覚に基づいて変形可能な線形オブジェクト(DLO)を操作するというREAL2SIM2REAL問題の統合(またはエンドツーエンド)フレームワークを提示します。
パラメーター化されたDLOSセットを使用して、尤度なしの推論(LFI)を使用して、各特定のDLOの動作をほぼシミュレートできる物理パラメーターの後方分布を計算します。
モデルのない強化学習を使用して、DLOに到達するタスクのために、トレーニング、シミュレーション、オブジェクト固有の視覚運動ポリシー(つまり、視覚的および固有受容感覚のみを想定する)(つまり、視覚的および固有受容感覚のみを想定する)の間、ドメインのランダム化にこれらの事後を使用します。
SIMトレーニングを受けたDLO操作ポリシーをゼロショット方法で、つまりそれ以上の微調整なしで展開することにより、このアプローチの有用性を実証します。
これに関連して、動的操作軌道で得られた視覚的および固有受容データのみを使用して、DLOSのパラメトリックセットに対して微分類を実行する顕著なLFIメソッドの能力を評価します。
次に、SIMベースのポリシー学習と現実世界のパフォーマンスにおける結果のドメイン分布の意味を研究します。

要約(オリジナル)

We present an integrated (or end-to-end) framework for the Real2Sim2Real problem of manipulating deformable linear objects (DLOs) based on visual perception. Working with a parameterised set of DLOs, we use likelihood-free inference (LFI) to compute the posterior distributions for the physical parameters using which we can approximately simulate the behaviour of each specific DLO. We use these posteriors for domain randomisation while training, in simulation, object-specific visuomotor policies (i.e. assuming only visual and proprioceptive sensory) for a DLO reaching task, using model-free reinforcement learning. We demonstrate the utility of this approach by deploying sim-trained DLO manipulation policies in the real world in a zero-shot manner, i.e. without any further fine-tuning. In this context, we evaluate the capacity of a prominent LFI method to perform fine classification over the parametric set of DLOs, using only visual and proprioceptive data obtained in a dynamic manipulation trajectory. We then study the implications of the resulting domain distributions in sim-based policy learning and real-world performance.

arxiv情報

著者 Georgios Kamaras,Subramanian Ramamoorthy
発行日 2025-05-27 12:56:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | A Distributional Treatment of Real2Sim2Real for Object-Centric Agent Adaptation in Vision-Driven Deformable Linear Object Manipulation はコメントを受け付けていません

Predicate Invention for Bilevel Planning

要約

遷移モデルが決定論的で既知である場合でも、継続的な状態およびアクションスペースでの効率的な計画は根本的に困難です。
この課題を緩和する1つの方法は、抽象化を使用して抽象的な計画を実行することで、抽象計画の高レベルの検索を使用して、元の移行スペースで計画を導くことです。
以前の研究では、象徴的な述語の形での状態抽象化が手描きである場合、デモからバイレベル計画のためのオペレーターとサンプラーを学ぶことができることが示されています。
この作業では、デモンストレーションから述語を学習するためのアルゴリズムを提案し、手動で指定された状態抽象化の必要性を排除します。
私たちの重要なアイデアは、私たちの真の効率的な計画目標に忠実であるが忠実な代理目標を最適化することにより、述語を学ぶことです。
この代理目標を、文法から描かれた述語セットを介した丘の登り検索で使用します。
実験的に、4つのロボット計画環境にわたって、学習した抽象化が、6つのベースラインを上回る保留アウトタスクを迅速に解決できることを示しています。
コード:https://tinyurl.com/predicators-release

要約(オリジナル)

Efficient planning in continuous state and action spaces is fundamentally hard, even when the transition model is deterministic and known. One way to alleviate this challenge is to perform bilevel planning with abstractions, where a high-level search for abstract plans is used to guide planning in the original transition space. Previous work has shown that when state abstractions in the form of symbolic predicates are hand-designed, operators and samplers for bilevel planning can be learned from demonstrations. In this work, we propose an algorithm for learning predicates from demonstrations, eliminating the need for manually specified state abstractions. Our key idea is to learn predicates by optimizing a surrogate objective that is tractable but faithful to our real efficient-planning objective. We use this surrogate objective in a hill-climbing search over predicate sets drawn from a grammar. Experimentally, we show across four robotic planning environments that our learned abstractions are able to quickly solve held-out tasks, outperforming six baselines. Code: https://tinyurl.com/predicators-release

arxiv情報

著者 Tom Silver,Rohan Chitnis,Nishanth Kumar,Willie McClinton,Tomas Lozano-Perez,Leslie Pack Kaelbling,Joshua Tenenbaum
発行日 2025-05-27 13:09:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | Predicate Invention for Bilevel Planning はコメントを受け付けていません