Multi-Step Guided Diffusion for Image Restoration on Edge Devices: Toward Lightweight Perception in Embodied AI

要約

拡散モデルは、タスク固有の再訓練なしに逆問題を解決するための顕著な柔軟性を示しています。
ただし、マニホールド保存ガイド拡散(MPGD)などの既存のアプローチは、特に埋め込まれたまたは分散式設定で、復元忠実度と堅牢性を制限し、除去ステップごとに単一の勾配更新のみを適用します。
この作業では、各除去タイムステップ内に多段階の最適化戦略を導入し、画質、知覚精度、一般化を大幅に向上させます。
スーパー解像度とガウスの脱生の実験は、ステップあたりのグラデーション更新の数を増やすと、LPIPとPSNRが最小限のレイテンシーオーバーヘッドで改善することを示しています。
特に、劣化したイメージネットとUAVデータセットを使用して、ジェットソンオリンナノでこのアプローチを検証し、元々フェイスデータセットで訓練されたMPGDが自然および空中シーンに効果的に一般化することを示しています。
私たちの調査結果は、ドローンやモバイルロボットなどの具体化されたAIエージェントにおけるリアルタイムの視覚的認識のための軽量のプラグアンドプレイ修復モジュールとしてのMPGDの可能性を強調しています。

要約(オリジナル)

Diffusion models have shown remarkable flexibility for solving inverse problems without task-specific retraining. However, existing approaches such as Manifold Preserving Guided Diffusion (MPGD) apply only a single gradient update per denoising step, limiting restoration fidelity and robustness, especially in embedded or out-of-distribution settings. In this work, we introduce a multistep optimization strategy within each denoising timestep, significantly enhancing image quality, perceptual accuracy, and generalization. Our experiments on super-resolution and Gaussian deblurring demonstrate that increasing the number of gradient updates per step improves LPIPS and PSNR with minimal latency overhead. Notably, we validate this approach on a Jetson Orin Nano using degraded ImageNet and a UAV dataset, showing that MPGD, originally trained on face datasets, generalizes effectively to natural and aerial scenes. Our findings highlight MPGD’s potential as a lightweight, plug-and-play restoration module for real-time visual perception in embodied AI agents such as drones and mobile robots.

arxiv情報

著者 Aditya Chakravarty
発行日 2025-06-08 21:11:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO | Multi-Step Guided Diffusion for Image Restoration on Edge Devices: Toward Lightweight Perception in Embodied AI はコメントを受け付けていません

Very Large-scale Multi-Robot Task Allocation in Challenging Environments via Robot Redistribution

要約

密集した障害物や狭い通路を備えた挑戦的な環境で複数のロボットの割り当てを最適化することを目的とするマルチロボットタスク割り当て(MRTA)問題を検討します。
このような環境では、ロボット間の競合が追加のコスト(衝突回避、待機)が発生するため、従来のコストを最適化する従来の方法はしばしば効果がありません。
また、実際のロボットパスを組み込まない割り当ては、デッドロックを引き起こす可能性があり、ロボットの集合的なパフォーマンスを大幅に低下させる可能性があります。
ロボットのパスを考慮して、すべてのタスクの速い完了につながる衝突やデッドロックを避けるために、\ textit {makepan}を最小化する)を考慮するスケーラブルなMRTAメソッドを提案します。
ロボットパスをタスク割り当てに組み込むために、提案された方法は一般化されたボロノイ図を使用してロードマップを構築します。
このメソッドは、ロードマップをいくつかのコンポーネントに分割して、ロボット間の競合が少ないすべてのタスクを実現するためにロボットを再配布する方法を知る方法を知る方法を知ります。
再配布プロセスでは、ロボットは、ファーストインファーストアウトの原則を備えたプッシュポップメカニズムに従って最終目的地に転送されます。
広範な実験から、競合他社が制限時間内にソリューションを計算できない間、私たちの方法は密集した乱雑な数百のロボットでインスタンスを処理できることを示しています。

要約(オリジナル)

We consider the Multi-Robot Task Allocation (MRTA) problem that aims to optimize an assignment of multiple robots to multiple tasks in challenging environments which are with densely populated obstacles and narrow passages. In such environments, conventional methods optimizing the sum-of-cost are often ineffective because the conflicts between robots incur additional costs (e.g., collision avoidance, waiting). Also, an allocation that does not incorporate the actual robot paths could cause deadlocks, which significantly degrade the collective performance of the robots. We propose a scalable MRTA method that considers the paths of the robots to avoid collisions and deadlocks which result in a fast completion of all tasks (i.e., minimizing the \textit{makespan}). To incorporate robot paths into task allocation, the proposed method constructs a roadmap using a Generalized Voronoi Diagram. The method partitions the roadmap into several components to know how to redistribute robots to achieve all tasks with less conflicts between the robots. In the redistribution process, robots are transferred to their final destinations according to a push-pop mechanism with the first-in first-out principle. From the extensive experiments, we show that our method can handle instances with hundreds of robots in dense clutter while competitors are unable to compute a solution within a time limit.

arxiv情報

著者 Seabin Lee,Joonyeol Sim,Changjoo Nam
発行日 2025-06-08 21:34:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.MA, cs.RO | Very Large-scale Multi-Robot Task Allocation in Challenging Environments via Robot Redistribution はコメントを受け付けていません

Unifying 2D and 3D Vision-Language Understanding

要約

3Dビジョン言語学習の進歩は、大規模な3Dデータセットの希少性によって妨げられています。
既存の2D中心モデルと具体化されたシステムで利用可能な豊富な3D感覚データの間のギャップを埋める2Dおよび3D視覚言語の理解のための統一されたアーキテクチャであるUnivlgを紹介します。
当社のアプローチは、2Dと3Dの両方の視覚言語データの両方で、事前に訓練された2Dモデルとトレーニングからのほとんどのモデル重量を初期化します。
2Dおよび3Dモダリティで共有された新しい言語条件付きマスクデコーダーを、RGBおよびRGB-D画像の両方でオブジェクトを効果的に接地し、ボックスベースのアプローチを上回ることを提案します。
2Dと3Dの間のドメインギャップをさらに削減するために、2D対3Dリフティング戦略を組み込み、UNIVLGが2Dデータを利用して3Dパフォーマンスを向上させることができます。
これらのイノベーションにより、私たちのモデルは、複数の3Dビジョン言語接地タスクにわたって最先端のパフォーマンスを達成し、2Dビジョン言語学習からデータ制約の3Dドメインに進歩を転送する可能性を示しています。
さらに、2Dデータと3Dデータの両方での共同トレーニングは、2D機能を犠牲にすることなく、モダリティ全体のパフォーマンスを向上させます。
3Dメッシュの再構成と地上忠実なオブジェクトの提案への依存を削除することにより、UNIVLGは、現実的で具体化された評価の新しい基準を設定します。
コードと追加の視覚化は、https://univlg.github.ioで入手できます。

要約(オリジナル)

Progress in 3D vision-language learning has been hindered by the scarcity of large-scale 3D datasets. We introduce UniVLG, a unified architecture for 2D and 3D vision-language understanding that bridges the gap between existing 2D-centric models and the rich 3D sensory data available in embodied systems. Our approach initializes most model weights from pre-trained 2D models and trains on both 2D and 3D vision-language data. We propose a novel language-conditioned mask decoder shared across 2D and 3D modalities to ground objects effectively in both RGB and RGB-D images, outperforming box-based approaches. To further reduce the domain gap between 2D and 3D, we incorporate 2D-to-3D lifting strategies, enabling UniVLG to utilize 2D data to enhance 3D performance. With these innovations, our model achieves state-of-the-art performance across multiple 3D vision-language grounding tasks, demonstrating the potential of transferring advances from 2D vision-language learning to the data-constrained 3D domain. Furthermore, co-training on both 2D and 3D data enhances performance across modalities without sacrificing 2D capabilities. By removing the reliance on 3D mesh reconstruction and ground-truth object proposals, UniVLG sets a new standard for realistic, embodied-aligned evaluation. Code and additional visualizations are available at https://univlg.github.io .

arxiv情報

著者 Ayush Jain,Alexander Swerdlow,Yuzhou Wang,Sergio Arnaud,Ada Martin,Alexander Sax,Franziska Meier,Katerina Fragkiadaki
発行日 2025-06-08 23:43:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO | Unifying 2D and 3D Vision-Language Understanding はコメントを受け付けていません

BR-MPPI: Barrier Rate guided MPPI for Enforcing Multiple Inequality Constraints with Learned Signed Distance Field

要約

モデル予測パス積分(MPPI)コントローラーは、制約のない最適制御問題を解決するために使用され、制御バリア関数(CBF)は、厳格な不等式制約を課すツールです。
この作業では、MPPIの制御サンプリング手順を導くためにCBF様条件を使用するこれら2つの方法の統合を提案します。
CBFは、バリア自体のクラスK関数によってバリア関数の変化率を制限する不平等制約を提供します。
代わりに、パラメトリック線形クラス関数を選択し、このパラメーターを増強されたシステムの状態として扱うことにより、CBF条件を等式制約として課します。
このパラメーターの時間導関数は、MPPIによって設計された追加の制御入力として機能します。
コスト関数は、安全性を強制するためにClassKパラメーターの特定の値を促進することにより、安全セットの境界でNagumoの定理を再燃させるように設計されています。
私たちの問題の定式化は、ランダムにサンプリングされた制御入力に満足するために自明でない複数の状態および制御依存の等式制約を受けるMPPIをもたらします。
したがって、前述の問題を解決するために、マニホールドのパス計画に関する文献に触発された状態変換および制御投影操作を導入します。
私たちの提案されたアルゴリズムは、バニラMPPIの安全なセット境界に近い動作を行うためのより良いサンプリング効率と強化された機能を示すことを、四つ丸のシミュレーションと実験を通じて経験的に示します。

要約(オリジナル)

Model Predictive Path Integral (MPPI) controller is used to solve unconstrained optimal control problems and Control Barrier Function (CBF) is a tool to impose strict inequality constraints, a.k.a, barrier constraints. In this work, we propose an integration of these two methods that employ CBF-like conditions to guide the control sampling procedure of MPPI. CBFs provide an inequality constraint restricting the rate of change of barrier functions by a classK function of the barrier itself. We instead impose the CBF condition as an equality constraint by choosing a parametric linear classK function and treating this parameter as a state in an augmented system. The time derivative of this parameter acts as an additional control input that is designed by MPPI. A cost function is further designed to reignite Nagumo’s theorem at the boundary of the safe set by promoting specific values of classK parameter to enforce safety. Our problem formulation results in an MPPI subject to multiple state and control-dependent equality constraints which are non-trivial to satisfy with randomly sampled control inputs. We therefore also introduce state transformations and control projection operations, inspired by the literature on path planning for manifolds, to resolve the aforementioned issue. We show empirically through simulations and experiments on quadrotor that our proposed algorithm exhibits better sampled efficiency and enhanced capability to operate closer to the safe set boundary over vanilla MPPI.

arxiv情報

著者 Hardik Parwana,Taekyung Kim,Kehan Long,Bardh Hoxha,Hideki Okamoto,Georgios Fainekos,Dimitra Panagou
発行日 2025-06-08 23:45:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, math.OC | BR-MPPI: Barrier Rate guided MPPI for Enforcing Multiple Inequality Constraints with Learned Signed Distance Field はコメントを受け付けていません

Hierarchical Scoring with 3D Gaussian Splatting for Instance Image-Goal Navigation

要約

Instance Image-Goal Navigation(IIN)では、任意の視点からキャプチャされた参照画像に描かれたターゲットオブジェクトまたは場所を識別してナビゲートする自律エージェントが必要です。
最近の方法は、3次元ガウススプラッティング(3DG)などの強力な新規ビューシンセシス(NVS)技術を活用していますが、通常、識別的な視覚キューの包括的なカバレッジを確保するために、複数の視点または軌跡をランダムにサンプリングすることに依存しています。
ただし、このアプローチは、画像サンプルが重複することにより大きな冗長性を生み出し、原則的なビュー選択が欠けており、レンダリングと比較の両方のオーバーヘッドの両方を大幅に増加させます。
このペーパーでは、ターゲットマッチングの最適な視点を推定する階層スコアリングパラダイムを備えた新しいIINフレームワークを紹介します。
私たちのアプローチは、クロスレベルのセマンティックスコアリングを統合し、クリップ由来の関連フィールドを利用して、ターゲットオブジェクトクラスと高いセマンティックな類似性を持つ領域を識別し、有望な地域内で正確なポーズ推定を実行する微粒局所幾何学的スコアリングを実行します。
広範な評価は、私たちの方法がシミュレートされたiinベンチマークと現実世界の適用性で最先端のパフォーマンスを達成することを示しています。

要約(オリジナル)

Instance Image-Goal Navigation (IIN) requires autonomous agents to identify and navigate to a target object or location depicted in a reference image captured from any viewpoint. While recent methods leverage powerful novel view synthesis (NVS) techniques, such as three-dimensional Gaussian splatting (3DGS), they typically rely on randomly sampling multiple viewpoints or trajectories to ensure comprehensive coverage of discriminative visual cues. This approach, however, creates significant redundancy through overlapping image samples and lacks principled view selection, substantially increasing both rendering and comparison overhead. In this paper, we introduce a novel IIN framework with a hierarchical scoring paradigm that estimates optimal viewpoints for target matching. Our approach integrates cross-level semantic scoring, utilizing CLIP-derived relevancy fields to identify regions with high semantic similarity to the target object class, with fine-grained local geometric scoring that performs precise pose estimation within promising regions. Extensive evaluations demonstrate that our method achieves state-of-the-art performance on simulated IIN benchmarks and real-world applicability.

arxiv情報

著者 Yijie Deng,Shuaihang Yuan,Geeta Chandra Raju Bethala,Anthony Tzes,Yu-Shen Liu,Yi Fang
発行日 2025-06-09 00:58:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Hierarchical Scoring with 3D Gaussian Splatting for Instance Image-Goal Navigation はコメントを受け付けていません

Real-Time Execution of Action Chunking Flow Policies

要約

最新のAIシステム、特に物理的な世界と相互作用するシステムは、リアルタイムのパフォーマンスがますます必要になります。
ただし、最近の視覚言語アクションモデル(VLA)を含む最先端のジェネラリストモデルの高い遅延は、大きな課題をもたらします。
アクションチャンキングにより、高周波制御タスクの時間的一貫性が可能になりましたが、レイテンシの問題に完全に対処することはなく、一時停止または分散型のぎくしゃくした動きにつながります。
このペーパーでは、アクションチャンキングポリシーのスムーズな非同期実行を可能にする新しい推論時間アルゴリズムを提示します。
私たちの方法であるリアルタイムチャンキング(RTC)は、再トレーニングなしで箱から出して拡散またはフローベースのVLAに適用できます。
現在のアクションを実行しながら、次のアクションチャンクを生成します。これは、残りを実行し、「インタップ」することが保証されている「フリーズ」アクションを保証します。
RTCをテストするために、Kinetixシミュレーターに12の非常に動的なタスクの新しいベンチマークを導入し、6つの挑戦的な実世界の双方向操作タスクを評価します。
結果は、RTCが速く、パフォーマンスがあり、推論の遅延に対してユニークに堅牢であり、タスクスループットを大幅に改善し、正確なタスクでの高い成功率を有効にすることを示しています。
https://pi.website/research/real_time_chunkingを参照してください。

要約(オリジナル)

Modern AI systems, especially those interacting with the physical world, increasingly require real-time performance. However, the high latency of state-of-the-art generalist models, including recent vision-language action models (VLAs), poses a significant challenge. While action chunking has enabled temporal consistency in high-frequency control tasks, it does not fully address the latency problem, leading to pauses or out-of-distribution jerky movements at chunk boundaries. This paper presents a novel inference-time algorithm that enables smooth asynchronous execution of action chunking policies. Our method, real-time chunking (RTC), is applicable to any diffusion- or flow-based VLA out of the box with no re-training. It generates the next action chunk while executing the current one, ‘freezing’ actions guaranteed to execute and ‘inpainting’ the rest. To test RTC, we introduce a new benchmark of 12 highly dynamic tasks in the Kinetix simulator, as well as evaluate 6 challenging real-world bimanual manipulation tasks. Results demonstrate that RTC is fast, performant, and uniquely robust to inference delay, significantly improving task throughput and enabling high success rates in precise tasks $\unicode{x2013}$ such as lighting a match $\unicode{x2013}$ even in the presence of significant latency. See https://pi.website/research/real_time_chunking for videos.

arxiv情報

著者 Kevin Black,Manuel Y. Galliker,Sergey Levine
発行日 2025-06-09 01:01:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | Real-Time Execution of Action Chunking Flow Policies はコメントを受け付けていません

Reproducibility in the Control of Autonomous Mobility-on-Demand Systems

要約

ロボット工学、制御、および機械学習(ML)の進歩を促進する自律的なモビリティオンデマンド(AMOD)システムは、将来の都市輸送の有望なパラダイムを提供します。
AMODは、自動運転車艦隊の集中制御を活用して、運用を最適化し、サービスパフォーマンスを向上させることにより、高速でパーソナライズされた旅行サービスを提供しています。
しかし、この分野の急速な成長は、結果を評価および報告するための標準化されたプラクティスの開発を上回り、再現性の大きな課題につながりました。
AMODコントロールアルゴリズムがますます複雑になり、データ駆動型になると、仮定、実験セットアップ、およびアルゴリズムの実装における透明性の欠如は、科学的進歩を妨げ、結果に対する自信を損ないます。
この論文は、AMOD研究における再現性に関する体系的な研究を提示します。
研究パイプライン全体で重要なコンポーネントを特定し、システムモデリング、制御問題、シミュレーション設計、アルゴリズムの仕様、評価、および評価の一般的なソースを分析します。
文献の一般的な慣行を調査し、ギャップを強調し、再現性を評価および改善するための構造化されたフレームワークを提案します。
具体的には、具体的なガイドラインが「再現性チェックリスト」とともに提供され、繰り返し、比較可能な、拡張可能な結果を​​達成するための将来の作業をサポートします。
AMODに焦点を当てている間、私たちが提唱する原則と実践は、ネットワーク化された自律性とデータ駆動型のコントロールに依存するより広範なサイバー物理システムに一般化します。
この作業は、インテリジェントモビリティシステムの設計と展開において、より透明で再現可能な研究文化の基礎を築くことを目的としています。

要約(オリジナル)

Autonomous Mobility-on-Demand (AMoD) systems, powered by advances in robotics, control, and Machine Learning (ML), offer a promising paradigm for future urban transportation. AMoD offers fast and personalized travel services by leveraging centralized control of autonomous vehicle fleets to optimize operations and enhance service performance. However, the rapid growth of this field has outpaced the development of standardized practices for evaluating and reporting results, leading to significant challenges in reproducibility. As AMoD control algorithms become increasingly complex and data-driven, a lack of transparency in modeling assumptions, experimental setups, and algorithmic implementation hinders scientific progress and undermines confidence in the results. This paper presents a systematic study of reproducibility in AMoD research. We identify key components across the research pipeline, spanning system modeling, control problems, simulation design, algorithm specification, and evaluation, and analyze common sources of irreproducibility. We survey prevalent practices in the literature, highlight gaps, and propose a structured framework to assess and improve reproducibility. Specifically, concrete guidelines are offered, along with a ‘reproducibility checklist’, to support future work in achieving replicable, comparable, and extensible results. While focused on AMoD, the principles and practices we advocate generalize to a broader class of cyber-physical systems that rely on networked autonomy and data-driven control. This work aims to lay the foundation for a more transparent and reproducible research culture in the design and deployment of intelligent mobility systems.

arxiv情報

著者 Xinling Li,Meshal Alharbi,Daniele Gammelli,James Harrison,Filipe Rodrigues,Maximilian Schiffer,Marco Pavone,Emilio Frazzoli,Jinhua Zhao,Gioele Zardini
発行日 2025-06-09 01:41:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Reproducibility in the Control of Autonomous Mobility-on-Demand Systems はコメントを受け付けていません

UruBots Autonomous Cars Challenge Pro Team Description Paper for FIRA 2025

要約

このホワイトペーパーでは、2025年のFIRA Autonomous Cars Challenge(Pro)のUrubotsチームによる自動運転車の開発について説明します。
このプロジェクトには、さまざまなトラックを通じて自律的なナビゲーションが可能なRC車のほぼサイズのコンパクトな電気自動車を建設することが含まれます。
この設計には、カメラからの視覚入力に基づいて車両がリアルタイムナビゲーションの決定を行うことができる機械的および電子コンポーネントと機械学習アルゴリズムが組み込まれています。
ディープラーニングモデルを使用して、カメラの画像を処理し、車両の動きを制御します。
1万枚以上の画像のデータセットを使用して、畳み込みニューラルネットワーク(CNN)をトレーニングして、2つの出力、ステアリング、スロットルを通じて車両を効果的に駆動しました。
車は30秒未満でトラックを完成させ、障害物を避けながら毎秒約0.4メートルのペースを達成しました。

要約(オリジナル)

This paper describes the development of an autonomous car by the UruBots team for the 2025 FIRA Autonomous Cars Challenge (Pro). The project involves constructing a compact electric vehicle, approximately the size of an RC car, capable of autonomous navigation through different tracks. The design incorporates mechanical and electronic components and machine learning algorithms that enable the vehicle to make real-time navigation decisions based on visual input from a camera. We use deep learning models to process camera images and control vehicle movements. Using a dataset of over ten thousand images, we trained a Convolutional Neural Network (CNN) to drive the vehicle effectively, through two outputs, steering and throttle. The car completed the track in under 30 seconds, achieving a pace of approximately 0.4 meters per second while avoiding obstacles.

arxiv情報

著者 Pablo Moraes,Mónica Rodríguez,Sebastian Barcelona,Angel Da Silva,Santiago Fernandez,Hiago Sodre,Igor Nunes,Bruna Guterres,Ricardo Grando
発行日 2025-06-09 01:50:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.IV, eess.SY | UruBots Autonomous Cars Challenge Pro Team Description Paper for FIRA 2025 はコメントを受け付けていません

From Pixels to Predicates: Learning Symbolic World Models via Pretrained Vision-Language Models

要約

私たちの目的は、低レベルのスキルと、一連の画像を含む少数の短距離デモンストレーションを考慮して、複雑なロボット工学ドメインで長老の意思決定の問題を解決することを学ぶことです。
この目的のために、私たちは、計画を介して新しい目標へのゼロショットの一般化を促進する抽象的な象徴的な世界モデルを学ぶことに焦点を当てています。
このようなモデルの重要なコンポーネントは、オブジェクト間の特性と関係を定義するシンボリック述語のセットです。
この作業では、事前に処理されたビジョン言語モデル(VLM)を活用して、意思決定に潜在的に関連する視覚的述語の大規模なセットを提案し、カメラ画像から直接述語を評価することを提案します。
トレーニング時に、提案された述語とデモンストレーションを最適化ベースのモデル学習アルゴリズムに渡して、提案された述語のコンパクトなサブセットに関して定義された抽象的なシンボリックワールドモデルを取得します。
テスト時に、新しい設定で新しい目標を考慮して、VLMを使用して現在の世界状態の象徴的な説明を作成し、検索ベースの計画アルゴリズムを使用して、目標を達成する低レベルのスキルのシーケンスを見つけます。
シミュレーションと現実世界の両方で実験全体で経験的に実証し、私たちの方法は積極的に一般化し、学んだ世界モデルを適用して、さまざまなオブジェクトタイプ、アレンジメント、オブジェクトの数、視覚的背景、およびトレーニング時に見られるものよりもはるかに長い視野で問題を解決できることを実証します。

要約(オリジナル)

Our aim is to learn to solve long-horizon decision-making problems in complex robotics domains given low-level skills and a handful of short-horizon demonstrations containing sequences of images. To this end, we focus on learning abstract symbolic world models that facilitate zero-shot generalization to novel goals via planning. A critical component of such models is the set of symbolic predicates that define properties of and relationships between objects. In this work, we leverage pretrained vision language models (VLMs) to propose a large set of visual predicates potentially relevant for decision-making, and to evaluate those predicates directly from camera images. At training time, we pass the proposed predicates and demonstrations into an optimization-based model-learning algorithm to obtain an abstract symbolic world model that is defined in terms of a compact subset of the proposed predicates. At test time, given a novel goal in a novel setting, we use the VLM to construct a symbolic description of the current world state, and then use a search-based planning algorithm to find a sequence of low-level skills that achieves the goal. We demonstrate empirically across experiments in both simulation and the real world that our method can generalize aggressively, applying its learned world model to solve problems with a wide variety of object types, arrangements, numbers of objects, and visual backgrounds, as well as novel goals and much longer horizons than those seen at training time.

arxiv情報

著者 Ashay Athalye,Nishanth Kumar,Tom Silver,Yichao Liang,Tomás Lozano-Pérez,Leslie Pack Kaelbling
発行日 2025-06-09 01:52:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | From Pixels to Predicates: Learning Symbolic World Models via Pretrained Vision-Language Models はコメントを受け付けていません

MapBERT: Bitwise Masked Modeling for Real-Time Semantic Mapping Generation

要約

空間認識は、具体化されたエージェントにとって重要な機能であり、観察されていない地域について予測し、推論することができるためです。
主な課題は、まばらで不均衡なオブジェクトカテゴリと多様な空間スケールによって複雑になっている屋内セマンティクスの分布を学ぶことから生じます。
既存の方法は、観察されていない領域をリアルタイムで堅牢に生成するために苦労し、新しい環境によく一般化することはありません。
この目的のために、目に見えない空間の分布を効果的にモデル化するように設計された新しいフレームワークである\ textBf {Mapbert}を提案します。
セマンティックマップの1ホットのエンコードは、ビットエンコードのバイナリ構造と自然に整合するという観察に動機付けられているため、初めてルックアップフリービットベーを活用してセマンティックマップをコンパクトビットワイズトークンにエンコードします。
これに基づいて、マスクされた変圧器が使用されており、欠落している領域を推測し、限られた観測から完全なセマンティックマップを生成します。
オブジェクト中心の推論を強化するために、オブジェクトカテゴリ全体を同時にマスクし、学習可能な埋め込みでペアを組み、オブジェクトの埋め込みと空間トークンの間の暗黙の関係をキャプチャするオブジェクト認識マスキング戦略を提案します。
これらの関係を学ぶことにより、このモデルは、実用的なロボットタスクに不可欠な屋内セマンティック分布をより効果的にキャプチャします。
ギブソンのベンチマークでの実験は、Mapbertが最先端のセマンティックマップ生成を達成し、計算効率と観測されていない領域の正確な再構築のバランスをとることを示しています。

要約(オリジナル)

Spatial awareness is a critical capability for embodied agents, as it enables them to anticipate and reason about unobserved regions. The primary challenge arises from learning the distribution of indoor semantics, complicated by sparse, imbalanced object categories and diverse spatial scales. Existing methods struggle to robustly generate unobserved areas in real time and do not generalize well to new environments. To this end, we propose \textbf{MapBERT}, a novel framework designed to effectively model the distribution of unseen spaces. Motivated by the observation that the one-hot encoding of semantic maps aligns naturally with the binary structure of bit encoding, we, for the first time, leverage a lookup-free BitVAE to encode semantic maps into compact bitwise tokens. Building on this, a masked transformer is employed to infer missing regions and generate complete semantic maps from limited observations. To enhance object-centric reasoning, we propose an object-aware masking strategy that masks entire object categories concurrently and pairs them with learnable embeddings, capturing implicit relationships between object embeddings and spatial tokens. By learning these relationships, the model more effectively captures indoor semantic distributions crucial for practical robotic tasks. Experiments on Gibson benchmarks show that MapBERT achieves state-of-the-art semantic map generation, balancing computational efficiency with accurate reconstruction of unobserved regions.

arxiv情報

著者 Yijie Deng,Shuaihang Yuan,Congcong Wen,Hao Huang,Anthony Tzes,Geeta Chandra Raju Bethala,Yi Fang
発行日 2025-06-09 01:55:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | MapBERT: Bitwise Masked Modeling for Real-Time Semantic Mapping Generation はコメントを受け付けていません