Text-guided Sparse Voxel Pruning for Efficient 3D Visual Grounding

要約

この論文では、3D視覚的接地のための効率的なマルチレベルの畳み込みアーキテクチャを提案します。
従来の方法は、2段階またはポイントベースのアーキテクチャにより、リアルタイム推論の要件を満たすことが困難です。
3Dオブジェクト検出におけるマルチレベルの完全にスパースの畳み込みアーキテクチャの成功に触発され、この技術的なルートに従って新しい3Dビジュアル接地フレームワークを構築することを目指しています。
ただし、3Dの視覚的接地タスクのように、3Dシーンの表現はテキスト機能と深く相互作用する必要があります。ボクセル機能の大量により、この相互作用にはまばらな畳み込みベースのアーキテクチャは非効率的です。
この目的のために、段階的な領域の剪定とターゲットの完了により、3Dシーンの表現とテキスト機能を効率的に融合させるために、テキスト誘導剪定(TGP)と完了ベースの追加(CBA)を提案します。
具体的には、TGPは3Dシーンの表現を繰り返して控えめにし、したがって、ボクセル機能を横断的にテキスト機能と効率的に相互作用させます。
繊細な幾何学的情報への剪定の影響を軽減するために、CBAは、無視できる計算オーバーヘッドでボクセルの完了によってオーバープルーの領域を適応的に固定します。
以前の単一段階の方法と比較して、我々の方法は最高の推論速度を達成し、以前の最速の方法を100 \%FPSで上回ります。
また、私たちの方法は、2段階の方法と比較して最先端の精度を達成します。ScanReferのACC@0.5の$+1.13 $ $ LEAD、NR3DとSR3Dでそれぞれ$+2.6 $および$+3.2 $のリードがあります。
このコードは、\ href {https://github.com/gwxuan/tsp3d} {https://github.com/gwxuan/tsp3d}で利用できます。

要約(オリジナル)

In this paper, we propose an efficient multi-level convolution architecture for 3D visual grounding. Conventional methods are difficult to meet the requirements of real-time inference due to the two-stage or point-based architecture. Inspired by the success of multi-level fully sparse convolutional architecture in 3D object detection, we aim to build a new 3D visual grounding framework following this technical route. However, as in 3D visual grounding task the 3D scene representation should be deeply interacted with text features, sparse convolution-based architecture is inefficient for this interaction due to the large amount of voxel features. To this end, we propose text-guided pruning (TGP) and completion-based addition (CBA) to deeply fuse 3D scene representation and text features in an efficient way by gradual region pruning and target completion. Specifically, TGP iteratively sparsifies the 3D scene representation and thus efficiently interacts the voxel features with text features by cross-attention. To mitigate the affect of pruning on delicate geometric information, CBA adaptively fixes the over-pruned region by voxel completion with negligible computational overhead. Compared with previous single-stage methods, our method achieves top inference speed and surpasses previous fastest method by 100\% FPS. Our method also achieves state-of-the-art accuracy even compared with two-stage methods, with $+1.13$ lead of Acc@0.5 on ScanRefer, and $+2.6$ and $+3.2$ leads on NR3D and SR3D respectively. The code is available at \href{https://github.com/GWxuan/TSP3D}{https://github.com/GWxuan/TSP3D}.

arxiv情報

著者 Wenxuan Guo,Xiuwei Xu,Ziwei Wang,Jianjiang Feng,Jie Zhou,Jiwen Lu
発行日 2025-02-14 18:59:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Text-guided Sparse Voxel Pruning for Efficient 3D Visual Grounding はコメントを受け付けていません

Eidetic Learning: an Efficient and Provable Solution to Catastrophic Forgetting

要約

壊滅的な忘却 – タスクT1を学習し、他のタスクT2で訓練された後にそれを実行する能力を失うニューラルネットワークの現象 – は、ニューラルネットワークの長年の問題です[McCloskey and Cohen、1989]。
壊滅的な忘却を実証する方法、Eidetic Learningを提示します。
Eidetic Learningでトレーニングされたネットワーク – ここでは、eideticNet-リハーサルやリプレイは必要ありません。
連続した離散タスクを検討し、推論時にeideticNetが補助タスク情報なしで新しいインスタンスを自動的にルーティングする方法を示します。
eideticnetは、少量のエクスパーの混合物層に類似している家族と類似しています。
[2016]そのネットワーク容量はタスク全体で分割され、ネットワーク自体はデータコンディショナルルーティングを実行します。
eideticNetは実装とトレーニングが簡単で、効率的で、パラメーターの数に時間と空間の複雑さが直線的です。
私たちの方法の保証は、トレーニング前と微調整の両方の間に、最新のニューラルネットワークの正規化層を保持します。
さまざまなネットワークアーキテクチャと、eideticNetsが忘れられないものであることを一連のタスクで表示します。
EideticNetsの実際的な利点はかなりのものですが、彼らは有益な開業医と理論家に同様にできると信じています。
トレーニング用コードEideticNetsは、https://github.com/amazon-science/eideticnet-trainingで入手できます。

要約(オリジナル)

Catastrophic forgetting — the phenomenon of a neural network learning a task t1 and losing the ability to perform it after being trained on some other task t2 — is a long-standing problem for neural networks [McCloskey and Cohen, 1989]. We present a method, Eidetic Learning, that provably solves catastrophic forgetting. A network trained with Eidetic Learning — here, an EideticNet — requires no rehearsal or replay. We consider successive discrete tasks and show how at inference time an EideticNet automatically routes new instances without auxiliary task information. An EideticNet bears a family resemblance to the sparsely-gated Mixture-of-Experts layer Shazeer et al. [2016] in that network capacity is partitioned across tasks and the network itself performs data-conditional routing. An EideticNet is easy to implement and train, is efficient, and has time and space complexity linear in the number of parameters. The guarantee of our method holds for normalization layers of modern neural networks during both pre-training and fine-tuning. We show with a variety of network architectures and sets of tasks that EideticNets are immune to forgetting. While the practical benefits of EideticNets are substantial, we believe they can be benefit practitioners and theorists alike. The code for training EideticNets is available at https://github.com/amazon-science/eideticnet-training.

arxiv情報

著者 Nicholas Dronen,Randall Balestriero
発行日 2025-02-14 14:39:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Eidetic Learning: an Efficient and Provable Solution to Catastrophic Forgetting はコメントを受け付けていません

EQ-VAE: Equivariance Regularized Latent Space for Improved Generative Image Modeling

要約

潜在的な生成モデルは、高品質の画像合成の主要なアプローチとして浮上しています。
これらのモデルは、自動エンコーダーに依存して画像を潜在スペースに圧縮し、その後に生成モデルが続き、潜在的な分布を学習します。
既存の自動エンコーダーには、スケーリングや回転などのセマンティックプレゼントの変換との等容量がなく、生成パフォーマンスを妨げる複雑な潜在スペースをもたらすことを特定します。
これに対処するために、潜在空間での等量性を強化する簡単な正則化アプローチであるEQ-Vaeを提案し、再構成の質を低下させることなくその複雑さを減らします。
EQ-VAEを使用して事前に訓練された自動エンコーダーを微調整することにより、DIT、SIT、Repa、MaskGITを含むいくつかの最先端の生成モデルのパフォーマンスを強化し、DIT-XL/2で7つのエポックで7スピードアップを達成します。
sd-vaeの微調整。
EQ-VAEは、連続的および離散的な自動エンコーダーの両方と互換性があるため、広範囲の潜在的な生成モデルに多用途の強化が提供されます。
プロジェクトページとコード:https://eq-vae.github.io/。

要約(オリジナル)

Latent generative models have emerged as a leading approach for high-quality image synthesis. These models rely on an autoencoder to compress images into a latent space, followed by a generative model to learn the latent distribution. We identify that existing autoencoders lack equivariance to semantic-preserving transformations like scaling and rotation, resulting in complex latent spaces that hinder generative performance. To address this, we propose EQ-VAE, a simple regularization approach that enforces equivariance in the latent space, reducing its complexity without degrading reconstruction quality. By finetuning pre-trained autoencoders with EQ-VAE, we enhance the performance of several state-of-the-art generative models, including DiT, SiT, REPA and MaskGIT, achieving a 7 speedup on DiT-XL/2 with only five epochs of SD-VAE fine-tuning. EQ-VAE is compatible with both continuous and discrete autoencoders, thus offering a versatile enhancement for a wide range of latent generative models. Project page and code: https://eq-vae.github.io/.

arxiv情報

著者 Theodoros Kouzelis,Ioannis Kakogeorgiou,Spyros Gidaris,Nikos Komodakis
発行日 2025-02-14 13:48:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | EQ-VAE: Equivariance Regularized Latent Space for Improved Generative Image Modeling はコメントを受け付けていません

Surface Vision Mamba: Leveraging Bidirectional State Space Model for Efficient Spherical Manifold Representation

要約

注意ベースの方法は、従来の幾何学的深部学習(GDL)モデルを上回り、球状の皮質表面の長距離依存性をモデル化する際の例外的なパフォーマンスを実証しています。
ただし、それらの広範な推論時間と高いメモリは、限られたコンピューティングリソースを備えた大規模なデータセットへのアプリケーションの課題をもたらします。
コンピュータービジョンの状態空間モデルに触発されて、球状の表面に注意を払わないビジョンマンバ(VIM)を紹介し、球状マニホールドに関するデータを分析するためのドメインに依存しないアーキテクチャを提示します。
私たちの方法は、細分化されたicoSphereから導出された三角形のパッチのシーケンスとして球形データを表現することにより、表面のパッチを実現します。
提案された表面視力マンバ(SIM)は、新生児脳からの皮質表面指標を使用して、複数の神経発達表現型回帰タスクで評価されます。
実験結果は、SIMが注意とGDLベースの方法の両方を上回り、ICO-4グリッドパーティションの下での表面視力変圧器(SIT)と比較して、4.8倍の推論を4.8倍高速化し、91.7%のメモリ消費量を達成することを示しています。
感度分析は、SIMが微妙な認知発達パターンを特定する可能性をさらに強調しています。
このコードは、https://github.com/rongzhao-he/surface-vision-mambaで入手できます。

要約(オリジナル)

Attention-based methods have demonstrated exceptional performance in modelling long-range dependencies on spherical cortical surfaces, surpassing traditional Geometric Deep Learning (GDL) models. However, their extensive inference time and high memory demands pose challenges for application to large datasets with limited computing resources. Inspired by the state space model in computer vision, we introduce the attention-free Vision Mamba (Vim) to spherical surfaces, presenting a domain-agnostic architecture for analyzing data on spherical manifolds. Our method achieves surface patching by representing spherical data as a sequence of triangular patches derived from a subdivided icosphere. The proposed Surface Vision Mamba (SiM) is evaluated on multiple neurodevelopmental phenotype regression tasks using cortical surface metrics from neonatal brains. Experimental results demonstrate that SiM outperforms both attention- and GDL-based methods, delivering 4.8 times faster inference and achieving 91.7% lower memory consumption compared to the Surface Vision Transformer (SiT) under the Ico-4 grid partitioning. Sensitivity analysis further underscores the potential of SiM to identify subtle cognitive developmental patterns. The code is available at https://github.com/Rongzhao-He/surface-vision-mamba.

arxiv情報

著者 Rongzhao He,Weihao Zheng,Leilei Zhao,Ying Wang,Dalin Zhu,Dan Wu,Bin Hu
発行日 2025-02-14 14:55:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Surface Vision Mamba: Leveraging Bidirectional State Space Model for Efficient Spherical Manifold Representation はコメントを受け付けていません

Learning to Predict Global Atrial Fibrillation Dynamics from Sparse Measurements

要約

心房細動のカテーテルアブレーション(AF)は、持続性AFでの成功が限られている1サイズのすべての治療で構成されています。
これは、AFのダイナミクスを、シーケンシャルコンタクトマッピングカテーテルによって提供される限られた解像度とカバレッジをマッピングできないためである可能性があり、パーソナライズされたターゲットアブレーションのための効果的な患者の表現型を防ぐことができます。
ここでは、スパース測定からグローバルなAFダイナミクスを再構築するグラフ再発性ニューラルネットワークモデルであるFIBMAPを紹介します。
51の非接触心房録音で訓練および検証されたFIBMAPは、10%の表面被覆率からATRIA全体のダイナミクスを再構築し、ベースラインメソッドと比較して210%低い平均絶対誤差と追跡位相特異点で数桁高いパフォーマンスを達成します。
FIBMAPの臨床的有用性は、実際の接触マッピング記録で実証されており、非接触マッピングに匹敵する再構成の忠実度を実現します。
FIBMAPの状態空間と患者固有のパラメーターは、電気栄養型AFの洞察を提供します。
FIBMAPを臨床診療に統合すると、パーソナライズされたAFケアが可能になり、結果が改善されます。

要約(オリジナル)

Catheter ablation of Atrial Fibrillation (AF) consists of a one-size-fits-all treatment with limited success in persistent AF. This may be due to our inability to map the dynamics of AF with the limited resolution and coverage provided by sequential contact mapping catheters, preventing effective patient phenotyping for personalised, targeted ablation. Here we introduce FibMap, a graph recurrent neural network model that reconstructs global AF dynamics from sparse measurements. Trained and validated on 51 non-contact whole atria recordings, FibMap reconstructs whole atria dynamics from 10% surface coverage, achieving a 210% lower mean absolute error and an order of magnitude higher performance in tracking phase singularities compared to baseline methods. Clinical utility of FibMap is demonstrated on real-world contact mapping recordings, achieving reconstruction fidelity comparable to non-contact mapping. FibMap’s state-spaces and patient-specific parameters offer insights for electrophenotyping AF. Integrating FibMap into clinical practice could enable personalised AF care and improve outcomes.

arxiv情報

著者 Alexander Jenkins,Andrea Cini,Joseph Barker,Alexander Sharp,Arunashis Sau,Varun Valentine,Srushti Valasang,Xinyang Li,Tom Wong,Timothy Betts,Danilo Mandic,Cesare Alippi,Fu Siong Ng
発行日 2025-02-14 09:14:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, eess.SP | Learning to Predict Global Atrial Fibrillation Dynamics from Sparse Measurements はコメントを受け付けていません

Acoustic Wave Manipulation Through Sparse Robotic Actuation

要約

ロボット工学、制御、および機械学習の最近の進歩により、オブジェクト操作の困難な分野での進歩が促進されました。
これらの進歩には、とりわけ、ロボットセンサーによって部分的に観察されるダイナミクスを表すための深いニューラルネットワークの使用、およびスパース制御信号を使用した効果的な制御が含まれます。
この作業では、より一般的な問題を探ります。音波の操作は、空間的にまばらなアクチュエーターを介して波に影響を与えることができるロボットによって部分的に観察されます。
この問題は、新しい人工材料、超音波切削工具、エネルギー収穫、およびその他の用途の設計の大きな可能性を秘めています。
目的のタスクに応じて、指定された領域で散乱する音響エネルギーの集中するか、それを抑制することに適用できるロボット学習のための効率的なデータ駆動型の方法を開発します。
提案された方法は、部分的な微分方程式によって支配された動的システムの操作のための最先端の学習ベースの方法と比較して、ソリューションの品質と計算の複雑さの観点から優れています。
さらに、提案された方法は、実証されたタスクに関する音響研究における古典的な半分析方法と競争します。
プロジェクトコードを公開し、ビデオデモンストレーションを特集したWebページhttps://gladisor.github.io/waves/を紹介しました。

要約(オリジナル)

Recent advancements in robotics, control, and machine learning have facilitated progress in the challenging area of object manipulation. These advancements include, among others, the use of deep neural networks to represent dynamics that are partially observed by robot sensors, as well as effective control using sparse control signals. In this work, we explore a more general problem: the manipulation of acoustic waves, which are partially observed by a robot capable of influencing the waves through spatially sparse actuators. This problem holds great potential for the design of new artificial materials, ultrasonic cutting tools, energy harvesting, and other applications. We develop an efficient data-driven method for robot learning that is applicable to either focusing scattered acoustic energy in a designated region or suppressing it, depending on the desired task. The proposed method is better in terms of a solution quality and computational complexity as compared to a state-of-the-art learning based method for manipulation of dynamical systems governed by partial differential equations. Furthermore our proposed method is competitive with a classical semi-analytical method in acoustics research on the demonstrated tasks. We have made the project code publicly available, along with a web page featuring video demonstrations: https://gladisor.github.io/waves/.

arxiv情報

著者 Tristan Shah,Noam Smilovich,Feruza Amirkulova,Samer Gerges,Stas Tiomkin
発行日 2025-02-14 03:28:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Acoustic Wave Manipulation Through Sparse Robotic Actuation はコメントを受け付けていません

GEVRM: Goal-Expressive Video Generation Model For Robust Visual Manipulation

要約

具体化された人工知能の急速な発展に伴い、一般的なロボットの意思決定のための視覚言語行動(VLA)モデルが大幅に進歩しました。
ただし、既存のVLAの大部分は、展開中に遭遇する避けられない外部摂動を説明できません。
これらの摂動により、予期せぬ状態情報がVLAに導入され、その結果、不正確なアクションが発生し、その結果、一般化パフォーマンスが大幅に減少します。
古典的な内部モデルコントロール(IMC)原理は、外部入力信号を含む内部モデルを備えた閉ループシステムが参照入力を正確に追跡し、妨害を効果的に相殺できることを示しています。
IMCの原理を統合してロボットの視覚操作の堅牢性を高める新しい閉ループループVLAメソッドGevrmを提案します。
GEVRMのテキスト誘導ビデオ生成モデルは、非常に表現力のある将来の視覚計画の目標を生み出すことができます。
同時に、内部埋め込みと呼ばれる応答をシミュレートすることにより、摂動を評価し、プロトタイプの対照学習を通じて最適化されます。
これにより、モデルは摂動を外部環境と暗黙的に推測し、区別することができます。
提案されているGEVRMは、標準と摂動の両方のカルビンベンチマークの両方で最先端のパフォーマンスを達成し、現実的なロボットタスクの大幅な改善を示しています。

要約(オリジナル)

With the rapid development of embodied artificial intelligence, significant progress has been made in vision-language-action (VLA) models for general robot decision-making. However, the majority of existing VLAs fail to account for the inevitable external perturbations encountered during deployment. These perturbations introduce unforeseen state information to the VLA, resulting in inaccurate actions and consequently, a significant decline in generalization performance. The classic internal model control (IMC) principle demonstrates that a closed-loop system with an internal model that includes external input signals can accurately track the reference input and effectively offset the disturbance. We propose a novel closed-loop VLA method GEVRM that integrates the IMC principle to enhance the robustness of robot visual manipulation. The text-guided video generation model in GEVRM can generate highly expressive future visual planning goals. Simultaneously, we evaluate perturbations by simulating responses, which are called internal embeddings and optimized through prototype contrastive learning. This allows the model to implicitly infer and distinguish perturbations from the external environment. The proposed GEVRM achieves state-of-the-art performance on both standard and perturbed CALVIN benchmarks and shows significant improvements in realistic robot tasks.

arxiv情報

著者 Hongyin Zhang,Pengxiang Ding,Shangke Lyu,Ying Peng,Donglin Wang
発行日 2025-02-14 01:51:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | GEVRM: Goal-Expressive Video Generation Model For Robust Visual Manipulation はコメントを受け付けていません

Score-of-Mixture Training: Training One-Step Generative Models Made Simple via Score Estimation of Mixture Distributions

要約

スコアオブミックストレーニング(SMT)を提案します。これは、$ \ alpha $ -skew Jensen-Shannon Divergenceと呼ばれる分岐のクラスを最小限に抑えることにより、ワンステップ生成モデルをトレーニングするための新しいフレームワークです。
その中心で、SMTは、複数のノイズレベルにわたる実際のサンプルと偽のサンプル間の混合分布のスコアを推定しています。
一貫性モデルと同様に、私たちのアプローチは、ゼロからのトレーニング(SMT)と、前提条件の拡散モデルを使用した蒸留の両方をサポートします。
実装が簡単で、最小限のハイパーパラメーターチューニングが必要であり、安定したトレーニングを保証します。
CIFAR-10およびImagenet 64×64での実験は、SMT/SMDが競争力があり、既存の方法よりも優れていることを示しています。

要約(オリジナル)

We propose Score-of-Mixture Training (SMT), a novel framework for training one-step generative models by minimizing a class of divergences called the $\alpha$-skew Jensen-Shannon divergence. At its core, SMT estimates the score of mixture distributions between real and fake samples across multiple noise levels. Similar to consistency models, our approach supports both training from scratch (SMT) and distillation using a pretrained diffusion model, which we call Score-of-Mixture Distillation (SMD). It is simple to implement, requires minimal hyperparameter tuning, and ensures stable training. Experiments on CIFAR-10 and ImageNet 64×64 show that SMT/SMD are competitive with and can even outperform existing methods.

arxiv情報

著者 Tejas Jayashankar,J. Jon Ryu,Gregory Wornell
発行日 2025-02-14 02:32:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Score-of-Mixture Training: Training One-Step Generative Models Made Simple via Score Estimation of Mixture Distributions はコメントを受け付けていません

Optimizing GPT for Video Understanding: Zero-Shot Performance and Prompt Engineering

要約

この調査では、ビデオ品質の7つの重要なカテゴリにわたってゼロショット分類のためのGPTベースのモデルを調査および最適化することにより、ビデオコンテンツ分類における業界の課題に取り組んでいます。
迅速な最適化とポリシーの改良を通じてGPTのパフォーマンスを改善するための新しいアプローチを提供し、複雑なポリシーを単純化することで誤動が大幅に減少することを示しています。
さらに、従来の単一プロムプト方法よりも優れた新しい分解 – 凝集ベースのプロンプトエンジニアリング手法を導入します。
実質的な業界の問題で実施されたこれらの実験は、思慮深い迅速な設計が追加の微調整なしでGPTのパフォーマンスを大幅に向上させることができることを示しており、業界のさまざまなドメインでビデオ分類システムを改善するための効果的でスケーラブルなソリューションを提供します。

要約(オリジナル)

In this study, we tackle industry challenges in video content classification by exploring and optimizing GPT-based models for zero-shot classification across seven critical categories of video quality. We contribute a novel approach to improving GPT’s performance through prompt optimization and policy refinement, demonstrating that simplifying complex policies significantly reduces false negatives. Additionally, we introduce a new decomposition-aggregation-based prompt engineering technique, which outperforms traditional single-prompt methods. These experiments, conducted on real industry problems, show that thoughtful prompt design can substantially enhance GPT’s performance without additional finetuning, offering an effective and scalable solution for improving video classification systems across various domains in industry.

arxiv情報

著者 Mark Beliaev,Victor Yang,Madhura Raju,Jiachen Sun,Xinghai Hu
発行日 2025-02-14 03:31:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG | Optimizing GPT for Video Understanding: Zero-Shot Performance and Prompt Engineering はコメントを受け付けていません

Bilevel Learning for Bilevel Planning

要約

デモンストレーションから学ぶロボットは、それが見ているものを真似するだけではありません。実証されている高レベルの概念を理解し、それらを新しいタスクに一般化する必要があります。
Bilevel Planningは、構成一般化を実現するために述語(関係状態の抽象化)を活用できる階層モデルベースのアプローチです。
ただし、以前のバイレベル計画のアプローチは、手工学または非常に単純なフォームに制限されている述語に依存しており、そのスケーラビリティを洗練された高次元の状態空間に制限しています。
この制限に対処するために、デモンストレーションから直接神経述語を学ぶことができる最初のバイレベル計画アプローチであるIVNTRを提示します。
私たちの主要な革新は、バイレベル計画の構造を反映したニューロシンボリックバイレベル学習フレームワークです。
IVNTRでは、述語「効果」の象徴的な学習と述語「関数」の代替の神経学習であり、それぞれが他方にガイダンスを提供します。
6つの多様なロボット計画ドメインでIVNTRを評価し、さまざまな連続および高次元の状態を抽象化する際の有効性を示しています。
ほとんどの既存のアプローチは一般化するのに苦労していますが(35%未満の成功率)、IVNTRは目に見えないタスクで平均77%の成功率を達成しています。
さらに、モバイルマニピュレーターでIVNTRを紹介します。モバイルマニピュレーターでは、実際のモバイル操作タスクを実行し、新しいオブジェクト、新しい状態、およびより長いタスクホリゾンを備えた目に見えないテストシナリオに一般化することを学びます。
私たちの調査結果は、高レベルの一般化への道として抽象化を伴う学習と計画の約束を強調しています。

要約(オリジナル)

A robot that learns from demonstrations should not just imitate what it sees — it should understand the high-level concepts that are being demonstrated and generalize them to new tasks. Bilevel planning is a hierarchical model-based approach where predicates (relational state abstractions) can be leveraged to achieve compositional generalization. However, previous bilevel planning approaches depend on predicates that are either hand-engineered or restricted to very simple forms, limiting their scalability to sophisticated, high-dimensional state spaces. To address this limitation, we present IVNTR, the first bilevel planning approach capable of learning neural predicates directly from demonstrations. Our key innovation is a neuro-symbolic bilevel learning framework that mirrors the structure of bilevel planning. In IVNTR, symbolic learning of the predicate ‘effects’ and neural learning of the predicate ‘functions’ alternate, with each providing guidance for the other. We evaluate IVNTR in six diverse robot planning domains, demonstrating its effectiveness in abstracting various continuous and high-dimensional states. While most existing approaches struggle to generalize (with <35% success rate), our IVNTR achieves an average of 77% success rate on unseen tasks. Additionally, we showcase IVNTR on a mobile manipulator, where it learns to perform real-world mobile manipulation tasks and generalizes to unseen test scenarios that feature new objects, new states, and longer task horizons. Our findings underscore the promise of learning and planning with abstractions as a path towards high-level generalization.

arxiv情報

著者 Bowen Li,Tom Silver,Sebastian Scherer,Alexander Gray
発行日 2025-02-12 18:59:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Bilevel Learning for Bilevel Planning はコメントを受け付けていません