Acoustic Wave Manipulation Through Sparse Robotic Actuation

要約

ロボット工学、制御、および機械学習の最近の進歩により、オブジェクト操作の困難な分野での進歩が促進されました。
これらの進歩には、とりわけ、ロボットセンサーによって部分的に観察されるダイナミクスを表すための深いニューラルネットワークの使用、およびスパース制御信号を使用した効果的な制御が含まれます。
この作業では、より一般的な問題を探ります。音波の操作は、空間的にまばらなアクチュエーターを介して波に影響を与えることができるロボットによって部分的に観察されます。
この問題は、新しい人工材料、超音波切削工具、エネルギー収穫、およびその他の用途の設計の大きな可能性を秘めています。
目的のタスクに応じて、指定された領域で散乱する音響エネルギーの集中するか、それを抑制することに適用できるロボット学習のための効率的なデータ駆動型の方法を開発します。
提案された方法は、部分的な微分方程式によって支配された動的システムの操作のための最先端の学習ベースの方法と比較して、ソリューションの品質と計算の複雑さの観点から優れています。
さらに、提案された方法は、実証されたタスクに関する音響研究における古典的な半分析方法と競争します。
プロジェクトコードを公開し、ビデオデモンストレーションを特集したWebページhttps://gladisor.github.io/waves/を紹介しました。

要約(オリジナル)

Recent advancements in robotics, control, and machine learning have facilitated progress in the challenging area of object manipulation. These advancements include, among others, the use of deep neural networks to represent dynamics that are partially observed by robot sensors, as well as effective control using sparse control signals. In this work, we explore a more general problem: the manipulation of acoustic waves, which are partially observed by a robot capable of influencing the waves through spatially sparse actuators. This problem holds great potential for the design of new artificial materials, ultrasonic cutting tools, energy harvesting, and other applications. We develop an efficient data-driven method for robot learning that is applicable to either focusing scattered acoustic energy in a designated region or suppressing it, depending on the desired task. The proposed method is better in terms of a solution quality and computational complexity as compared to a state-of-the-art learning based method for manipulation of dynamical systems governed by partial differential equations. Furthermore our proposed method is competitive with a classical semi-analytical method in acoustics research on the demonstrated tasks. We have made the project code publicly available, along with a web page featuring video demonstrations: https://gladisor.github.io/waves/.

arxiv情報

著者 Tristan Shah,Noam Smilovich,Feruza Amirkulova,Samer Gerges,Stas Tiomkin
発行日 2025-02-14 03:28:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Acoustic Wave Manipulation Through Sparse Robotic Actuation はコメントを受け付けていません

GEVRM: Goal-Expressive Video Generation Model For Robust Visual Manipulation

要約

具体化された人工知能の急速な発展に伴い、一般的なロボットの意思決定のための視覚言語行動(VLA)モデルが大幅に進歩しました。
ただし、既存のVLAの大部分は、展開中に遭遇する避けられない外部摂動を説明できません。
これらの摂動により、予期せぬ状態情報がVLAに導入され、その結果、不正確なアクションが発生し、その結果、一般化パフォーマンスが大幅に減少します。
古典的な内部モデルコントロール(IMC)原理は、外部入力信号を含む内部モデルを備えた閉ループシステムが参照入力を正確に追跡し、妨害を効果的に相殺できることを示しています。
IMCの原理を統合してロボットの視覚操作の堅牢性を高める新しい閉ループループVLAメソッドGevrmを提案します。
GEVRMのテキスト誘導ビデオ生成モデルは、非常に表現力のある将来の視覚計画の目標を生み出すことができます。
同時に、内部埋め込みと呼ばれる応答をシミュレートすることにより、摂動を評価し、プロトタイプの対照学習を通じて最適化されます。
これにより、モデルは摂動を外部環境と暗黙的に推測し、区別することができます。
提案されているGEVRMは、標準と摂動の両方のカルビンベンチマークの両方で最先端のパフォーマンスを達成し、現実的なロボットタスクの大幅な改善を示しています。

要約(オリジナル)

With the rapid development of embodied artificial intelligence, significant progress has been made in vision-language-action (VLA) models for general robot decision-making. However, the majority of existing VLAs fail to account for the inevitable external perturbations encountered during deployment. These perturbations introduce unforeseen state information to the VLA, resulting in inaccurate actions and consequently, a significant decline in generalization performance. The classic internal model control (IMC) principle demonstrates that a closed-loop system with an internal model that includes external input signals can accurately track the reference input and effectively offset the disturbance. We propose a novel closed-loop VLA method GEVRM that integrates the IMC principle to enhance the robustness of robot visual manipulation. The text-guided video generation model in GEVRM can generate highly expressive future visual planning goals. Simultaneously, we evaluate perturbations by simulating responses, which are called internal embeddings and optimized through prototype contrastive learning. This allows the model to implicitly infer and distinguish perturbations from the external environment. The proposed GEVRM achieves state-of-the-art performance on both standard and perturbed CALVIN benchmarks and shows significant improvements in realistic robot tasks.

arxiv情報

著者 Hongyin Zhang,Pengxiang Ding,Shangke Lyu,Ying Peng,Donglin Wang
発行日 2025-02-14 01:51:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | GEVRM: Goal-Expressive Video Generation Model For Robust Visual Manipulation はコメントを受け付けていません

Score-of-Mixture Training: Training One-Step Generative Models Made Simple via Score Estimation of Mixture Distributions

要約

スコアオブミックストレーニング(SMT)を提案します。これは、$ \ alpha $ -skew Jensen-Shannon Divergenceと呼ばれる分岐のクラスを最小限に抑えることにより、ワンステップ生成モデルをトレーニングするための新しいフレームワークです。
その中心で、SMTは、複数のノイズレベルにわたる実際のサンプルと偽のサンプル間の混合分布のスコアを推定しています。
一貫性モデルと同様に、私たちのアプローチは、ゼロからのトレーニング(SMT)と、前提条件の拡散モデルを使用した蒸留の両方をサポートします。
実装が簡単で、最小限のハイパーパラメーターチューニングが必要であり、安定したトレーニングを保証します。
CIFAR-10およびImagenet 64×64での実験は、SMT/SMDが競争力があり、既存の方法よりも優れていることを示しています。

要約(オリジナル)

We propose Score-of-Mixture Training (SMT), a novel framework for training one-step generative models by minimizing a class of divergences called the $\alpha$-skew Jensen-Shannon divergence. At its core, SMT estimates the score of mixture distributions between real and fake samples across multiple noise levels. Similar to consistency models, our approach supports both training from scratch (SMT) and distillation using a pretrained diffusion model, which we call Score-of-Mixture Distillation (SMD). It is simple to implement, requires minimal hyperparameter tuning, and ensures stable training. Experiments on CIFAR-10 and ImageNet 64×64 show that SMT/SMD are competitive with and can even outperform existing methods.

arxiv情報

著者 Tejas Jayashankar,J. Jon Ryu,Gregory Wornell
発行日 2025-02-14 02:32:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Score-of-Mixture Training: Training One-Step Generative Models Made Simple via Score Estimation of Mixture Distributions はコメントを受け付けていません

Optimizing GPT for Video Understanding: Zero-Shot Performance and Prompt Engineering

要約

この調査では、ビデオ品質の7つの重要なカテゴリにわたってゼロショット分類のためのGPTベースのモデルを調査および最適化することにより、ビデオコンテンツ分類における業界の課題に取り組んでいます。
迅速な最適化とポリシーの改良を通じてGPTのパフォーマンスを改善するための新しいアプローチを提供し、複雑なポリシーを単純化することで誤動が大幅に減少することを示しています。
さらに、従来の単一プロムプト方法よりも優れた新しい分解 – 凝集ベースのプロンプトエンジニアリング手法を導入します。
実質的な業界の問題で実施されたこれらの実験は、思慮深い迅速な設計が追加の微調整なしでGPTのパフォーマンスを大幅に向上させることができることを示しており、業界のさまざまなドメインでビデオ分類システムを改善するための効果的でスケーラブルなソリューションを提供します。

要約(オリジナル)

In this study, we tackle industry challenges in video content classification by exploring and optimizing GPT-based models for zero-shot classification across seven critical categories of video quality. We contribute a novel approach to improving GPT’s performance through prompt optimization and policy refinement, demonstrating that simplifying complex policies significantly reduces false negatives. Additionally, we introduce a new decomposition-aggregation-based prompt engineering technique, which outperforms traditional single-prompt methods. These experiments, conducted on real industry problems, show that thoughtful prompt design can substantially enhance GPT’s performance without additional finetuning, offering an effective and scalable solution for improving video classification systems across various domains in industry.

arxiv情報

著者 Mark Beliaev,Victor Yang,Madhura Raju,Jiachen Sun,Xinghai Hu
発行日 2025-02-14 03:31:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG | Optimizing GPT for Video Understanding: Zero-Shot Performance and Prompt Engineering はコメントを受け付けていません

Bilevel Learning for Bilevel Planning

要約

デモンストレーションから学ぶロボットは、それが見ているものを真似するだけではありません。実証されている高レベルの概念を理解し、それらを新しいタスクに一般化する必要があります。
Bilevel Planningは、構成一般化を実現するために述語(関係状態の抽象化)を活用できる階層モデルベースのアプローチです。
ただし、以前のバイレベル計画のアプローチは、手工学または非常に単純なフォームに制限されている述語に依存しており、そのスケーラビリティを洗練された高次元の状態空間に制限しています。
この制限に対処するために、デモンストレーションから直接神経述語を学ぶことができる最初のバイレベル計画アプローチであるIVNTRを提示します。
私たちの主要な革新は、バイレベル計画の構造を反映したニューロシンボリックバイレベル学習フレームワークです。
IVNTRでは、述語「効果」の象徴的な学習と述語「関数」の代替の神経学習であり、それぞれが他方にガイダンスを提供します。
6つの多様なロボット計画ドメインでIVNTRを評価し、さまざまな連続および高次元の状態を抽象化する際の有効性を示しています。
ほとんどの既存のアプローチは一般化するのに苦労していますが(35%未満の成功率)、IVNTRは目に見えないタスクで平均77%の成功率を達成しています。
さらに、モバイルマニピュレーターでIVNTRを紹介します。モバイルマニピュレーターでは、実際のモバイル操作タスクを実行し、新しいオブジェクト、新しい状態、およびより長いタスクホリゾンを備えた目に見えないテストシナリオに一般化することを学びます。
私たちの調査結果は、高レベルの一般化への道として抽象化を伴う学習と計画の約束を強調しています。

要約(オリジナル)

A robot that learns from demonstrations should not just imitate what it sees — it should understand the high-level concepts that are being demonstrated and generalize them to new tasks. Bilevel planning is a hierarchical model-based approach where predicates (relational state abstractions) can be leveraged to achieve compositional generalization. However, previous bilevel planning approaches depend on predicates that are either hand-engineered or restricted to very simple forms, limiting their scalability to sophisticated, high-dimensional state spaces. To address this limitation, we present IVNTR, the first bilevel planning approach capable of learning neural predicates directly from demonstrations. Our key innovation is a neuro-symbolic bilevel learning framework that mirrors the structure of bilevel planning. In IVNTR, symbolic learning of the predicate ‘effects’ and neural learning of the predicate ‘functions’ alternate, with each providing guidance for the other. We evaluate IVNTR in six diverse robot planning domains, demonstrating its effectiveness in abstracting various continuous and high-dimensional states. While most existing approaches struggle to generalize (with <35% success rate), our IVNTR achieves an average of 77% success rate on unseen tasks. Additionally, we showcase IVNTR on a mobile manipulator, where it learns to perform real-world mobile manipulation tasks and generalizes to unseen test scenarios that feature new objects, new states, and longer task horizons. Our findings underscore the promise of learning and planning with abstractions as a path towards high-level generalization.

arxiv情報

著者 Bowen Li,Tom Silver,Sebastian Scherer,Alexander Gray
発行日 2025-02-12 18:59:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Bilevel Learning for Bilevel Planning はコメントを受け付けていません

Scalable Task Planning via Large Language Models and Structured World Representations

要約

計画方法は、大規模な環境でタスクレベルの問題を解決する際に計算上の扱いやすさと闘っています。
この作業では、LLMSでエンコードされた常識的な知識を活用して、これらの複雑なシナリオに対処する計画技術を強化することを探ります。
LLMSを効率的に使用して、計画問題の状態空間から無関係なコンポーネントを剪定し、その複雑さを大幅に簡素化することにより、これを達成します。
7-dofマニピュレーター(ビデオhttps://youtu.be/6ro2uotoqs4)を使用した実世界の検証とともに、家庭用シミュレーション環境内での広範な実験を通じてこのシステムの有効性を実証します。

要約(オリジナル)

Planning methods struggle with computational intractability in solving task-level problems in large-scale environments. This work explores leveraging the commonsense knowledge encoded in LLMs to empower planning techniques to deal with these complex scenarios. We achieve this by efficiently using LLMs to prune irrelevant components from the planning problem’s state space, substantially simplifying its complexity. We demonstrate the efficacy of this system through extensive experiments within a household simulation environment, alongside real-world validation using a 7-DoF manipulator (video https://youtu.be/6ro2UOtOQS4).

arxiv情報

著者 Rodrigo Pérez-Dattari,Zhaoting Li,Robert Babuška,Jens Kober,Cosimo Della Santina
発行日 2025-02-12 20:13:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Scalable Task Planning via Large Language Models and Structured World Representations はコメントを受け付けていません

Acoustic Wave Manipulation Through Sparse Robotic Actuation

要約

ロボット工学、制御、および機械学習の最近の進歩により、オブジェクト操作の困難な分野での進歩が促進されました。
これらの進歩には、とりわけ、ロボットセンサーによって部分的に観察されるダイナミクスを表すための深いニューラルネットワークの使用、およびスパース制御信号を使用した効果的な制御が含まれます。
この作業では、より一般的な問題を探ります。音波の操作は、空間的にまばらなアクチュエーターを介して波に影響を与えることができるロボットによって部分的に観察されます。
この問題は、新しい人工材料、超音波切削工具、エネルギー収穫、およびその他の用途の設計の大きな可能性を秘めています。
目的のタスクに応じて、指定された領域で散乱する音響エネルギーの集中するか、それを抑制することに適用できるロボット学習のための効率的なデータ駆動型の方法を開発します。
提案された方法は、部分的な微分方程式によって支配された動的システムの操作のための最先端の学習ベースの方法と比較して、ソリューションの品質と計算の複雑さの観点から優れています。
さらに、提案された方法は、実証されたタスクに関する音響研究における古典的な半分析方法と競争します。
プロジェクトコードを公開し、ビデオデモンストレーションを特集したWebページhttps://gladisor.github.io/waves/を紹介しました。

要約(オリジナル)

Recent advancements in robotics, control, and machine learning have facilitated progress in the challenging area of object manipulation. These advancements include, among others, the use of deep neural networks to represent dynamics that are partially observed by robot sensors, as well as effective control using sparse control signals. In this work, we explore a more general problem: the manipulation of acoustic waves, which are partially observed by a robot capable of influencing the waves through spatially sparse actuators. This problem holds great potential for the design of new artificial materials, ultrasonic cutting tools, energy harvesting, and other applications. We develop an efficient data-driven method for robot learning that is applicable to either focusing scattered acoustic energy in a designated region or suppressing it, depending on the desired task. The proposed method is better in terms of a solution quality and computational complexity as compared to a state-of-the-art learning based method for manipulation of dynamical systems governed by partial differential equations. Furthermore our proposed method is competitive with a classical semi-analytical method in acoustics research on the demonstrated tasks. We have made the project code publicly available, along with a web page featuring video demonstrations: https://gladisor.github.io/waves/.

arxiv情報

著者 Tristan Shah,Noam Smilovich,Samer Gerges,Feruza Amirkulova,Stas Tiomkin
発行日 2025-02-12 20:54:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Acoustic Wave Manipulation Through Sparse Robotic Actuation はコメントを受け付けていません

ClipRover: Zero-shot Vision-Language Exploration and Target Discovery by Mobile Robots

要約

Vision-Language Navigation(VLN)は有望なパラダイムとして浮上し、モバイルロボットがゼロショット推論を実行し、特定の事前プログラミングなしでタスクを実行できるようになりました。
ただし、現在のシステムは、しばしばマップ探査とパス計画を分離し、環境情報が限られているために非効率的なアルゴリズムに依存して探査が依存しています。
このホワイトペーパーでは、Clipという名前の視覚言語モデルの機能を活用するために、「Cliprover」という名前の新しいナビゲーションパイプラインを「Cliprover」と同時に探索し、ターゲット発見を紹介します。
私たちのアプローチには単眼視のみが必要であり、ターゲットに関する以前のマップや知識なしで動作します。
包括的な評価のために、汎用VLNタスク用のカスタマイズされたプラットフォームである「Rover Master」という名前のUGV(無人地上車両)システムの機能的プロトタイプを設計します。
Rover MasterにCliprover Pipelineを統合して展開して、さまざまな現実世界のシナリオにわたってスループット、障害物回避能力、および軌跡のパフォーマンスを評価します。
実験結果は、Cliproverが従来のマップトラバーサルアルゴリズムを常に上回り、以前のマップとターゲットの知識に依存するパス計画方法に匹敵するパフォーマンスを達成することを示しています。
特に、Cliproverは、既存のVLNパイプラインの重要な制限に対処する、事前にキャプチャされた候補の画像や事前に構築されたノードグラフを必要とせずに、リアルタイムのアクティブナビゲーションを提供します。

要約(オリジナル)

Vision-language navigation (VLN) has emerged as a promising paradigm, enabling mobile robots to perform zero-shot inference and execute tasks without specific pre-programming. However, current systems often separate map exploration and path planning, with exploration relying on inefficient algorithms due to limited (partially observed) environmental information. In this paper, we present a novel navigation pipeline named ”ClipRover” for simultaneous exploration and target discovery in unknown environments, leveraging the capabilities of a vision-language model named CLIP. Our approach requires only monocular vision and operates without any prior map or knowledge about the target. For comprehensive evaluations, we design the functional prototype of a UGV (unmanned ground vehicle) system named ”Rover Master”, a customized platform for general-purpose VLN tasks. We integrate and deploy the ClipRover pipeline on Rover Master to evaluate its throughput, obstacle avoidance capability, and trajectory performance across various real-world scenarios. Experimental results demonstrate that ClipRover consistently outperforms traditional map traversal algorithms and achieves performance comparable to path-planning methods that depend on prior map and target knowledge. Notably, ClipRover offers real-time active navigation without requiring pre-captured candidate images or pre-built node graphs, addressing key limitations of existing VLN pipelines.

arxiv情報

著者 Yuxuan Zhang,Adnan Abdullah,Sanjeev J. Koppal,Md Jahidul Islam
発行日 2025-02-12 21:07:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | ClipRover: Zero-shot Vision-Language Exploration and Target Discovery by Mobile Robots はコメントを受け付けていません

Large Language Models for Multi-Robot Systems: A Survey

要約

大規模な言語モデル(LLMS)の迅速な進歩により、マルチロボットシステム(MRS)に新しい可能性が開かれ、コミュニケーション、タスク計画、および人間とロボットの相互作用が強化されました。
従来のシングルロボットおよびマルチエージェントシステムとは異なり、MRSは、調整、スケーラビリティ、実際の適応性など、独自の課題を提起します。
この調査では、MRSへのLLM統合の最初の包括的な調査を提供します。
高レベルのタスク割り当て、ミッドレベルのモーション計画、低レベルのアクション生成、および人間の介入におけるアプリケーションを体系的に分類します。
家庭用ロボット工学、建設、フォーメーション制御、ターゲット追跡、ロボットゲームなど、多様なドメインの主要なアプリケーションを強調し、MRSのLLMSの汎用性と変革の可能性を紹介します。
さらに、数学的な推論の制限、幻覚、潜伏期の問題、堅牢なベンチマークシステムの必要性など、MRSのLLMの適応を制限する課題を調べます。
最後に、将来の研究の機会を概説し、微調整、推論技術、およびタスク固有のモデルの進歩を強調します。
この調査の目的は、LLMSが搭載したMRSのインテリジェンスと現実世界の展開において研究者を導くことを目的としています。
この分野での研究の急速に進化する性質に基づいて、オープンソースのGitHubリポジトリの論文を更新し続けています。

要約(オリジナル)

The rapid advancement of Large Language Models (LLMs) has opened new possibilities in Multi-Robot Systems (MRS), enabling enhanced communication, task planning, and human-robot interaction. Unlike traditional single-robot and multi-agent systems, MRS poses unique challenges, including coordination, scalability, and real-world adaptability. This survey provides the first comprehensive exploration of LLM integration into MRS. It systematically categorizes their applications across high-level task allocation, mid-level motion planning, low-level action generation, and human intervention. We highlight key applications in diverse domains, such as household robotics, construction, formation control, target tracking, and robot games, showcasing the versatility and transformative potential of LLMs in MRS. Furthermore, we examine the challenges that limit adapting LLMs in MRS, including mathematical reasoning limitations, hallucination, latency issues, and the need for robust benchmarking systems. Finally, we outline opportunities for future research, emphasizing advancements in fine-tuning, reasoning techniques, and task-specific models. This survey aims to guide researchers in the intelligence and real-world deployment of MRS powered by LLMs. Based on the fast-evolving nature of research in the field, we keep updating the papers in the open-source Github repository.

arxiv情報

著者 Peihan Li,Zijian An,Shams Abrar,Lifeng Zhou
発行日 2025-02-12 23:25:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Large Language Models for Multi-Robot Systems: A Survey はコメントを受け付けていません

MuJoCo Playground

要約

MJXで構築されたロボット学習のための完全にオープンソースのフレームワークであるMujoco Playgroundを紹介します。これは、シミュレーション、トレーニング、およびSIMからリアルへの転送をロボットに合理化するという明確な目標です。
シンプルな「PIPインストールプレイグラウンド」を使用すると、研究者は単一のGPUで数分でポリシーを訓練できます。
Playgroundは、4倍、ヒューマノイド、器用な手、ロボットアームなど、さまざまなロボットプラットフォームをサポートし、状態入力とピクセル入力の両方からゼロショットシムからリアルへの転送を可能にします。
これは、物理エンジン、バッチレンダラー、トレーニング環境を含む統合スタックを通じて実現されます。
ビデオの結果に加えて、フレームワーク全体がplayground.mujoco.orgで無料で入手できます。

要約(オリジナル)

We introduce MuJoCo Playground, a fully open-source framework for robot learning built with MJX, with the express goal of streamlining simulation, training, and sim-to-real transfer onto robots. With a simple ‘pip install playground’, researchers can train policies in minutes on a single GPU. Playground supports diverse robotic platforms, including quadrupeds, humanoids, dexterous hands, and robotic arms, enabling zero-shot sim-to-real transfer from both state and pixel inputs. This is achieved through an integrated stack comprising a physics engine, batch renderer, and training environments. Along with video results, the entire framework is freely available at playground.mujoco.org

arxiv情報

著者 Kevin Zakka,Baruch Tabanpour,Qiayuan Liao,Mustafa Haiderbhai,Samuel Holt,Jing Yuan Luo,Arthur Allshire,Erik Frey,Koushil Sreenath,Lueder A. Kahrs,Carmelo Sferrazza,Yuval Tassa,Pieter Abbeel
発行日 2025-02-12 23:30:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | MuJoCo Playground はコメントを受け付けていません