Implementation Analysis of Collaborative Robot Digital Twins in Physics Engines

要約

このペーパーでは、2つのロボットマニピュレーターを非現実的なエンジンの高精度光学赤外線追跡システムと統合する6G通信システムテストベッドのデジタルツイン(DT)を紹介します。
議論されている主要なトピックには、ビデオストリーミング、ロボットオペレーティングシステム2(ROS 2)内の統合、双方向通信が含まれます。
提供される洞察は、ロボット工学と自動化研究におけるDTSの開発と展開をサポートすることを目的としています。

要約(オリジナル)

This paper presents a Digital Twin (DT) of a 6G communications system testbed that integrates two robotic manipulators with a high-precision optical infrared tracking system in Unreal Engine 5. Practical details of the setup and implementation insights provide valuable guidance for users aiming to replicate such systems, an endeavor that is crucial to advancing DT applications within the scientific community. Key topics discussed include video streaming, integration within the Robot Operating System 2 (ROS 2), and bidirectional communication. The insights provided are intended to support the development and deployment of DTs in robotics and automation research.

arxiv情報

著者 Christian König,Jan Petershans,Jan Herbst,Matthias Rüb,Dennis Krummacker,Eric Mittag,Hans D. Schotten
発行日 2025-04-28 07:59:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Implementation Analysis of Collaborative Robot Digital Twins in Physics Engines はコメントを受け付けていません

RGS-DR: Reflective Gaussian Surfels with Deferred Rendering for Shiny Objects

要約

RGS-DRを紹介します。RGS-DRは、柔軟なレリフトとシーンの編集をサポートして、光沢のある反射性オブジェクトを再構築およびレンダリングするための新しい逆レンダリング方法です。
既存の方法(例:NERFや3Dガウスのスプラッティング)とは異なり、ビュー依存効果と格闘しているRGS-DRは、高品質の逆レンダリングのための不可欠な特性であるジオメトリと表面正規を正確に推定するために2Dガウスサーフェル表現を利用しています。
私たちのアプローチは、繰延シェーディングパイプラインにラスター化された学習可能なプリミティブを介して、幾何学的および材料特性を明示的にモデル化し、レンダリングのレンダリングを効果的に削減し、鋭い反射を維持します。
マルチレベルのキューブMIPMAPを採用することにより、RGS-DRは環境照明積分を正確に近似し、高品質の再構築と再生を促進します。
球状のMIPMAPベースの方向性エンコードを使用した残留パスは、外観モデリングをさらに改善します。
実験は、RGS-DRが光沢のあるオブジェクトの高品質の再構築と品質を達成し、多くの場合、再構成を除く最先端の最新の方法よりも優れていることを示しています。

要約(オリジナル)

We introduce RGS-DR, a novel inverse rendering method for reconstructing and rendering glossy and reflective objects with support for flexible relighting and scene editing. Unlike existing methods (e.g., NeRF and 3D Gaussian Splatting), which struggle with view-dependent effects, RGS-DR utilizes a 2D Gaussian surfel representation to accurately estimate geometry and surface normals, an essential property for high-quality inverse rendering. Our approach explicitly models geometric and material properties through learnable primitives rasterized into a deferred shading pipeline, effectively reducing rendering artifacts and preserving sharp reflections. By employing a multi-level cube mipmap, RGS-DR accurately approximates environment lighting integrals, facilitating high-quality reconstruction and relighting. A residual pass with spherical-mipmap-based directional encoding further refines the appearance modeling. Experiments demonstrate that RGS-DR achieves high-quality reconstruction and rendering quality for shiny objects, often outperforming reconstruction-exclusive state-of-the-art methods incapable of relighting.

arxiv情報

著者 Georgios Kouros,Minye Wu,Tinne Tuytelaars
発行日 2025-04-28 08:42:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | RGS-DR: Reflective Gaussian Surfels with Deferred Rendering for Shiny Objects はコメントを受け付けていません

Repurposing the scientific literature with vision-language models

要約

主要なビジョン言語モデル(VLM)は、一般的なインターネットコンテンツについてトレーニングされており、科学雑誌の豊かなドメイン固有の知識を見落としています。
専門分野の文献に関するトレーニングは、高性能のタスク固有のツールを生み出し、生成的AIが専門出版、教育、および臨床タスクのジェネラリストモデルと一致する可能性があります。
Neuropubsを作成しました。これは、23,000のNeurosurgery Publicationsの記事(134mの単語、78kの画像キャプションペア)のマルチモーダルデータセットを作成しました。
NeuroPubsを使用して、VLMSは出版対象のグラフィカルな要約(100の要約の70%)と、人間が書いたものと区別できないボードスタイルの質問(89,587の質問の54%)を生成しました。
これらの質問を使用して、34B-Parameter VLMであるCNS-Obsidianを訓練しました。
盲検化されたランダム化比較試験では、我々のモデルは、神経外科的鑑別診断における当時の最先端のGPT-4O(臨床的有用性、40.62%のUpvotes対57.89%、P = 0.1150;精度、59.38%対65.79%、P = 0.3797)の非劣性を示しました。
私たちのパイロット研究では、特殊なジャーナルコンテンツのトレーニング生成AIモデル – 大規模なインターネットデータなしでは、高性能のアカデミックおよび臨床ツールをもたらし、多様な分野でドメインに誘導されたAIを可能にします。

要約(オリジナル)

Leading vision-language models (VLMs) are trained on general Internet content, overlooking scientific journals’ rich, domain-specific knowledge. Training on specialty-specific literature could yield high-performance, task-specific tools, enabling generative AI to match generalist models in specialty publishing, educational, and clinical tasks. We created NeuroPubs, a multimodal dataset of 23,000 Neurosurgery Publications articles (134M words, 78K image-caption pairs). Using NeuroPubs, VLMs generated publication-ready graphical abstracts (70% of 100 abstracts) and board-style questions indistinguishable from human-written ones (54% of 89,587 questions). We used these questions to train CNS-Obsidian, a 34B-parameter VLM. In a blinded, randomized controlled trial, our model demonstrated non-inferiority to then state-of-the-art GPT-4o in neurosurgical differential diagnosis (clinical utility, 40.62% upvotes vs. 57.89%, p=0.1150; accuracy, 59.38% vs. 65.79%, p=0.3797). Our pilot study demonstrates how training generative AI models on specialty-specific journal content – without large-scale internet data – results in high-performance academic and clinical tools, enabling domain-tailored AI across diverse fields.

arxiv情報

著者 Anton Alyakin,Jaden Stryker,Daniel Alexander Alber,Karl L. Sangwon,Jin Vivian Lee,Brandon Duderstadt,Akshay Save,David Kurland,Spencer Frome,Shrutika Singh,Jeff Zhang,Eunice Yang,Ki Yun Park,Cordelia Orillac,Aly A. Valliani,Sean Neifert,Albert Liu,Aneek Patel,Christopher Livia,Darryl Lau,Ilya Laufer,Peter A. Rozman,Eveline Teresa Hidalgo,Howard Riina,Rui Feng,Todd Hollon,Yindalon Aphinyanaphongs,John G. Golfinos,Laura Snyder,Eric Leuthardt,Douglas Kondziolka,Eric Karl Oermann
発行日 2025-04-28 00:52:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.HC | Repurposing the scientific literature with vision-language models はコメントを受け付けていません

Flow Matching Ergodic Coverage

要約

エルゴジックなカバレッジは、エージェントの軌跡の空間分布をターゲット分布と整列させることにより、具体化されたエージェントの探索的行動を効果的に生成します。これらの2つの分布の差は、エルゴジックメトリックによって測定されます。
ただし、既存のエルゴードカバレッジ方法は、制御合成に利用可能な限られたエルゴード性メトリックのセットによって制約されており、基本的にパフォーマンスを制限しています。
この作業では、効率的でスケーラブルなサンプリングのために生成的推論で広く使用されている手法であるフローマッチングに基づいて、エルゴードのカバレッジへの代替アプローチを提案します。
エルゴジックなカバレッジのフローマッチング問題を正式に導き出し、閉じた型溶液を使用した線形二次調節因子の問題に相当していることを示します。
私たちの定式化により、既存のものの制限を克服する生成的推論からの代替のエルゴード化メトリックが可能になります。
これらのメトリックは、以前は制御合成のために実行不可能でしたが、計算オーバーヘッドなしでサポートできます。
具体的には、Stein変異勾配の流れと一致するフローは、ターゲット分布のスコア関数にわたって直接制御合成を可能にし、非正規化された分布の堅牢性を改善します。
一方、シンホーンの分岐フローと一致するフローは、最適な輸送ベースのエルゴジックメトリックを可能にし、不規則なサポートを備えた非滑らかな分布のカバレッジ性能を向上させます。
包括的な数値ベンチマークを通じて、さまざまな非線形ダイナミクス全体で、方法のパフォーマンスの向上と競争効率を検証します。
さらに、フランカロボットの一連の描画と消去タスクを通じて、方法の実用性を実証します。

要約(オリジナル)

Ergodic coverage effectively generates exploratory behaviors for embodied agents by aligning the spatial distribution of the agent’s trajectory with a target distribution, where the difference between these two distributions is measured by the ergodic metric. However, existing ergodic coverage methods are constrained by the limited set of ergodic metrics available for control synthesis, fundamentally limiting their performance. In this work, we propose an alternative approach to ergodic coverage based on flow matching, a technique widely used in generative inference for efficient and scalable sampling. We formally derive the flow matching problem for ergodic coverage and show that it is equivalent to a linear quadratic regulator problem with a closed-form solution. Our formulation enables alternative ergodic metrics from generative inference that overcome the limitations of existing ones. These metrics were previously infeasible for control synthesis but can now be supported with no computational overhead. Specifically, flow matching with the Stein variational gradient flow enables control synthesis directly over the score function of the target distribution, improving robustness to the unnormalized distributions; on the other hand, flow matching with the Sinkhorn divergence flow enables an optimal transport-based ergodic metric, improving coverage performance on non-smooth distributions with irregular supports. We validate the improved performance and competitive computational efficiency of our method through comprehensive numerical benchmarks and across different nonlinear dynamics. We further demonstrate the practicality of our method through a series of drawing and erasing tasks on a Franka robot.

arxiv情報

著者 Max Muchen Sun,Allison Pinosky,Todd Murphey
発行日 2025-04-24 18:18:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | Flow Matching Ergodic Coverage はコメントを受け付けていません

FACTR: Force-Attending Curriculum Training for Contact-Rich Policy Learning

要約

ボックスピックアップやローリング生地など、人間が実行する多くのコンタクトリッチタスクは、信頼できる実行のために力のフィードバックに依存しています。
ただし、ほとんどのロボットアームで容易に入手できるこの力情報は、テレオ操作と政策学習では一般的には使用されていません。
その結果、ロボットの動作は、複雑なフォースフィードバックを必要としない準静的運動学的タスクに限定されることがよくあります。
このホワイトペーパーでは、最初に、フォロワーアームの外力を教師アームに戻す低コストで直感的な二国間術セットアップを提示し、複雑で接触豊富なタスクのデータ収集を促進します。
次に、Training全体で強度が低下して視覚入力を破壊するカリキュラムを使用する政策学習方法であるFactrを紹介します。
カリキュラムは、変圧器ベースのポリシーが視覚入力に過度に適合するのを防ぎ、フォースモダリティに適切に注意するためのポリシーを導きます。
フォース情報を完全に活用することにより、この方法は、カリキュラムなしのベースラインアプローチと比較して、目に見えないオブジェクトへの一般化を43%増加させることを実証します。
https://jasonjzliu.com/factr/のビデオ結果、コードベース、および指示

要約(オリジナル)

Many contact-rich tasks humans perform, such as box pickup or rolling dough, rely on force feedback for reliable execution. However, this force information, which is readily available in most robot arms, is not commonly used in teleoperation and policy learning. Consequently, robot behavior is often limited to quasi-static kinematic tasks that do not require intricate force-feedback. In this paper, we first present a low-cost, intuitive, bilateral teleoperation setup that relays external forces of the follower arm back to the teacher arm, facilitating data collection for complex, contact-rich tasks. We then introduce FACTR, a policy learning method that employs a curriculum which corrupts the visual input with decreasing intensity throughout training. The curriculum prevents our transformer-based policy from over-fitting to the visual input and guides the policy to properly attend to the force modality. We demonstrate that by fully utilizing the force information, our method significantly improves generalization to unseen objects by 43\% compared to baseline approaches without a curriculum. Video results, codebases, and instructions at https://jasonjzliu.com/factr/

arxiv情報

著者 Jason Jingzhou Liu,Yulong Li,Kenneth Shaw,Tony Tao,Ruslan Salakhutdinov,Deepak Pathak
発行日 2025-04-24 18:26:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | FACTR: Force-Attending Curriculum Training for Contact-Rich Policy Learning はコメントを受け付けていません

Autonomous Navigation Of Quadrupeds Using Coverage Path Planning

要約

この論文は、非構造化された環境を自律的にスキャンする目的で、カバレッジパス計画の新しい方法を提案します。
この方法は、SLAMを介した前の2Dナビゲーションマップの形態学的骨格を使用して、関心のある一連のポイント(POI)を生成します。
このシーケンスは、ロボットの現在の位置を考慮して、最適なパスを作成するように順序付けられます。
高レベルの操作を制御するために、有限状態マシンを使用して、NAV2を使用してPOIに向かってナビゲートし、ローカル周辺をスキャンするという2つのモードを切り替えます。
5つの試行にわたる時間の効率と到達可能性について、水平にされた屋内障害のない非凸環境のメソッドを検証します。
マップリーダーとパスプランナーは、それぞれ[196,225]ピクセルと[185,231]ピクセルの間の幅と高さのマップを迅速に処理できます。
ロボットは、5回のランすべてにわたってすべてのウェイポイントの86.5%に達することができました。
提案された方法は、2Dナビゲーションマップで発生するドリフトに苦しんでいます。

要約(オリジナル)

This paper proposes a novel method of coverage path planning for the purpose of scanning an unstructured environment autonomously. The method uses the morphological skeleton of the prior 2D navigation map via SLAM to generate a sequence of points of interest (POIs). This sequence is then ordered to create an optimal path given the robot’s current position. To control the high-level operation, a finite state machine is used to switch between two modes: navigating towards a POI using Nav2, and scanning the local surrounding. We validate the method in a leveled indoor obstacle-free non-convex environment on time efficiency and reachability over five trials. The map reader and the path planner can quickly process maps of width and height ranging between [196,225] pixels and [185,231] pixels in 2.52 ms/pixel and 1.7 ms/pixel, respectively, where their computation time increases with 22.0 ns/pixel and 8.17 $\mu$s/pixel, respectively. The robot managed to reach 86.5\% of all waypoints over all five runs. The proposed method suffers from drift occurring in the 2D navigation map.

arxiv情報

著者 Alexander James Becoy,Kseniia Khomenko,Luka Peternel,Raj Thilak Rajan
発行日 2025-04-24 18:41:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Autonomous Navigation Of Quadrupeds Using Coverage Path Planning はコメントを受け付けていません

Terrain-Aware Kinodynamic Planning with Efficiently Adaptive State Lattices for Mobile Robot Navigation in Off-Road Environments

要約

非フラットの地形を安全に横断するには、ロボットは計画された動きにおける地形の形の影響を説明する必要があります。
地形対応のモーションプランナーは、検索スペースのエッジのコストを比較検討するために、ポーズ、車両サスペンション、および地上標高マップの関数として、車両ロールとピッチの見積もりを使用します。
そのような情報を従来の2次元コストマップでエンコードすると、傾斜した地形からのロールおよびピッチの推定値に対する方向の影響を捉えることができないため、制限されています。
ここで提示された研究は、効率的に適応的な状態格子(EASL)に基づいて、組換え運動計画検索スペースの端にある運動力学情報をエンコードすることにより、この問題に対処します。
このアプローチは、運動力学的効率的な適応状態格子(KEASL)として説明されており、2つの方法で以前の表現とは異なります。
まず、この方法では、モーションプランニンググラフの拡張ノードで速度と加速制約と車両の方向の新しいエンコードを使用します。
第二に、このアプローチでは、グラフが組換えのままであることを可能にする方法で、検索中に各エッジに沿ったポーズに関連するロール、ピッチ、制約、および速度を評価するための追加の手順について説明します。
速度は、地形依存の速度制限の影響を受けるエッジの持続時間をより正確に推定するEulerian統合を使用して、反復的な双方向法を使用して計算されます。
ClearPath Robotics Warthogの無人地上車両での実際の実験は、非フラットの非構造化された環境で行われました。
これらの実験からの2093年の計画クエリの結果は、KEASLが地形依存の速度制約を満たすためにEASL計画を調整した場合の83.72%でEASLよりも効率的なルートを提供することを示しました。
計画されたルート間の相対的なランタイムと違いの分析がさらに提示されます。

要約(オリジナル)

To safely traverse non-flat terrain, robots must account for the influence of terrain shape in their planned motions. Terrain-aware motion planners use an estimate of the vehicle roll and pitch as a function of pose, vehicle suspension, and ground elevation map to weigh the cost of edges in the search space. Encoding such information in a traditional two-dimensional cost map is limiting because it is unable to capture the influence of orientation on the roll and pitch estimates from sloped terrain. The research presented herein addresses this problem by encoding kinodynamic information in the edges of a recombinant motion planning search space based on the Efficiently Adaptive State Lattice (EASL). This approach, which we describe as a Kinodynamic Efficiently Adaptive State Lattice (KEASL), differs from the prior representation in two ways. First, this method uses a novel encoding of velocity and acceleration constraints and vehicle direction at expanded nodes in the motion planning graph. Second, this approach describes additional steps for evaluating the roll, pitch, constraints, and velocities associated with poses along each edge during search in a manner that still enables the graph to remain recombinant. Velocities are computed using an iterative bidirectional method using Eulerian integration that more accurately estimates the duration of edges that are subject to terrain-dependent velocity limits. Real-world experiments on a Clearpath Robotics Warthog Unmanned Ground Vehicle were performed in a non-flat, unstructured environment. Results from 2093 planning queries from these experiments showed that KEASL provided a more efficient route than EASL in 83.72% of cases when EASL plans were adjusted to satisfy terrain-dependent velocity constraints. An analysis of relative runtimes and differences between planned routes is additionally presented.

arxiv情報

著者 Eric R. Damm,Jason M. Gregory,Eli S. Lancaster,Felix A. Sanchez,Daniel M. Sahu,Thomas M. Howard
発行日 2025-04-24 19:00:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Terrain-Aware Kinodynamic Planning with Efficiently Adaptive State Lattices for Mobile Robot Navigation in Off-Road Environments はコメントを受け付けていません

Quaternion Domain Super MDS for 3D Localization

要約

Quaternion-Domain Super Multidimensional Scaling(QD-SMDS)と呼ばれるワイヤレスセンサーネットワークのための新しい低複数の3次元(3D)ローカリゼーションアルゴリズムを提案します。
このアルゴリズムは、元々実際のドメインで開発された従来のSMDをQuaternionドメインに再定式化します。
3D座標をQuaternionsとして表現することにより、この方法により、ノード間の相対距離と角度(位相)情報の両方を統合するランク1グラムエッジカーネル(GEK)マトリックスの構築を可能にし、特異値分解(SVD)を介した低ランクの切り捨てを介して達成されるノイズ削減効果を最大化します。
シミュレーション結果は、提案された方法が、特に実質的な測定誤差を特徴とするシナリオで、従来のSMDSアルゴリズムと比較して、ローカリゼーション精度の顕著な強化を示していることを示しています。

要約(オリジナル)

We propose a novel low-complexity three-dimensional (3D) localization algorithm for wireless sensor networks, termed quaternion-domain super multidimensional scaling (QD-SMDS). This algorithm reformulates the conventional SMDS, which was originally developed in the real domain, into the quaternion domain. By representing 3D coordinates as quaternions, the method enables the construction of a rank-1 Gram edge kernel (GEK) matrix that integrates both relative distance and angular (phase) information between nodes, maximizing the noise reduction effect achieved through low-rank truncation via singular value decomposition (SVD). The simulation results indicate that the proposed method demonstrates a notable enhancement in localization accuracy relative to the conventional SMDS algorithm, particularly in scenarios characterized by substantial measurement errors.

arxiv情報

著者 Keigo Masuoka,Takumi Takahashi,Giuseppe Thadeu Freitas de Abreu,Hideki Ochiai
発行日 2025-04-24 19:01:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, eess.SP, math.MG | Quaternion Domain Super MDS for 3D Localization はコメントを受け付けていません

Beyond Task and Motion Planning: Hierarchical Robot Planning with General-Purpose Policies

要約

タスクとモーションの計画は、長老のロボット計画の問題を解決するための十分に確立されたアプローチです。
ただし、従来の方法では、各タスクレベルのロボットアクション、またはスキルが運動学のモーション計画に還元できると想定しています。
この作業では、運動学的なスキルと運動学的な考慮事項を超えた閉ループモーターコントローラーの両方で計画の課題に対処します。
これらのコントローラーを構成可能なインタラクションプリミティブ(CIPS)を使用してモーション計画に統合する新しい方法を提案し、階層ロボット計画における多様で構成不可能な事前に学習したスキルの使用を可能にします。
タスクとスキル計画(TASP)アプローチの検証に向けて、CIPSがモバイルマニピュレーターロボットがモーション計画と汎用スキルを効果的に組み合わせて複雑なタスクを達成できるようにするために設計された現実世界のシナリオで継続的なロボット実験について説明します。

要約(オリジナル)

Task and motion planning is a well-established approach for solving long-horizon robot planning problems. However, traditional methods assume that each task-level robot action, or skill, can be reduced to kinematic motion planning. In this work, we address the challenge of planning with both kinematic skills and closed-loop motor controllers that go beyond kinematic considerations. We propose a novel method that integrates these controllers into motion planning using Composable Interaction Primitives (CIPs), enabling the use of diverse, non-composable pre-learned skills in hierarchical robot planning. Toward validating our Task and Skill Planning (TASP) approach, we describe ongoing robot experiments in real-world scenarios designed to demonstrate how CIPs can allow a mobile manipulator robot to effectively combine motion planning with general-purpose skills to accomplish complex tasks.

arxiv情報

著者 Benned Hedegaard,Ziyi Yang,Yichen Wei,Ahmed Jaafar,Stefanie Tellex,George Konidaris,Naman Shah
発行日 2025-04-24 19:22:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Beyond Task and Motion Planning: Hierarchical Robot Planning with General-Purpose Policies はコメントを受け付けていません

Unified Video Action Model

要約

統一されたビデオとアクションモデルは、動画がアクション予測のための豊富なシーン情報を提供し、アクションがビデオ予測のダイナミクス情報を提供するロボット工学に大きな約束を保持しています。
ただし、ビデオ生成とアクションの予測を効果的に組み合わせることは依然として挑戦的であり、現在のビデオ生成ベースの方法は、アクションの正確性と推論速度における直接政策学習のパフォーマンスに合わせるのに苦労しています。
このギャップを埋めるために、統一されたビデオアクションモデル(UVA)を導入します。これは、ビデオとアクションの予測を共同で最適化して、高精度と効率的なアクション推論の両方を実現します。
重要なのは、共同ビデオアクションの潜在的な表現を学び、ビデオアクションデコードを切り離すことにあります。
共同潜在表現は、視覚およびアクションドメインを橋渡しし、ビデオとアクションシーケンスの関係を効果的にモデル化します。
一方、2つの軽量拡散ヘッドを搭載した分離されたデコードにより、推論中にビデオ生成をバイパスすることにより、高速アクション推論が可能になります。
このような統一されたフレームワークは、マスクされた入力トレーニングを通じて汎用性の高い機能をさらに可能にします。
アクションやビデオを選択的にマスキングすることにより、単一のモデルは、フォワードダイナミクスモデリングやビデオ生成など、ポリシー学習を超えて多様なタスクに取り組むことができます。
広範な一連の実験を介して、UVAが、特定のアプリケーションに合わせた方法と比較してパフォーマンスを損なうことなく、ポリシー学習、フォワード/逆ダイナミクス、ビデオ観測予測などの幅広いロボットタスクの汎用ソリューションとして機能できることを実証します。
結果は、https://unifided-video-chract-model.github.io/で最もよく表示されます。

要約(オリジナル)

A unified video and action model holds significant promise for robotics, where videos provide rich scene information for action prediction, and actions provide dynamics information for video prediction. However, effectively combining video generation and action prediction remains challenging, and current video generation-based methods struggle to match the performance of direct policy learning in action accuracy and inference speed. To bridge this gap, we introduce the Unified Video Action model (UVA), which jointly optimizes video and action predictions to achieve both high accuracy and efficient action inference. The key lies in learning a joint video-action latent representation and decoupling video-action decoding. The joint latent representation bridges the visual and action domains, effectively modeling the relationship between video and action sequences. Meanwhile, the decoupled decoding, powered by two lightweight diffusion heads, enables high-speed action inference by bypassing video generation during inference. Such a unified framework further enables versatile functionality through masked input training. By selectively masking actions or videos, a single model can tackle diverse tasks beyond policy learning, such as forward and inverse dynamics modeling and video generation. Via an extensive set of experiments, we demonstrate that UVA can serve as a general-purpose solution for a wide range of robotics tasks, such as policy learning, forward/inverse dynamics and video observation prediction, without compromising performance compared to methods tailored for specific applications. Results are best viewed on https://unified-video-action-model.github.io/.

arxiv情報

著者 Shuang Li,Yihuai Gao,Dorsa Sadigh,Shuran Song
発行日 2025-04-24 20:02:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Unified Video Action Model はコメントを受け付けていません