BodyGPS: Anatomical Positioning System

要約

さまざまなモダリティに対応する医療画像に人間の解剖学を解析するための新しいタイプの基礎モデルを紹介します。
監視されたトレーニングまたは監視なしのトレーニングをサポートし、ユーザーの相互作用の有無にかかわらず、マッチング、登録、分類、またはセグメンテーションを実行できます。
これを達成し、回帰を介してAtlas座標に位置をマップするニューラルネットワーク推定器をトレーニングします。
入力をまばらにサンプリングすることで効率が向上し、追加のアクセルハードウェアなしで1ミリ秒未満の応答時間を可能にします。
CTとMRIモダリティの両方でアルゴリズムの有用性を示します。

要約(オリジナル)

We introduce a new type of foundational model for parsing human anatomy in medical images that works for different modalities. It supports supervised or unsupervised training and can perform matching, registration, classification, or segmentation with or without user interaction. We achieve this by training a neural network estimator that maps query locations to atlas coordinates via regression. Efficiency is improved by sparsely sampling the input, enabling response times of less than 1 ms without additional accelerator hardware. We demonstrate the utility of the algorithm in both CT and MRI modalities.

arxiv情報

著者 Halid Ziya Yerebakan,Kritika Iyer,Xueqi Guo,Yoshihisa Shinagawa,Gerardo Hermosillo Valadez
発行日 2025-05-12 16:53:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | BodyGPS: Anatomical Positioning System はコメントを受け付けていません

Step1X-3D: Towards High-Fidelity and Controllable Generation of Textured 3D Assets

要約

生成的人工知能はテキスト、画像、オーディオ、ビデオドメイン全体で大幅に進歩していますが、データ不足、アルゴリズムの制限、生態系の断片化などの基本的な課題により、3D生成は比較的未開発のままです。
この目的のために、次のような課題に対処するオープンなフレームワークであるStep1x-3dを提示します。(1)標準化された幾何学的およびテクスチャー特性を備えた2mの高品質データセットを作成するための厳密なデータキュレーションパイプライン処理> 5mアセット。
(2)拡散ベースのテクスチャ合成モジュールとハイブリッドVAE-DITジオメトリジェネレーターを組み合わせた2段階の3Dネイティブアーキテクチャ。
(3)モデル、トレーニングコード、および適応モジュールの完全なオープンソースリリース。
ジオメトリの生成については、ハイブリッドVAE-DITコンポーネントは、詳細保存のためにシャープなエッジサンプリングを使用して知覚機ベースの潜在エンコードを使用することにより、TSDF表現を生成します。
拡散ベースのテクスチャ合成モジュールは、幾何学的コンディショニングと潜在スペースの同期を通じてクロスビューの一貫性を保証します。
ベンチマークの結果は、既存のオープンソース方法を超える最先端のパフォーマンスを示し、同時に独自のソリューションで競争力を達成しています。
特に、このフレームワークは、2D制御技術の直接転送〜(例えば、LORA)から3D合成への直接転送をサポートすることにより、2Dおよび3D世代のパラダイムを一意に橋渡しします。
データ品質、アルゴリズムの忠実度、および再現性を同時に進めることにより、STEP1X-3Dは、制御可能な3Dアセット生成におけるオープン研究の新しい基準を確立することを目指しています。

要約(オリジナル)

While generative artificial intelligence has advanced significantly across text, image, audio, and video domains, 3D generation remains comparatively underdeveloped due to fundamental challenges such as data scarcity, algorithmic limitations, and ecosystem fragmentation. To this end, we present Step1X-3D, an open framework addressing these challenges through: (1) a rigorous data curation pipeline processing >5M assets to create a 2M high-quality dataset with standardized geometric and textural properties; (2) a two-stage 3D-native architecture combining a hybrid VAE-DiT geometry generator with an diffusion-based texture synthesis module; and (3) the full open-source release of models, training code, and adaptation modules. For geometry generation, the hybrid VAE-DiT component produces TSDF representations by employing perceiver-based latent encoding with sharp edge sampling for detail preservation. The diffusion-based texture synthesis module then ensures cross-view consistency through geometric conditioning and latent-space synchronization. Benchmark results demonstrate state-of-the-art performance that exceeds existing open-source methods, while also achieving competitive quality with proprietary solutions. Notably, the framework uniquely bridges the 2D and 3D generation paradigms by supporting direct transfer of 2D control techniques~(e.g., LoRA) to 3D synthesis. By simultaneously advancing data quality, algorithmic fidelity, and reproducibility, Step1X-3D aims to establish new standards for open research in controllable 3D asset generation.

arxiv情報

著者 Weiyu Li,Xuanyang Zhang,Zheng Sun,Di Qi,Hao Li,Wei Cheng,Weiwei Cai,Shihao Wu,Jiarui Liu,Zihao Wang,Xiao Chen,Feipeng Tian,Jianxiong Pan,Zeming Li,Gang Yu,Xiangyu Zhang,Daxin Jiang,Ping Tan
発行日 2025-05-12 16:56:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Step1X-3D: Towards High-Fidelity and Controllable Generation of Textured 3D Assets はコメントを受け付けていません

Skeletonization of neuronal processes using Discrete Morse techniques from computational topology

要約

生物学的知能を理解するには、脊椎動物の脳にニューロンネットワークをマッピングする必要があります。
メソスケールニューラル回路のマッピングは、軸索が異なる脳領域に投影するニューロンのグループをラベル付けするトレーサーの注入を使用して行われます。
多くのニューロンが標識されているため、個々の軸索に従うことは困難です。
代わりに、以前のアプローチは、地域内の総ラベル強度を使用して地域の予測を定量化しました。
ただし、そのような定量化は生物学的に意味がありません。
骨格化の標識軸索フラグメントにより、基礎となるニューロンによりよく接続され、体積長密度を推定することにより、新しいアプローチを提案します。
私たちのアプローチでは、ディープネットと計算トポロジーの離散モース(DM)技術の組み合わせを使用しています。
この手法は、非ローカル接続情報を考慮しているため、ノイズの強さを提供します。
全脳トレーサー注入データのアプローチの有用性とスケーラビリティを示します。
また、個々の軸索形態が利用可能な場合、スケルトン化されたトレーサー注入フラグメントと比較して、得られた追加情報を定量化する情報理論的尺度を定義および説明します。
私たちのアプローチは、計算神経解剖学へのDM技術の最初の応用です。
単一軸のスケルトンとトレーサー注入の間の橋渡しに役立ちます。これは、脊椎動物のニューラルネットワークのマッピングにおける2つの重要なデータ型です。

要約(オリジナル)

To understand biological intelligence we need to map neuronal networks in vertebrate brains. Mapping mesoscale neural circuitry is done using injections of tracers that label groups of neurons whose axons project to different brain regions. Since many neurons are labeled, it is difficult to follow individual axons. Previous approaches have instead quantified the regional projections using the total label intensity within a region. However, such a quantification is not biologically meaningful. We propose a new approach better connected to the underlying neurons by skeletonizing labeled axon fragments and then estimating a volumetric length density. Our approach uses a combination of deep nets and the Discrete Morse (DM) technique from computational topology. This technique takes into account nonlocal connectivity information and therefore provides noise-robustness. We demonstrate the utility and scalability of the approach on whole-brain tracer injected data. We also define and illustrate an information theoretic measure that quantifies the additional information obtained, compared to the skeletonized tracer injection fragments, when individual axon morphologies are available. Our approach is the first application of the DM technique to computational neuroanatomy. It can help bridge between single-axon skeletons and tracer injections, two important data types in mapping neural networks in vertebrates.

arxiv情報

著者 Samik Banerjee,Caleb Stam,Daniel J. Tward,Steven Savoia,Yusu Wang,Partha P. Mitra
発行日 2025-05-12 16:59:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, q-bio.NC | Skeletonization of neuronal processes using Discrete Morse techniques from computational topology はコメントを受け付けていません

Privacy Risks of Robot Vision: A User Study on Image Modalities and Resolution

要約

ユーザーのプライバシーは、特にモバイルサービスロボットが個人的またはデリケートな環境で展開されている場合、ロボットアプリケーションで重要な関心事です。
ただし、多くのロボットの下流タスクにはカメラの使用が必要であり、プライバシーリスクを引き起こす可能性があります。
視覚データに関連したプライバシーのユーザー認識をよりよく理解するために、さまざまなイメージのモダリティと画像解像度がユーザーのプライバシーの懸念にどのように影響するかを調査するユーザー調査を実施しました。
結果は、深さの画像がプライバシーセーフと広く見なされており、同様に高い割合の回答者がセマンティックセグメンテーション画像について同じと感じていることを示しています。
さらに、参加者の大半は、32*32解像度のRGB画像がほぼ十分にプライバシーを摂取していると考えていますが、ほとんどの人は16*16解像度がプライバシー保護を完全に保証できると考えています。

要約(オリジナル)

User privacy is a crucial concern in robotic applications, especially when mobile service robots are deployed in personal or sensitive environments. However, many robotic downstream tasks require the use of cameras, which may raise privacy risks. To better understand user perceptions of privacy in relation to visual data, we conducted a user study investigating how different image modalities and image resolutions affect users’ privacy concerns. The results show that depth images are broadly viewed as privacy-safe, and a similarly high proportion of respondents feel the same about semantic segmentation images. Additionally, the majority of participants consider 32*32 resolution RGB images to be almost sufficiently privacy-preserving, while most believe that 16*16 resolution can fully guarantee privacy protection.

arxiv情報

著者 Xuying Huang,Sicong Pan,Maren Bennewitz
発行日 2025-05-12 17:16:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Privacy Risks of Robot Vision: A User Study on Image Modalities and Resolution はコメントを受け付けていません

GP-GS: Gaussian Processes for Enhanced Gaussian Splatting

要約

3Dガウスのスプラッティングは、効率的なフォトリアリスティックな新規ビュー合成法として浮上しています。
ただし、モーションからのまばらな構造(SFM)ポイントクラウドへの依存は、多くの場合、シーンの再構成品質を制限します。
制限に対処するために、このペーパーでは、新しい3D再構成フレームワークを提案します。ガウスプロセスは、ガウススプラッティング(GP-GS)を強化します。このプロセスでは、マルチプットットのガウスプロセスモデルが開発され、まばらなSFMポイントクラウドの適応および不確実性の濃度化が可能になります。
具体的には、GPベースの予測を活用して入力2Dピクセルと深度マップから新しい候補ポイントを推測することにより、SFMポイントクラウドを適応的に拡張する動的なサンプリングとフィルタリングパイプラインを提案します。
パイプラインは、不確実性の推定値を利用して、高分散予測の剪定を導き、幾何学的な一貫性を確保し、密なポイント雲の生成を可能にします。
これらの高密度のポイント雲は、高品質の初期3Dガウス症を提供し、再構築パフォーマンスを向上させます。
さまざまなスケールで合成および実世界のデータセットで実施された広範な実験は、提案されたフレームワークの有効性と実用性を検証します。

要約(オリジナル)

3D Gaussian Splatting has emerged as an efficient photorealistic novel view synthesis method. However, its reliance on sparse Structure-from-Motion (SfM) point clouds often limits scene reconstruction quality. To address the limitation, this paper proposes a novel 3D reconstruction framework, Gaussian Processes enhanced Gaussian Splatting (GP-GS), in which a multi-output Gaussian Process model is developed to enable adaptive and uncertainty-guided densification of sparse SfM point clouds. Specifically, we propose a dynamic sampling and filtering pipeline that adaptively expands the SfM point clouds by leveraging GP-based predictions to infer new candidate points from the input 2D pixels and depth maps. The pipeline utilizes uncertainty estimates to guide the pruning of high-variance predictions, ensuring geometric consistency and enabling the generation of dense point clouds. These densified point clouds provide high-quality initial 3D Gaussians, enhancing reconstruction performance. Extensive experiments conducted on synthetic and real-world datasets across various scales validate the effectiveness and practicality of the proposed framework.

arxiv情報

著者 Zhihao Guo,Jingxuan Su,Shenglin Wang,Jinlong Fan,Jing Zhang,Wei Zhou,Hadi Amirpour,Yunlong Zhao,Liangxiu Han,Peng Wang
発行日 2025-05-12 17:53:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T45, cs.AI, cs.CV | GP-GS: Gaussian Processes for Enhanced Gaussian Splatting はコメントを受け付けていません

Continuous Visual Autoregressive Generation via Score Maximization

要約

従来の知恵は、自己回帰モデルを使用して個別のデータを処理することを示唆しています。
視覚データなどの連続モダリティに適用されると、視覚的自己回帰モデリング(VAR)は通常、量子化ベースのアプローチに頼って、データを個別のスペースにキャストし、重要な情報損失をもたらす可能性があります。
この問題に取り組むために、ベクター量子化なしで直接的な視覚的自己回帰生成を可能にする連続VARフレームワークを導入します。
基礎となる理論的基礎は厳密に適切なスコアリングルールであり、生成モデルが真の分布にどれだけ適しているかを評価できる強力な統計ツールを提供します。
このフレームワーク内で、必要なのは、厳密に適切なスコアを選択し、最適化するトレーニング目標として設定することだけです。
私たちは主に、エネルギースコアに基づいたトレーニング目標のクラスを探求します。エネルギースコアは、可能性がないため、連続空間で確率的予測を行うことの難しさを克服します。
GIVTや拡散損失などの継続的な自己回帰生成に関する以前の取り組みは、他の厳密に適切なスコアを使用して、フレームワークから導き出すこともできます。
ソースコード:https://github.com/shaochenze/ear。

要約(オリジナル)

Conventional wisdom suggests that autoregressive models are used to process discrete data. When applied to continuous modalities such as visual data, Visual AutoRegressive modeling (VAR) typically resorts to quantization-based approaches to cast the data into a discrete space, which can introduce significant information loss. To tackle this issue, we introduce a Continuous VAR framework that enables direct visual autoregressive generation without vector quantization. The underlying theoretical foundation is strictly proper scoring rules, which provide powerful statistical tools capable of evaluating how well a generative model approximates the true distribution. Within this framework, all we need is to select a strictly proper score and set it as the training objective to optimize. We primarily explore a class of training objectives based on the energy score, which is likelihood-free and thus overcomes the difficulty of making probabilistic predictions in the continuous space. Previous efforts on continuous autoregressive generation, such as GIVT and diffusion loss, can also be derived from our framework using other strictly proper scores. Source code: https://github.com/shaochenze/EAR.

arxiv情報

著者 Chenze Shao,Fandong Meng,Jie Zhou
発行日 2025-05-12 17:58:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Continuous Visual Autoregressive Generation via Score Maximization はコメントを受け付けていません

DexWild: Dexterous Human Interactions for In-the-Wild Robot Policies

要約

大規模で多様なロボットデータセットは、目覚る操作ポリシーが新しい環境に一般化することを可能にするための有望な道のりとして浮上していますが、そのようなデータセットを取得することは多くの課題を提示します。
テレオ操作は高忠実度のデータセットを提供しますが、その高コストはスケーラビリティを制限します。
代わりに、人々が日常生活と同じように自分の手を使ってデータを収集できるとしたらどうでしょうか。
Dexwildでは、多様なデータコレクターチームが手を使用して、多数の環境とオブジェクトにわたって何時間ものインタラクションを収集します。
このデータを記録するために、低コスト、モバイル、使いやすいデバイスであるDexWild-Systemを作成します。
Dexwild Learning Frameworkは、人間とロボットの両方のデモンストレーションの共同訓練であり、各データセットでのトレーニングと比較してパフォーマンスが向上しました。
この組み合わせにより、ロボット固有のデータを最小限に抑えて、新しい環境、タスク、および実施形態に一般化できるロボットポリシーが堅牢になります。
実験結果は、Dexwildがパフォーマンスを大幅に改善し、ロボットデータのみで訓練されたポリシーの4倍の目に見えない環境で68.5%の成功率を達成し、5.8倍の優れた交差体の一般化を提供することを示しています。
https://dexwild.github.ioのビデオ結果、コードベース、および手順

要約(オリジナル)

Large-scale, diverse robot datasets have emerged as a promising path toward enabling dexterous manipulation policies to generalize to novel environments, but acquiring such datasets presents many challenges. While teleoperation provides high-fidelity datasets, its high cost limits its scalability. Instead, what if people could use their own hands, just as they do in everyday life, to collect data? In DexWild, a diverse team of data collectors uses their hands to collect hours of interactions across a multitude of environments and objects. To record this data, we create DexWild-System, a low-cost, mobile, and easy-to-use device. The DexWild learning framework co-trains on both human and robot demonstrations, leading to improved performance compared to training on each dataset individually. This combination results in robust robot policies capable of generalizing to novel environments, tasks, and embodiments with minimal additional robot-specific data. Experimental results demonstrate that DexWild significantly improves performance, achieving a 68.5% success rate in unseen environments-nearly four times higher than policies trained with robot data only-and offering 5.8x better cross-embodiment generalization. Video results, codebases, and instructions at https://dexwild.github.io

arxiv情報

著者 Tony Tao,Mohan Kumar Srirama,Jason Jingzhou Liu,Kenneth Shaw,Deepak Pathak
発行日 2025-05-12 17:59:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO, cs.SY, eess.SY | DexWild: Dexterous Human Interactions for In-the-Wild Robot Policies はコメントを受け付けていません

Imagine, Verify, Execute: Memory-Guided Agentic Exploration with Vision-Language Models

要約

特に密集した報酬、明示的な目標、またはタスク固有の監督が少ないオープンエンド環境では、一般的なロボット学習には探索が不可欠です。
オブジェクト、空間的関係、および潜在的な結果をめぐるセマンティックな推論を備えたビジョン言語モデル(VLM)は、高レベルの探索的行動を生成するための説得力のある基盤を提示します。
ただし、それらの出力はしばしば接地されていないため、想像上の移行が物理的に実現可能か有益であるかを判断することは困難です。
想像力と実行の間のギャップを埋めるために、人間の好奇心に触発されたエージェントの探索フレームワークであるIVE(想像、検証、実行)を提示します。
人間の探検は、多くの場合、新しいシーンの構成を発見し、環境の理解を深めるという欲求によって推進されます。
同様に、IVEはVLMをレバレッジしてRGB-Dの観察をセマンティックシーングラフに抽象化し、新しいシーンを想像し、物理的な妥当性を予測し、アクションツールを介して実行可能なスキルシーケンスを生成します。
シミュレートされた卓上環境と現実世界の両方の環境でIVEを評価します。
結果は、IVEがRLベースラインよりも多様で意味のある探索を可能にすることを示しています。
さらに、収集されたエクスペリエンスは、下流の学習をサポートし、人間が収集したデモンストレーションで訓練されたもののパフォーマンスに密接に一致するか、それを超えるポリシーを作成します。

要約(オリジナル)

Exploration is essential for general-purpose robotic learning, especially in open-ended environments where dense rewards, explicit goals, or task-specific supervision are scarce. Vision-language models (VLMs), with their semantic reasoning over objects, spatial relations, and potential outcomes, present a compelling foundation for generating high-level exploratory behaviors. However, their outputs are often ungrounded, making it difficult to determine whether imagined transitions are physically feasible or informative. To bridge the gap between imagination and execution, we present IVE (Imagine, Verify, Execute), an agentic exploration framework inspired by human curiosity. Human exploration is often driven by the desire to discover novel scene configurations and to deepen understanding of the environment. Similarly, IVE leverages VLMs to abstract RGB-D observations into semantic scene graphs, imagine novel scenes, predict their physical plausibility, and generate executable skill sequences through action tools. We evaluate IVE in both simulated and real-world tabletop environments. The results show that IVE enables more diverse and meaningful exploration than RL baselines, as evidenced by a 4.1 to 7.8x increase in the entropy of visited states. Moreover, the collected experience supports downstream learning, producing policies that closely match or exceed the performance of those trained on human-collected demonstrations.

arxiv情報

著者 Seungjae Lee,Daniel Ekpo,Haowen Liu,Furong Huang,Abhinav Shrivastava,Jia-Bin Huang
発行日 2025-05-12 17:59:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO | Imagine, Verify, Execute: Memory-Guided Agentic Exploration with Vision-Language Models はコメントを受け付けていません

Prompt to Polyp: Medical Text-Conditioned Image Synthesis with Diffusion Models

要約

テキストの説明から現実的な医療画像の生成は、患者のプライバシーを維持しながら、ヘルスケアAIのデータ不足の課題に対処する重要な可能性を秘めています。
このホワイトペーパーでは、医療ドメインでのテキスト間合成の包括的な研究を提示し、2つの異なるアプローチを比較しています。(1)微調整する大規模な訓練を受けた潜在拡散モデルと(2)小規模なドメイン固有のモデルのトレーニング。
MSDMという名前の新しいモデルを紹介します。これは、臨床テキストエンコーダー、変分自動エンコーダー、およびクロスアテンションメカニズムを統合する安定した拡散に基づいた最適化されたアーキテクチャであり、医療テキストプロンプトと生成された画像をより適切に調整します。
私たちの研究では、2つのアプローチを比較しています。つまり、大規模な事前訓練モデル(Flux、Kandinsky)とコンパクトドメイン固有のモデル(MSDM)のトレーニングです。
大腸内視鏡検査(MEDVQA-GI)および放射線学(ROCOV2)データセット全体の評価により、大規模なモデルはより高い忠実度を達成しますが、最適化されたMSDMは、計算コストが低いと同等の品質を提供することが明らかになりました。
医療専門家による定量的指標と定性的評価は、各アプローチの長所と制限を明らかにします。

要約(オリジナル)

The generation of realistic medical images from text descriptions has significant potential to address data scarcity challenges in healthcare AI while preserving patient privacy. This paper presents a comprehensive study of text-to-image synthesis in the medical domain, comparing two distinct approaches: (1) fine-tuning large pre-trained latent diffusion models and (2) training small, domain-specific models. We introduce a novel model named MSDM, an optimized architecture based on Stable Diffusion that integrates a clinical text encoder, variational autoencoder, and cross-attention mechanisms to better align medical text prompts with generated images. Our study compares two approaches: fine-tuning large pre-trained models (FLUX, Kandinsky) versus training compact domain-specific models (MSDM). Evaluation across colonoscopy (MedVQA-GI) and radiology (ROCOv2) datasets reveals that while large models achieve higher fidelity, our optimized MSDM delivers comparable quality with lower computational costs. Quantitative metrics and qualitative evaluations by medical experts reveal strengths and limitations of each approach.

arxiv情報

著者 Mikhail Chaichuk,Sushant Gautam,Steven Hicks,Elena Tutubalina
発行日 2025-05-12 17:59:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T07, 68U10, 92C55, cs.AI, cs.CV, I.2.10 | Prompt to Polyp: Medical Text-Conditioned Image Synthesis with Diffusion Models はコメントを受け付けていません

Pixel Motion as Universal Representation for Robot Control

要約

ピクセルモーション予測を中間表現として使用するデュアルシステムアーキテクチャとして構成されたビジョン言語アクションフレームワークであるLangtomoを提示します。
画像拡散モデルである高レベルのシステム2は、単一のフレームからテキストコンディショニングされたピクセルモーションシーケンスを生成し、ロボット制御をガイドします。
Pixel Motion-Universal、解釈可能、およびモーション中心の表現は、ビデオスケールのビデオキャプションデータで拡散モデルトレーニングを可能にし、自己補助的な方法でビデオから抽出されます。
生成されたピクセルの動きを学んだ普遍的な表現として処理すると、低レベルのシステム1モジュールは、これらを動作マッピング関数を介してロボットアクションに変換します。
System 2は、まばらな時間間隔で適用される高レベルのポリシーとして動作しますが、システム1は密な時間間隔で低レベルポリシーとして機能します。
この階層的な分離は、言語、動き、およびアクションのギャップを埋めるために、監視されていない設定と監視された設定の両方で、柔軟でスケーラブルで一般化可能なロボット制御を可能にします。
視覚化については、https://kahnchana.github.io/langtomoのチェックアウト。

要約(オリジナル)

We present LangToMo, a vision-language-action framework structured as a dual-system architecture that uses pixel motion forecasts as intermediate representations. Our high-level System 2, an image diffusion model, generates text-conditioned pixel motion sequences from a single frame to guide robot control. Pixel motion-a universal, interpretable, and motion-centric representation-can be extracted from videos in a self-supervised manner, enabling diffusion model training on web-scale video-caption data. Treating generated pixel motion as learned universal representations, our low level System 1 module translates these into robot actions via motion-to-action mapping functions, which can be either hand-crafted or learned with minimal supervision. System 2 operates as a high-level policy applied at sparse temporal intervals, while System 1 acts as a low-level policy at dense temporal intervals. This hierarchical decoupling enables flexible, scalable, and generalizable robot control under both unsupervised and supervised settings, bridging the gap between language, motion, and action. Checkout https://kahnchana.github.io/LangToMo for visualizations.

arxiv情報

著者 Kanchana Ranasinghe,Xiang Li,Cristina Mata,Jongwoo Park,Michael S Ryoo
発行日 2025-05-12 17:59:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Pixel Motion as Universal Representation for Robot Control はコメントを受け付けていません