Matching Distance and Geometric Distribution Aided Learning Multiview Point Cloud Registration

要約

Multiview Pointクラウド登録は、ロボット工学、自動化、およびコンピュータービジョンフィールドで重要な役割を果たします。
このペーパーでは、マルチビュー登録内のポーズグラフ構造とモーションの同期に集中しています。
ポーズグラフ構造のための以前の方法では、多くの場合、完全に接続されたグラフを剪定するか、ローカル記述子から集約されたグローバルな特徴を使用してスパースグラフを構築しましたが、これは一貫して信頼できる結果をもたらさない可能性があります。
ポーズグラフ構造のための信頼できるペアを識別するために、ポイントクラウドペア間の一致する距離から情報を抽出するネットワークモデルを設計します。
モーションの同期については、不正確な手作りの損失関数を最適化するのではなく、データ駆動型の方法で絶対ポーズを計算する別のニューラルネットワークモデルを提案します。
私たちのモデルは、幾何学的な分布情報を考慮し、柔軟で信頼できる機能の相互作用を促進するために修正された注意メカニズムを採用しています。
多様な屋内および屋外データセットの実験結果は、アプローチの有効性と一般化可能性を確認します。
ソースコードは、https://github.com/shi-qi-li/mdgdで入手できます。

要約(オリジナル)

Multiview point cloud registration plays a crucial role in robotics, automation, and computer vision fields. This paper concentrates on pose graph construction and motion synchronization within multiview registration. Previous methods for pose graph construction often pruned fully connected graphs or constructed sparse graph using global feature aggregated from local descriptors, which may not consistently yield reliable results. To identify dependable pairs for pose graph construction, we design a network model that extracts information from the matching distance between point cloud pairs. For motion synchronization, we propose another neural network model to calculate the absolute pose in a data-driven manner, rather than optimizing inaccurate handcrafted loss functions. Our model takes into account geometric distribution information and employs a modified attention mechanism to facilitate flexible and reliable feature interaction. Experimental results on diverse indoor and outdoor datasets confirm the effectiveness and generalizability of our approach. The source code is available at https://github.com/Shi-Qi-Li/MDGD.

arxiv情報

著者 Shiqi Li,Jihua Zhu,Yifan Xie,Naiwen Hu,Di Wang
発行日 2025-05-06 16:54:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Matching Distance and Geometric Distribution Aided Learning Multiview Point Cloud Registration はコメントを受け付けていません

VecFontSDF: Learning to Reconstruct and Synthesize High-quality Vector Fonts via Signed Distance Functions

要約

フォント設計は、デジタルコンテンツデザインと最新の印刷業界で非常に重要です。
ベクトルフォントを自動的に合成できるアルゴリズムの開発は、フォント設計プロセスを大幅に促進できます。
ただし、既存の方法は主にラスター画像の生成に集中しており、ベクトルフォントを直接合成できるアプローチはごくわずかです。
このペーパーでは、署名距離関数(SDF)を使用して高品質のベクトルフォントを再構築および合成するためのエンドツーエンドのトレーニング可能な方法VecfontSDFを提案します。
具体的には、提案されているSDFベースの暗黙的な形状表現に基づいて、VecfontSDFは、各グリフをいくつかの放物線曲線に囲まれた形状プリミティブとしてモデル化することを学びます。
このように、ほとんどの画像生成方法は、ベクトルフォントを合成するために簡単に拡張できます。
公開可能なデータセットで実施された定性的および定量的実験は、ベクターフォントの再構築、補間、少数のショットベクターフォント合成など、いくつかのタスクで高品質の結果を得て、アートの状態を著しく上回ることを示しています。
コードと訓練されたモデルは、https://xiazeqing.github.io/vecfontsdfで入手できます。

要約(オリジナル)

Font design is of vital importance in the digital content design and modern printing industry. Developing algorithms capable of automatically synthesizing vector fonts can significantly facilitate the font design process. However, existing methods mainly concentrate on raster image generation, and only a few approaches can directly synthesize vector fonts. This paper proposes an end-to-end trainable method, VecFontSDF, to reconstruct and synthesize high-quality vector fonts using signed distance functions (SDFs). Specifically, based on the proposed SDF-based implicit shape representation, VecFontSDF learns to model each glyph as shape primitives enclosed by several parabolic curves, which can be precisely converted to quadratic B\’ezier curves that are widely used in vector font products. In this manner, most image generation methods can be easily extended to synthesize vector fonts. Qualitative and quantitative experiments conducted on a publicly-available dataset demonstrate that our method obtains high-quality results on several tasks, including vector font reconstruction, interpolation, and few-shot vector font synthesis, markedly outperforming the state of the art. Our code and trained models are available at https://xiazeqing.github.io/VecFontSDF.

arxiv情報

著者 Zeqing Xia,Bojun Xiong,Zhouhui Lian
発行日 2025-05-06 17:02:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | VecFontSDF: Learning to Reconstruct and Synthesize High-quality Vector Fonts via Signed Distance Functions はコメントを受け付けていません

SMORE: Simultaneous Map and Object REconstruction

要約

Lidarからの大規模な都市シーンの動的な表面再構築の方法を提示します。
深さベースの再構成は、移動オブジェクトを外れ値として扱う小規模なオブジェクトまたは大規模なスラム再構成に焦点を当てる傾向があります。
私たちは全体的な視点を取り、世界を厳格に動くオブジェクトと背景に分解する動的なシーンの構成モデルを最適化します。
これを達成するために、最近の新規ビューの合成方法からインスピレーションを得て、再構成問題を神経表面、自我のポーズ、およびオブジェクトポーズよりもグローバルな最適化としてフレーム化します。
通常、勾配降下を伴う2Dエラーを最小限に抑える合成法とは対照的に、座標降下により3Dポイントツーサーフェスエラーを最小限に抑えます。
各ステップは、再トレーニングなしで既製のメソッドで適切に処理できます。
ローリングシャッターリダーの表面再構成ステップを分析し、連続時間に共通するデッキー操作も動的なオブジェクトに適用できることを示し、以前のアートにわたる結果を数桁改善します。
それ自体の目標として動的な再構築を追求するだけでなく、そのようなシステムを使用して、部分的に注釈付きシーケンスを自動するために使用し、深さの完了やシーンの流れなどのラベルが困難な問題のためのグラウンドトゥルースアノテーションを生成できることを提案します。
視覚的な結果については、https://anishmadan23.github.io/smore/をご覧ください。

要約(オリジナル)

We present a method for dynamic surface reconstruction of large-scale urban scenes from LiDAR. Depth-based reconstructions tend to focus on small-scale objects or large-scale SLAM reconstructions that treat moving objects as outliers. We take a holistic perspective and optimize a compositional model of a dynamic scene that decomposes the world into rigidly-moving objects and the background. To achieve this, we take inspiration from recent novel view synthesis methods and frame the reconstruction problem as a global optimization over neural surfaces, ego poses, and object poses, which minimizes the error between composed spacetime surfaces and input LiDAR scans. In contrast to view synthesis methods, which typically minimize 2D errors with gradient descent, we minimize a 3D point-to-surface error by coordinate descent, which we decompose into registration and surface reconstruction steps. Each step can be handled well by off-the-shelf methods without any re-training. We analyze the surface reconstruction step for rolling-shutter LiDARs, and show that deskewing operations common in continuous time SLAM can be applied to dynamic objects as well, improving results over prior art by an order of magnitude. Beyond pursuing dynamic reconstruction as a goal in and of itself, we propose that such a system can be used to auto-label partially annotated sequences and produce ground truth annotation for hard-to-label problems such as depth completion and scene flow. Please see https://anishmadan23.github.io/smore/ for more visual results.

arxiv情報

著者 Nathaniel Chodosh,Anish Madan,Simon Lucey,Deva Ramanan
発行日 2025-05-06 17:17:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | SMORE: Simultaneous Map and Object REconstruction はコメントを受け付けていません

Self-Supervised Learning for Robotic Leaf Manipulation: A Hybrid Geometric-Neural Approach

要約

農業環境での葉の操作の自動化は、植物の形態の変動や変形可能な葉の変動など、重大な課題に直面しています。
私たちは、自己監視学習を通じて、従来のコンピュータービジョンとニューラルネットワークを組み合わせた自律的な葉をつかむための新しいハイブリッド幾何学的アプローチを提案します。
私たちの方法は、たとえばセグメンテーションのためにYolov8を統合し、3D深度推定のためにRaft-stereoを統合して、豊富な葉の表現を構築します。これは、幾何学的特徴スコアリングパイプラインとニューラル精製モジュール(GrasoptointCNN)の両方にフィー​​ドします。
重要な革新は、予測の確実性に基づいて各アプローチの貢献度を動的にバランスさせる自信加重融合メカニズムです。
私たちの自己監視されたフレームワークは、幾何学的なパイプラインを専門の教師として使用して、トレーニングデータを自動的に生成します。
実験は、私たちのアプローチが制御された環境で88.0%の成功率を達成し、実際の温室条件で84.7%を達成し、純粋に幾何学(75.3%)と神経(60.2%)の両方の方法を大幅に上回ることを示しています。
この作業は、ドメインの専門知識が機械学習能力とシームレスに統合されている農業ロボット工学の新しいパラダイムを確立し、完全に自動化された作物監視システムの基盤を提供します。

要約(オリジナル)

Automating leaf manipulation in agricultural settings faces significant challenges, including the variability of plant morphologies and deformable leaves. We propose a novel hybrid geometric-neural approach for autonomous leaf grasping that combines traditional computer vision with neural networks through self-supervised learning. Our method integrates YOLOv8 for instance segmentation and RAFT-Stereo for 3D depth estimation to build rich leaf representations, which feed into both a geometric feature scoring pipeline and a neural refinement module (GraspPointCNN). The key innovation is our confidence-weighted fusion mechanism that dynamically balances the contribution of each approach based on prediction certainty. Our self-supervised framework uses the geometric pipeline as an expert teacher to automatically generate training data. Experiments demonstrate that our approach achieves an 88.0% success rate in controlled environments and 84.7% in real greenhouse conditions, significantly outperforming both purely geometric (75.3%) and neural (60.2%) methods. This work establishes a new paradigm for agricultural robotics where domain expertise is seamlessly integrated with machine learning capabilities, providing a foundation for fully automated crop monitoring systems.

arxiv情報

著者 Srecharan Selvam,Abhishesh Silwal,George Kanter
発行日 2025-05-06 17:22:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO, I.2.10 | Self-Supervised Learning for Robotic Leaf Manipulation: A Hybrid Geometric-Neural Approach はコメントを受け付けていません

Efficient Diversity-Preserving Diffusion Alignment via Gradient-Informed GFlowNets

要約

一般に、ターゲットのダウンストリームタスクでデータセットを収集することにより大きな拡散モデルをトレーニングしますが、専門家によって設計された、または小規模データセットから学習されたいくつかの報酬機能を備えた、前処理された拡散モデルを調整および微調整することがしばしば望まれます。
拡散モデルの報酬の微調整のための既存のトレーニング後の方法は、通常、生成されたサンプルの多様性の欠如、事前の保存の欠如、および/または微調整のゆっくりした収束に苦しんでいます。
この課題に応えて、私たちは生成フローネットワーク(Gflownets)での最近の成功からインスピレーションを得て、拡散モデルの微調整の強化学習方法を提案します。
私たちの提案された方法は、さまざまな現実的な報酬関数で、大規模なテキスト条件の画像拡散モデルである、安定した拡散の高速でありながら多様性および以前の予測の微調整を達成することを示しています。

要約(オリジナル)

While one commonly trains large diffusion models by collecting datasets on target downstream tasks, it is often desired to align and finetune pretrained diffusion models with some reward functions that are either designed by experts or learned from small-scale datasets. Existing post-training methods for reward finetuning of diffusion models typically suffer from lack of diversity in generated samples, lack of prior preservation, and/or slow convergence in finetuning. In response to this challenge, we take inspiration from recent successes in generative flow networks (GFlowNets) and propose a reinforcement learning method for diffusion model finetuning, dubbed Nabla-GFlowNet (abbreviated as $\nabla$-GFlowNet), that leverages the rich signal in reward gradients for probabilistic diffusion finetuning. We show that our proposed method achieves fast yet diversity- and prior-preserving finetuning of Stable Diffusion, a large-scale text-conditioned image diffusion model, on different realistic reward functions.

arxiv情報

著者 Zhen Liu,Tim Z. Xiao,Weiyang Liu,Yoshua Bengio,Dinghuai Zhang
発行日 2025-05-06 17:24:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Efficient Diversity-Preserving Diffusion Alignment via Gradient-Informed GFlowNets はコメントを受け付けていません

Fill the Gap: Quantifying and Reducing the Modality Gap in Image-Text Representation Learning

要約

ビジョン言語モデル(VLM)により、共有表現スペースにテキストと画像を埋め込むことができます。
ただし、これらのモデルはモダリティギャップ現象の対象となることが示されています。つまり、1つのモダリティからの埋め込みと埋め込み空間に埋め込みの間に明確な分離が存在することを意味します。
この不整合は、マルチモーダル検索、マルチモーダルクラスタリング、ゼロショット分類などの下流タスクにとって有害で​​すが、それを正確に評価し、さらに減らすための一般的で実用的な方法は提案されていません。
したがって、この目標を達成するために、新しい対策と効果的な手法(スペクトルおよび最適な輸送ベースの方法)を提案します。
いくつかの画像テキストデータセットとモデルで実施された広範な実験は、下流タスクに対する有効性と有益な効果を示しています。
私たちのコードは、論文の要約で提供されるURLで入手できます。

要約(オリジナル)

Vision-language models (VLMs) allow to embed texts and images in a shared representation space. However, it has been shown that these models are subject to a modality gap phenomenon meaning there exists a clear separation between the embeddings from one modality and another in the embedding space. While this misalignment is detrimental for downstream tasks such as multimodal retrieval, multimodal clustering or zero-shot classification, etc. no generic and practical methods have so far been proposed to assess it precisely and even reduce it. We therefore propose novel measures and effective techniques (spectral- and optimal transport-based methods) to achieve this goal. Extensive experiments conducted on several image-text datasets and models demonstrate their effectiveness and beneficial effects on downstream tasks. Our code is available at the URL provided in the paper’s abstract.

arxiv情報

著者 François Role,Sébastien Meyer,Victor Amblard
発行日 2025-05-06 17:24:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Fill the Gap: Quantifying and Reducing the Modality Gap in Image-Text Representation Learning はコメントを受け付けていません

Adversarial Robustness of Deep Learning Models for Inland Water Body Segmentation from SAR Images

要約

合成開口レーダー(SAR)画像からの内陸水域のセグメンテーションは、洪水マッピングなど、いくつかの用途に必要な重要なタスクです。
SARセンサーは、高解像度の画像として全天候条件でデータをキャプチャしますが、SAR画像の水と水のような表面を区別することは簡単ではありません。
大きな河川流域などの内陸の水域には、複雑な形状があり、セグメンテーションの課題になります。
u-netは、SAR画像の陸水セグメンテーションのために広く使用されている深い学習モデルです。
実際には、手動注釈は、対応する水マスクを地上の真理として生成するためによく使用されます。
画像の手動注釈は、特に複雑なジオメトリにより、データ中毒攻撃によりノイズにラベルを付ける傾向があります。
この作業では、U-NETモデルに対する敵対的な攻撃の形で手動エラーをシミュレートし、注釈の人的エラーに対するモデルの堅牢性を研究します。
我々の結果は、U-Netがパフォーマンスが大幅に低下する前に、特定のレベルの腐敗を許容できることを示しています。
この発見は、セグメンテーションモデルの有効性を決定する上で、手動注釈の品質が果たす重要な役割を強調しています。
コードと新しいデータセットは、堅牢なトレーニングの敵対的な例とともに、公開されています。
(github link-https://github.com/gvcl/iwseg-sar-poison.git)

要約(オリジナル)

Inland water body segmentation from Synthetic Aperture Radar (SAR) images is an important task needed for several applications, such as flood mapping. While SAR sensors capture data in all-weather conditions as high-resolution images, differentiating water and water-like surfaces from SAR images is not straightforward. Inland water bodies, such as large river basins, have complex geometry, which adds to the challenge of segmentation. U-Net is a widely used deep learning model for land-water segmentation of SAR images. In practice, manual annotation is often used to generate the corresponding water masks as ground truth. Manual annotation of the images is prone to label noise owing to data poisoning attacks, especially due to complex geometry. In this work, we simulate manual errors in the form of adversarial attacks on the U-Net model and study the robustness of the model to human errors in annotation. Our results indicate that U-Net can tolerate a certain level of corruption before its performance drops significantly. This finding highlights the crucial role that the quality of manual annotations plays in determining the effectiveness of the segmentation model. The code and the new dataset, along with adversarial examples for robust training, are publicly available. (GitHub link – https://github.com/GVCL/IWSeg-SAR-Poison.git)

arxiv情報

著者 Siddharth Kothari,Srinivasan Murali,Sankalp Kothari,Ujjwal Verma,Jaya Sreevalsan-Nair
発行日 2025-05-06 17:26:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, eess.IV | Adversarial Robustness of Deep Learning Models for Inland Water Body Segmentation from SAR Images はコメントを受け付けていません

DISARM++: Beyond scanner-free harmonization

要約

さまざまなスキャナーにわたるT1強調MR画像の調和は、神経画像研究の一貫性を確保するために重要です。
この研究では、画像の調和を直接するための新しいアプローチを紹介し、機能を超えて標準化を超えて、抽出された特徴がダウンストリーム分析のために本質的に信頼性を維持することを保証します。
私たちの方法は、2つの方法で画像転送を可能にします。(1)すべてのスキャナーにわたって均一な外観のためのスキャナーフリーのスペースへの画像のマッピング、および(2)モデルトレーニングで使用される特定のスキャナーのドメインに画像を変換し、そのユニークな特性を埋め込みます。
私たちのアプローチは、トレーニングフェーズに含まれていない目に見えないスキャナーであっても、強力な一般化能力を提示します。
健康なコントロール、移動科目、アルツハイマー病(AD)の個人など、多様なコホートのMR画像を使用して方法を検証しました。
モデルの有効性は、脳年齢予測(R2 = 0.60 \ PM 0.05)、バイオマーカー抽出、AD分類(テスト精度= 0.86 \ PM 0.03)、診断予測(AUC = 0.95)などの複数のアプリケーションでテストされています。
すべての場合において、当社の調和手法は最先端の方法よりも優れており、信頼性と予測精度の両方の改善を示しています。
さらに、私たちのアプローチは、脳と非脳の構造を誤分類することでエラーを導入できるスカルストリッピングなどの広範な前処理ステップの必要性を排除します。
これにより、頭部外傷や頭蓋の変形に関する研究など、フルヘッド分析が必要なアプリケーションに特に適しています。
さらに、当社の調和モデルでは、新しいデータセットの再訓練を必要としないため、さまざまなニューロイメージングワークフローへのスムーズな統合が可能になります。
スキャナーに不変の画像品質を確保することにより、当社のアプローチは、多様な設定全体で神経画像研究を改善するための堅牢で効率的なソリューションを提供します。
このコードはこのリンクで利用できます。

要約(オリジナル)

Harmonization of T1-weighted MR images across different scanners is crucial for ensuring consistency in neuroimaging studies. This study introduces a novel approach to direct image harmonization, moving beyond feature standardization to ensure that extracted features remain inherently reliable for downstream analysis. Our method enables image transfer in two ways: (1) mapping images to a scanner-free space for uniform appearance across all scanners, and (2) transforming images into the domain of a specific scanner used in model training, embedding its unique characteristics. Our approach presents strong generalization capability, even for unseen scanners not included in the training phase. We validated our method using MR images from diverse cohorts, including healthy controls, traveling subjects, and individuals with Alzheimer’s disease (AD). The model’s effectiveness is tested in multiple applications, such as brain age prediction (R2 = 0.60 \pm 0.05), biomarker extraction, AD classification (Test Accuracy = 0.86 \pm 0.03), and diagnosis prediction (AUC = 0.95). In all cases, our harmonization technique outperforms state-of-the-art methods, showing improvements in both reliability and predictive accuracy. Moreover, our approach eliminates the need for extensive preprocessing steps, such as skull-stripping, which can introduce errors by misclassifying brain and non-brain structures. This makes our method particularly suitable for applications that require full-head analysis, including research on head trauma and cranial deformities. Additionally, our harmonization model does not require retraining for new datasets, allowing smooth integration into various neuroimaging workflows. By ensuring scanner-invariant image quality, our approach provides a robust and efficient solution for improving neuroimaging studies across diverse settings. The code is available at this link.

arxiv情報

著者 Luca Caldera,Lara Cavinato,Alessio Cirone,Isabella Cama,Sara Garbarino,Raffaele Lodi,Fabrizio Tagliavini,Anna Nigri,Silvia De Francesco,Andrea Cappozzo,Michele Piana,Francesca Ieva
発行日 2025-05-06 17:36:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | DISARM++: Beyond scanner-free harmonization はコメントを受け付けていません

UI-Vision: A Desktop-centric GUI Benchmark for Visual Perception and Interaction

要約

グラフィカルユーザーインターフェイス(GUI)をナビゲートしてドキュメントの編集やファイル管理などのタスクを自動化する自律エージェントは、コンピューターのワークフローを大幅に強化できます。
既存の研究では、オンライン設定に焦点を当てていますが、多くの専門的および日常的なタスクにとって重要であるデスクトップ環境は、データ収集の課題とライセンスの問題のために未脱カッティングのままです。
現実世界のデスクトップ環境でのコンピューター使用エージェントのオフラインで微調整された評価のための最初の包括的なライセンス頻度のベンチマークであるUI-Visionを紹介します。
オンラインベンチマークとは異なり、UI-Visionは次のことを提供します。
デスクトップ環境でのパフォーマンス。
私たちの評価は、プロのソフトウェアの理解、空間的推論、ドラッグアンドドロップなどの複雑なアクションを理解する問題を含む、UI-TARS-72Bのような最先端モデルの重要な制限を明らかにしています。
これらの調査結果は、完全に自律的なコンピューター使用エージェントの開発における課題を強調しています。
UI-visionをオープンソースとしてリリースすることにより、実際のデスクトップタスクのために、より有能なエージェントの開発を進めることを目指しています。

要約(オリジナル)

Autonomous agents that navigate Graphical User Interfaces (GUIs) to automate tasks like document editing and file management can greatly enhance computer workflows. While existing research focuses on online settings, desktop environments, critical for many professional and everyday tasks, remain underexplored due to data collection challenges and licensing issues. We introduce UI-Vision, the first comprehensive, license-permissive benchmark for offline, fine-grained evaluation of computer use agents in real-world desktop environments. Unlike online benchmarks, UI-Vision provides: (i) dense, high-quality annotations of human demonstrations, including bounding boxes, UI labels, and action trajectories (clicks, drags, and keyboard inputs) across 83 software applications, and (ii) three fine-to-coarse grained tasks-Element Grounding, Layout Grounding, and Action Prediction-with well-defined metrics to rigorously evaluate agents’ performance in desktop environments. Our evaluation reveals critical limitations in state-of-the-art models like UI-TARS-72B, including issues with understanding professional software, spatial reasoning, and complex actions like drag-and-drop. These findings highlight the challenges in developing fully autonomous computer use agents. By releasing UI-Vision as open-source, we aim to advance the development of more capable agents for real-world desktop tasks.

arxiv情報

著者 Shravan Nayak,Xiangru Jian,Kevin Qinghong Lin,Juan A. Rodriguez,Montek Kalsi,Rabiul Awal,Nicolas Chapados,M. Tamer Özsu,Aishwarya Agrawal,David Vazquez,Christopher Pal,Perouz Taslakian,Spandana Gella,Sai Rajeswar
発行日 2025-05-06 17:43:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | UI-Vision: A Desktop-centric GUI Benchmark for Visual Perception and Interaction はコメントを受け付けていません

Visual Imitation Enables Contextual Humanoid Control

要約

ヒューマノイドに階段を登り、周囲の環境のコンテキストを使用して椅子に座るように教えてください。
間違いなく、最も簡単な方法は、それらを単に人間のモーションビデオをキャプチャして、ヒューマノイドに供給することです。
VideMimicを紹介します。これは、毎日のビデオを採掘し、人間と環境を共同で再構築し、対応するスキルを実行するヒューマノイドロボットの全身制御ポリシーを作成する本物のパイプラインを紹介します。
実際のヒューマノイドロボットでのパイプラインの結果を示し、階段の上昇や下降剤、椅子やベンチからの座って立っているなどの堅牢で再現可能なコンテキスト制御、および環境とグローバルルートコマンドを条件付けられた単一のポリシーからの他のダイナミックな全身スキルを示しています。
VideMimicは、多様な現実世界環境で動作するためにヒューマノイドを教えるためのスケーラブルなパスを提供します。

要約(オリジナル)

How can we teach humanoids to climb staircases and sit on chairs using the surrounding environment context? Arguably, the simplest way is to just show them-casually capture a human motion video and feed it to humanoids. We introduce VIDEOMIMIC, a real-to-sim-to-real pipeline that mines everyday videos, jointly reconstructs the humans and the environment, and produces whole-body control policies for humanoid robots that perform the corresponding skills. We demonstrate the results of our pipeline on real humanoid robots, showing robust, repeatable contextual control such as staircase ascents and descents, sitting and standing from chairs and benches, as well as other dynamic whole-body skills-all from a single policy, conditioned on the environment and global root commands. VIDEOMIMIC offers a scalable path towards teaching humanoids to operate in diverse real-world environments.

arxiv情報

著者 Arthur Allshire,Hongsuk Choi,Junyi Zhang,David McAllister,Anthony Zhang,Chung Min Kim,Trevor Darrell,Pieter Abbeel,Jitendra Malik,Angjoo Kanazawa
発行日 2025-05-06 17:57:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Visual Imitation Enables Contextual Humanoid Control はコメントを受け付けていません