MFSR-GAN: Multi-Frame Super-Resolution with Handheld Motion Modeling

要約

スマートフォンカメラはユビキタスなイメージングツールになりましたが、それらの小さなセンサーとコンパクトな光学系は、空間解像度を制限し、歪みを導入することがよくあります。
複数の低解像度(LR)フレームからの情報を組み合わせて、スマートフォンカメラの固有の制限を克服するために、高解像度(HR)画像を作成しました。
マルチフレームスーパー解像度(MFSR)の約束にもかかわらず、現実世界のハンドヘルドバースト画像に見られる特徴的なノイズとモーションパターンをキャプチャできないデータセットによって現在のアプローチが妨げられています。
この作業では、ハンドヘルドバースト写真中に見つかったセンサー固有のノイズ特性と画像の動きを維持しながら、マルチエクスポーズ静的画像を使用してLR-HRトレーニングペアを合成する新しい合成データエンジンを導入することにより、このギャップに対処します。
また、MFSR-GAN:MFSR用のマルチスケールの生とRGBネットワークを提案します。
以前のアプローチと比較して、MFSR-GANはアーキテクチャを通じてアーキテクチャを通して「ベースフレーム」を強調し、アーティファクトを緩和します。
合成データと実際のデータの両方の実験結果は、合成エンジンで訓練されたMFSR-GANが、実際のMFSRの既存の方法よりも鋭く、より現実的な再構成をもたらすことを示しています。

要約(オリジナル)

Smartphone cameras have become ubiquitous imaging tools, yet their small sensors and compact optics often limit spatial resolution and introduce distortions. Combining information from multiple low-resolution (LR) frames to produce a high-resolution (HR) image has been explored to overcome the inherent limitations of smartphone cameras. Despite the promise of multi-frame super-resolution (MFSR), current approaches are hindered by datasets that fail to capture the characteristic noise and motion patterns found in real-world handheld burst images. In this work, we address this gap by introducing a novel synthetic data engine that uses multi-exposure static images to synthesize LR-HR training pairs while preserving sensor-specific noise characteristics and image motion found during handheld burst photography. We also propose MFSR-GAN: a multi-scale RAW-to-RGB network for MFSR. Compared to prior approaches, MFSR-GAN emphasizes a ‘base frame’ throughout its architecture to mitigate artifacts. Experimental results on both synthetic and real data demonstrates that MFSR-GAN trained with our synthetic engine yields sharper, more realistic reconstructions than existing methods for real-world MFSR.

arxiv情報

著者 Fadeel Sher Khan,Joshua Ebenezer,Hamid Sheikh,Seok-Jun Lee
発行日 2025-05-01 16:19:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | MFSR-GAN: Multi-Frame Super-Resolution with Handheld Motion Modeling はコメントを受け付けていません

Variational Self-Supervised Learning

要約

さまざまな自己監視学習(VSSL)を提示します。これは、変動的推論と自己監視学習を組み合わせて、効率的でデコーダーフリーの表​​現学習を可能にするための新しいフレームワークです。
デコーダーを介して入力再構成に依存する従来のvaesとは異なり、VSSLは2つのエンコーダーをガウス出力と対称的に結合します。
モメンタムアップデートされたティーチャーネットワークは、動的でデータ依存性の事前を定義しますが、学生エンコーダーは拡張ビューからおおよその後方を生成します。
エルボの再建項は、ガウスKL発散の分析的扱いやすさを維持するクロスビュー除去目標に置き換えられます。
さらに、高次元の潜在スペースでのセマンティックアライメントを強化するために、KLおよび対数尤度用語のコサインベースの製剤を導入します。
CIFAR-10、CIFAR-100、およびImagenet-100の実験は、VSSLがBYOLやMoCo V3を含む主要な自己監視方法に対して競争力のあるまたは優れたパフォーマンスを達成することを示しています。
VSSLは、生成的再構成なしに転送可能な表現を学習するためのスケーラブルな確率的に根拠のあるアプローチを提供し、変分モデリングと現代の自己監視技術の間のギャップを埋めます。

要約(オリジナル)

We present Variational Self-Supervised Learning (VSSL), a novel framework that combines variational inference with self-supervised learning to enable efficient, decoder-free representation learning. Unlike traditional VAEs that rely on input reconstruction via a decoder, VSSL symmetrically couples two encoders with Gaussian outputs. A momentum-updated teacher network defines a dynamic, data-dependent prior, while the student encoder produces an approximate posterior from augmented views. The reconstruction term in the ELBO is replaced with a cross-view denoising objective, preserving the analytical tractability of Gaussian KL divergence. We further introduce cosine-based formulations of KL and log-likelihood terms to enhance semantic alignment in high-dimensional latent spaces. Experiments on CIFAR-10, CIFAR-100, and ImageNet-100 show that VSSL achieves competitive or superior performance to leading self-supervised methods, including BYOL and MoCo V3. VSSL offers a scalable, probabilistically grounded approach to learning transferable representations without generative reconstruction, bridging the gap between variational modeling and modern self-supervised techniques.

arxiv情報

著者 Mehmet Can Yavuz,Berrin Yanikoglu
発行日 2025-05-01 16:21:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Variational Self-Supervised Learning はコメントを受け付けていません

Deep Learning Assisted Outer Volume Removal for Highly-Accelerated Real-Time Dynamic MRI

要約

リアルタイム(RT)ダイナミックMRIは、迅速な生理学的プロセスをキャプチャする上で重要な役割を果たし、臓器の動きと機能に関するユニークな洞察を提供します。
これらのアプリケーションの中で、RT Cine MRIは、時間分解能が高い心臓の機能的評価に特に重要です。
RTイメージングにより、心臓の動きの自由な呼吸、測定されたイメージングが可能になり、従来の呼吸の保有、ECGゲートの獲得に耐えられない患者にとって重要な代替手段となります。
ただし、RT Cine MRIで高い加速率を達成することは、特にアンダーサンプリング因子が高いため、心臓外組織からのアーティファクトをエイリアシングするため、困難です。
この研究では、ポスト処理フレームワークで非心臓領域からのエイリアスの貢献を排除することにより、この課題に対処するために、この課題に対処するための新しい外容量除去(OVR)方法を提案します。
私たちのアプローチでは、本質的に擬似期間のゴーストアーティファクトを含む時間介入されたアンダーサンプリングパターンからの複合時間画像を使用して、各時間枠の外容量信号を推定します。
ディープラーニング(DL)モデルは、これらのアーティファクトを識別および削除するようにトレーニングされており、その後、対応するKスペースデータから差し引かれるクリーンな外容量推定値を生成します。
最終的な再構成は、OVR固有の損失関数を使用してトレーニングされた物理学駆動型DL(PD-DL)メソッドで実行され、高空間分解能画像を復元します。
実験結果は、高加速度で提案された方法が、臨床ベースライン画像に視覚的に匹敵する画像品質を達成し、定性的および定量的に従来の再建技術を上回る画像品質を達成することを示しています。
提案されたアプローチは、診断の質を維持しながら、より高い加速度への経路を提供することなく、習得の変更を必要とせずに、RT Cine MRIのアーティファクト削減のための実用的かつ効果的なソリューションを提供します。

要約(オリジナル)

Real-time (RT) dynamic MRI plays a vital role in capturing rapid physiological processes, offering unique insights into organ motion and function. Among these applications, RT cine MRI is particularly important for functional assessment of the heart with high temporal resolution. RT imaging enables free-breathing, ungated imaging of cardiac motion, making it a crucial alternative for patients who cannot tolerate conventional breath-hold, ECG-gated acquisitions. However, achieving high acceleration rates in RT cine MRI is challenging due to aliasing artifacts from extra-cardiac tissues, particularly at high undersampling factors. In this study, we propose a novel outer volume removal (OVR) method to address this challenge by eliminating aliasing contributions from non-cardiac regions in a post-processing framework. Our approach estimates the outer volume signal for each timeframe using composite temporal images from time-interleaved undersampling patterns, which inherently contain pseudo-periodic ghosting artifacts. A deep learning (DL) model is trained to identify and remove these artifacts, producing a clean outer volume estimate that is subsequently subtracted from the corresponding k-space data. The final reconstruction is performed with a physics-driven DL (PD-DL) method trained using an OVR-specific loss function to restore high spatio-temporal resolution images. Experimental results show that the proposed method at high accelerations achieves image quality that is visually comparable to clinical baseline images, while outperforming conventional reconstruction techniques, both qualitatively and quantitatively. The proposed approach provides a practical and effective solution for artifact reduction in RT cine MRI without requiring acquisition modifications, offering a pathway to higher acceleration rates while preserving diagnostic quality.

arxiv情報

著者 Merve Gülle,Sebastian Weingärtner,Mehmet Akçakaya
発行日 2025-05-01 16:31:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, eess.IV, physics.med-ph | Deep Learning Assisted Outer Volume Removal for Highly-Accelerated Real-Time Dynamic MRI はコメントを受け付けていません

Deep Reinforcement Learning for Urban Air Quality Management: Multi-Objective Optimization of Pollution Mitigation Booth Placement in Metropolitan Environments

要約

都市の大気汚染は、特に人口密度の高い密集した交通集約型の大都市圏で、有害な汚染物質への曝露が公衆衛生に深刻な影響を与えることにおいて、依然として緊急の世界的な懸念事項です。
世界で最も汚染された都市の1つであるデリーは、車両の排出量、産業活動、建設粉塵のために慢性的な大気質の問題を経験しています。
静的な大気浄化設備などの従来の汚染緩和戦略は、最適ではない配置と動的な都市環境への適応性が限られているため、その影響を最大化できないことがよくあります。
この研究では、デリー市の大気質指数(AQI)を改善するために、空気浄化ブースの配置を最適化するための新しいディープ補強学習(DRL)フレームワークを紹介します。
最先端の強化学習アルゴリズムである近位政策最適化(PPO)を採用して、人口密度、交通パターン、産業の影響、緑地の制約などの複数の空間的および環境要因に基づいて、インパクトの高い場所を繰り返し学習して特定します。
私たちのアプローチは、AQI改善、空間カバレッジ、人口と交通の影響、空間エントロピーなどの多次元パフォーマンス評価メトリックを使用して、ランダムで貪欲なAQIベースの方法を含む従来の配置戦略に対してベンチマークされています。
実験結果は、RLベースのアプローチが、空気浄化インフラストラクチャのバランスのとれた効果的な分布を達成することにより、ベースライン方法よりも優れていることを示しています。
特に、DRLフレームワークは、AQIの削減と高カバレッジの展開との間の最適なトレードオフを達成し、都市部で公平な環境上の利点を確保しています。
この調査結果は、Smart Cityイニシアチブとデータ駆動型の都市大気質管理を推進する際のAI主導の空間最適化の可能性を強調しています。

要約(オリジナル)

Urban air pollution remains a pressing global concern, particularly in densely populated and traffic-intensive metropolitan areas like Delhi, where exposure to harmful pollutants severely impacts public health. Delhi, being one of the most polluted cities globally, experiences chronic air quality issues due to vehicular emissions, industrial activities, and construction dust, which exacerbate its already fragile atmospheric conditions. Traditional pollution mitigation strategies, such as static air purifying installations, often fail to maximize their impact due to suboptimal placement and limited adaptability to dynamic urban environments. This study presents a novel deep reinforcement learning (DRL) framework to optimize the placement of air purification booths to improve the air quality index (AQI) in the city of Delhi. We employ Proximal Policy Optimization (PPO), a state-of-the-art reinforcement learning algorithm, to iteratively learn and identify high-impact locations based on multiple spatial and environmental factors, including population density, traffic patterns, industrial influence, and green space constraints. Our approach is benchmarked against conventional placement strategies, including random and greedy AQI-based methods, using multi-dimensional performance evaluation metrics such as AQI improvement, spatial coverage, population and traffic impact, and spatial entropy. Experimental results demonstrate that the RL-based approach outperforms baseline methods by achieving a balanced and effective distribution of air purification infrastructure. Notably, the DRL framework achieves an optimal trade-off between AQI reduction and high-coverage deployment, ensuring equitable environmental benefits across urban regions. The findings underscore the potential of AI-driven spatial optimization in advancing smart city initiatives and data-driven urban air quality management.

arxiv情報

著者 Kirtan Rajesh,Suvidha Rupesh Kumar
発行日 2025-05-01 17:19:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Deep Reinforcement Learning for Urban Air Quality Management: Multi-Objective Optimization of Pollution Mitigation Booth Placement in Metropolitan Environments はコメントを受け付けていません

Gaussian Mixture Flow Matching Models

要約

拡散モデルは、除去分布をガウスとして概算し、その平均を予測しますが、フローマッチングモデルはガウス平均を流速として修復します。
ただし、離散化エラーのために数ステップのサンプリングでパフォーマンスが低下し、分類器のないガイダンス(CFG)の下で過剰飽和色を生成する傾向があります。
これらの制限に対処するために、新しいガウス混合フローマッチング(GMFLOW)モデルを提案します。平均を予測する代わりに、GMFLOWは動的ガウス混合物(GM)パラメーターを予測して、KLの発散損失で学習できるマルチモーダルフロー速度分布をキャプチャします。
GMFLOWは、単一のガウスが$ L_2 $ noの損失で学習される以前の拡散およびフローマッチングモデルを一般化することを実証します。
推論のために、正確な数段階のサンプリングのために分析除去分布と速度フィールドを活用するGM-SDE/ODEソルバーを導き出します。
さらに、CFGの過剰飽和問題を軽減し、画像生成の品質を向上させる新しい確率的ガイダンススキームを導入します。
広範な実験は、GMFLOWが生成品質のフローマッチングベースラインを一貫して上回ることを示しており、ImagENET 256 $ \ Times $ 256で6つのサンプリングステップのみで0.942の精度を達成します。

要約(オリジナル)

Diffusion models approximate the denoising distribution as a Gaussian and predict its mean, whereas flow matching models reparameterize the Gaussian mean as flow velocity. However, they underperform in few-step sampling due to discretization error and tend to produce over-saturated colors under classifier-free guidance (CFG). To address these limitations, we propose a novel Gaussian mixture flow matching (GMFlow) model: instead of predicting the mean, GMFlow predicts dynamic Gaussian mixture (GM) parameters to capture a multi-modal flow velocity distribution, which can be learned with a KL divergence loss. We demonstrate that GMFlow generalizes previous diffusion and flow matching models where a single Gaussian is learned with an $L_2$ denoising loss. For inference, we derive GM-SDE/ODE solvers that leverage analytic denoising distributions and velocity fields for precise few-step sampling. Furthermore, we introduce a novel probabilistic guidance scheme that mitigates the over-saturation issues of CFG and improves image generation quality. Extensive experiments demonstrate that GMFlow consistently outperforms flow matching baselines in generation quality, achieving a Precision of 0.942 with only 6 sampling steps on ImageNet 256$\times$256.

arxiv情報

著者 Hansheng Chen,Kai Zhang,Hao Tan,Zexiang Xu,Fujun Luan,Leonidas Guibas,Gordon Wetzstein,Sai Bi
発行日 2025-05-01 17:23:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Gaussian Mixture Flow Matching Models はコメントを受け付けていません

MINERVA: Evaluating Complex Video Reasoning

要約

マルチモーダルLLMSはビデオベンチマークに焦点を合わせていますが、ほとんどのビデオベンチマークは、中級または解釈可能な推論ステップなしで、結果の監督のみを提供します。
これにより、モデルが真に知覚的情報と時間的情報をビデオについて推論することができるかどうかを評価するか、偶然または言語学的バイアスを悪用することで正しい答えを得ることができるかどうかを評価することが困難になります。
これを改善するために、最新のマルチモーダルモデルにMinervaと呼ばれる新しいビデオ推論データセットを提供します。
データセットの各質問には、5つの回答の選択肢と、詳細な手作りの推論の痕跡が付属しています。
データセットはマルチモーダルで、ビデオドメインと長さの点で多様であり、複雑なマルチステップの質問で構成されています。
広範なベンチマークは、データセットがフロンティアのオープンソースと独自のモデルに課題を提供することを示しています。
さまざまなモデルにわたって一般的な障害モードを特定するために、微調整されたエラー分析を実行し、推論エラーの分類法を作成します。
これを使用して、ビデオ推論の痕跡を採点するための人間とLLMとしてのジャジーの両方の方法を探索し、障害モードは主に時間的局在に関連していることを発見し、その後、論理的または完全性エラーとは対照的に視覚的知覚エラーが続きます。
データセットは、質問とともに、候補者と推論のトレースとともに、https://github.com/google-deepmind/neptune?tab=readme-ov-file \#minervaで公開されます。

要約(オリジナル)

Multimodal LLMs are turning their focus to video benchmarks, however most video benchmarks only provide outcome supervision, with no intermediate or interpretable reasoning steps. This makes it challenging to assess if models are truly able to combine perceptual and temporal information to reason about videos, or simply get the correct answer by chance or by exploiting linguistic biases. To remedy this, we provide a new video reasoning dataset called MINERVA for modern multimodal models. Each question in the dataset comes with 5 answer choices, as well as detailed, hand-crafted reasoning traces. Our dataset is multimodal, diverse in terms of video domain and length, and consists of complex multi-step questions. Extensive benchmarking shows that our dataset provides a challenge for frontier open-source and proprietary models. We perform fine-grained error analysis to identify common failure modes across various models, and create a taxonomy of reasoning errors. We use this to explore both human and LLM-as-a-judge methods for scoring video reasoning traces, and find that failure modes are primarily related to temporal localization, followed by visual perception errors, as opposed to logical or completeness errors. The dataset, along with questions, answer candidates and reasoning traces will be publicly available under https://github.com/google-deepmind/neptune?tab=readme-ov-file\#minerva.

arxiv情報

著者 Arsha Nagrani,Sachit Menon,Ahmet Iscen,Shyamal Buch,Ramin Mehran,Nilpa Jha,Anja Hauth,Yukun Zhu,Carl Vondrick,Mikhail Sirotenko,Cordelia Schmid,Tobias Weyand
発行日 2025-05-01 17:41:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | MINERVA: Evaluating Complex Video Reasoning はコメントを受け付けていません

Visual Test-time Scaling for GUI Agent Grounding

要約

Vision言語モデルエージェントの視覚的なテスト時間スケーリングアプローチであるRegionFocusを紹介します。
GUI画像の視覚的な複雑さと多数のインターフェイス要素のために、Webページを理解することは困難であり、正確なアクション選択が困難になっています。
私たちのアプローチは、関連する領域に動的に拡大し、背景の乱雑さを減らし、接地の精度を向上させます。
このプロセスをサポートするために、各ステップでキーランドマークを視覚化する画像としてのマップメカニズムを提案し、透明なアクションレコードを提供し、エージェントがアクション候補者から効果的に選択できるようにします。
単純な地域選択戦略を使用しても、2つの最先端のオープンビジョンモデルエージェント、UI-TAR、QWEN2.5-VLの上に、Screenspot-Proで28+\%、WebVoyagerベンチマークで28+\%の大幅なパフォーマンスが見られ、対話型の視覚的テストのスケーリングの有効性を強調しています。
QWEN2.5-VL-72BモデルにRegionFocusを適用することにより、Screenspot-Proベンチマークで61.6 \%の新しい最先端の接地性能を達成します。
私たちのコードは、https://github.com/tiangeluo/regionfocusで公開されます。

要約(オリジナル)

We introduce RegionFocus, a visual test-time scaling approach for Vision Language Model Agents. Understanding webpages is challenging due to the visual complexity of GUI images and the large number of interface elements, making accurate action selection difficult. Our approach dynamically zooms in on relevant regions, reducing background clutter and improving grounding accuracy. To support this process, we propose an image-as-map mechanism that visualizes key landmarks at each step, providing a transparent action record and enables the agent to effectively choose among action candidates. Even with a simple region selection strategy, we observe significant performance gains of 28+\% on Screenspot-pro and 24+\% on WebVoyager benchmarks on top of two state-of-the-art open vision language model agents, UI-TARS and Qwen2.5-VL, highlighting the effectiveness of visual test-time scaling in interactive settings. We achieve a new state-of-the-art grounding performance of 61.6\% on the ScreenSpot-Pro benchmark by applying RegionFocus to a Qwen2.5-VL-72B model. Our code will be released publicly at https://github.com/tiangeluo/RegionFocus.

arxiv情報

著者 Tiange Luo,Lajanugen Logeswaran,Justin Johnson,Honglak Lee
発行日 2025-05-01 17:45:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Visual Test-time Scaling for GUI Agent Grounding はコメントを受け付けていません

GuideSR: Rethinking Guidance for One-Step High-Fidelity Diffusion-Based Super-Resolution

要約

この論文では、画像の忠実度を高めるために特別に設計された新しいシングルステップ拡散ベースの画像スーパー解像度(SR)モデルであるGuidesRを提案します。
既存の拡散ベースのSRアプローチは、通常、以前の訓練を受けた生成モデルを、劣化した入力のVAEダウンサンプリングされた表現に追加の条件付けを追加することにより、画像修復タスクに適応します。
Guidesrは、次のことを含む二重ブランチアーキテクチャを導入することにより、この制限に対処します。(1)元の解像度の劣化した入力から高忠実度構造を保持するガイダンスブランチ、および(2)前訓練を受けた潜在的な拡散モデルが知覚的品質を向上させる拡散分岐。
従来のコンディショニングメカニズムとは異なり、ガイダンスブランチは、画像修復タスクのためにカスタマイズされた構造を備えており、フル解像度ブロック(FRB)とチャネルの注意とイメージガイダンスネットワーク(IGN)とガイド付き注意を組み合わせています。
詳細な構造情報を復元パイプラインに直接埋め込むことにより、Guidesrはよりシャープで視覚的に一貫した結果を生み出します。
ベンチマークデータセットでの広範な実験は、GuidesRが最新のパフォーマンスを達成し、単一ステップアプローチの低い計算コストを維持しながら、最大1.39dbのPSNRが挑戦する現実世界のデータセットで獲得することを示しています。
私たちのアプローチは、PSNR、SSIM、LPIPS、DIST、FIDなど、さまざまな参照ベースのメトリックにわたって既存のメソッドを一貫して上回り、実際の画像修復の実用的な進歩をさらに表しています。

要約(オリジナル)

In this paper, we propose GuideSR, a novel single-step diffusion-based image super-resolution (SR) model specifically designed to enhance image fidelity. Existing diffusion-based SR approaches typically adapt pre-trained generative models to image restoration tasks by adding extra conditioning on a VAE-downsampled representation of the degraded input, which often compromises structural fidelity. GuideSR addresses this limitation by introducing a dual-branch architecture comprising: (1) a Guidance Branch that preserves high-fidelity structures from the original-resolution degraded input, and (2) a Diffusion Branch, which a pre-trained latent diffusion model to enhance perceptual quality. Unlike conventional conditioning mechanisms, our Guidance Branch features a tailored structure for image restoration tasks, combining Full Resolution Blocks (FRBs) with channel attention and an Image Guidance Network (IGN) with guided attention. By embedding detailed structural information directly into the restoration pipeline, GuideSR produces sharper and more visually consistent results. Extensive experiments on benchmark datasets demonstrate that GuideSR achieves state-of-the-art performance while maintaining the low computational cost of single-step approaches, with up to 1.39dB PSNR gain on challenging real-world datasets. Our approach consistently outperforms existing methods across various reference-based metrics including PSNR, SSIM, LPIPS, DISTS and FID, further representing a practical advancement for real-world image restoration.

arxiv情報

著者 Aditya Arora,Zhengzhong Tu,Yufei Wang,Ruizheng Bai,Jian Wang,Sizhuo Ma
発行日 2025-05-01 17:48:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | GuideSR: Rethinking Guidance for One-Step High-Fidelity Diffusion-Based Super-Resolution はコメントを受け付けていません

Towards Autonomous Micromobility through Scalable Urban Simulation

要約

配送ロボットやモビリティスクーターなどの都市の公共スペースに移動する軽量のモバイルマシンを利用するマイクロモビリティは、車両の移動性の有望な代替品として浮上しています。
現在のマイクロモビリティは、主に人間の手動操作(対面またはリモートコントロール)に依存します。これは、予測不可能な障害と歩行者でいっぱいの忙しい都市環境をナビゲートする際に安全性と効率の懸念を引き起こします。
操縦するマイクロモビリティデバイスでAIエージェントで人間を支援することは、安全性と効率を高めるための実行可能なソリューションを提示します。
この作業では、自律的な微運動能力を向上させるためのスケーラブルな都市シミュレーションソリューションを提示します。
まず、インタラクティブな都市シーンで具体化されたエージェントの大規模なトレーニングのための高性能ロボット学習プラットフォームであるUrban-SIMを構築します。
Urban-SIMには、シミュレーションにおけるロボット学習の多様性、リアリズム、効率を改善するために、階層的な都市生成パイプライン、インタラクティブダイナミクス生成戦略、非同期シーンサンプリングスキームの3つの重要なモジュールが含まれています。
次に、都市ベンチを提案します。これは、自律的なマイクロモビリティを達成する際にAIエージェントのさまざまな機能を測定するための重要なタスクとベンチマークのスイートです。
アーバンベンチには、エージェントの3つのコアスキルに基づいた8つのタスクが含まれています:都市の移動、都市ナビゲーション、都市トラバース。
これらのタスク全体で、車輪付きロボットや脚のロボットなどの不均一な実施形態を持つ4つのロボットを評価します。
多様な地形と都市構造に関する実験は、各ロボットの強みと制限を明らかにしています。

要約(オリジナル)

Micromobility, which utilizes lightweight mobile machines moving in urban public spaces, such as delivery robots and mobility scooters, emerges as a promising alternative to vehicular mobility. Current micromobility depends mostly on human manual operation (in-person or remote control), which raises safety and efficiency concerns when navigating busy urban environments full of unpredictable obstacles and pedestrians. Assisting humans with AI agents in maneuvering micromobility devices presents a viable solution for enhancing safety and efficiency. In this work, we present a scalable urban simulation solution to advance autonomous micromobility. First, we build URBAN-SIM – a high-performance robot learning platform for large-scale training of embodied agents in interactive urban scenes. URBAN-SIM contains three critical modules: Hierarchical Urban Generation pipeline, Interactive Dynamics Generation strategy, and Asynchronous Scene Sampling scheme, to improve the diversity, realism, and efficiency of robot learning in simulation. Then, we propose URBAN-BENCH – a suite of essential tasks and benchmarks to gauge various capabilities of the AI agents in achieving autonomous micromobility. URBAN-BENCH includes eight tasks based on three core skills of the agents: Urban Locomotion, Urban Navigation, and Urban Traverse. We evaluate four robots with heterogeneous embodiments, such as the wheeled and legged robots, across these tasks. Experiments on diverse terrains and urban structures reveal each robot’s strengths and limitations.

arxiv情報

著者 Wayne Wu,Honglin He,Chaoyuan Zhang,Jack He,Seth Z. Zhao,Ran Gong,Quanyi Li,Bolei Zhou
発行日 2025-05-01 17:52:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO | Towards Autonomous Micromobility through Scalable Urban Simulation はコメントを受け付けていません

Robotic Visual Instruction

要約

最近、自然言語は、人間とロボットの相互作用の主要な媒体でした。
ただし、ロボット制御の空間的精度の固有の欠如は、あいまいさや冗長性などの課題をもたらします。
これらの制限に対処するために、オブジェクト中心の手描きの象徴的な表現を通してロボットタスクをガイドする新しいパラダイムであるロボットビジュアル命令(ROVI)を紹介します。
Roviは、空間的情報を効果的に、2Dスケッチを介して人間の解釈可能な視覚命令に効果的にエンコードし、矢、円、色、数字を利用して3Dロボット操作を指示します。
ロボットがROVIをよりよく理解し、ROVIに基づいて正確なアクションを生成できるようにするために、ROVIコンディショニングされたポリシー用に処方されたパイプラインである視覚命令具体化ワークフロー(ビュー)を提示します。
このアプローチは、Vision-Language Models(VLMS)を活用してRovi入力を解釈し、キーポイント抽出を介して2Dピクセル空間からの空間的および時間的制約を解釈し、それらを実行可能な3Dアクションシーケンスに変換します。
さらに、15Kインスタンスの専門データセットをキュレートして、エッジ展開のために小さなVLMSを微調整し、Rovi機能を効果的に学習できるようにします。
私たちのアプローチは、実際の環境とシミュレートされた環境の両方で11の新しいタスクで厳密に検証されており、重要な一般化能力を示しています。
特に、Viewは、障害、軌跡に従う要件を備えたマルチステップアクションを特徴とする目に見えないタスクを含む、現実世界のシナリオで87.5%の成功率を達成します。
このペーパーのコードとデータセットはまもなくリリースされます。

要約(オリジナル)

Recently, natural language has been the primary medium for human-robot interaction. However, its inherent lack of spatial precision for robotic control introduces challenges such as ambiguity and verbosity. To address these limitations, we introduce the Robotic Visual Instruction (RoVI), a novel paradigm to guide robotic tasks through an object-centric, hand-drawn symbolic representation. RoVI effectively encodes spatial-temporal information into human-interpretable visual instructions through 2D sketches, utilizing arrows, circles, colors, and numbers to direct 3D robotic manipulation. To enable robots to understand RoVI better and generate precise actions based on RoVI, we present Visual Instruction Embodied Workflow (VIEW), a pipeline formulated for RoVI-conditioned policies. This approach leverages Vision-Language Models (VLMs) to interpret RoVI inputs, decode spatial and temporal constraints from 2D pixel space via keypoint extraction, and then transform them into executable 3D action sequences. We additionally curate a specialized dataset of 15K instances to fine-tune small VLMs for edge deployment, enabling them to effectively learn RoVI capabilities. Our approach is rigorously validated across 11 novel tasks in both real and simulated environments, demonstrating significant generalization capability. Notably, VIEW achieves an 87.5% success rate in real-world scenarios involving unseen tasks that feature multi-step actions, with disturbances, and trajectory-following requirements. Code and Datasets in this paper will be released soon.

arxiv情報

著者 Yanbang Li,Ziyang Gong,Haoyang Li,Haoyang Li,Xiaoqi Huang,Haolan Kang,Guangping Bai,Xianzheng Ma
発行日 2025-05-01 17:55:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO | Robotic Visual Instruction はコメントを受け付けていません