UVGS: Reimagining Unstructured 3D Gaussian Splatting using UV Mapping

要約

3D Gaussian Splatting(3DGS)は、3Dオブジェクトとシーンのモデリングにおいて優れた品質を実証しています。
ただし、3DGを生成することは、離散、非構造、および順列不変の性質のために依然として困難です。
この作業では、これらの課題を克服するためのシンプルで効果的な方法を提示します。
球状マッピングを利用して、3DGをUVGと呼ばれる構造化された2D表現に変換します。
UVGは、位置、スケール、色、不透明度、回転などのガウス属性の連結として機能寸法を備えたマルチチャネル画像と見なすことができます。
さらに、これらの不均一な機能は、慎重に設計されたマルチブランチネットワークを使用して、低次元(3チャネル)共有機能空間に圧縮できることがわかります。
圧縮されたUVGは、典型的なRGB画像として扱うことができます。
驚くべきことに、潜在的な拡散モデルで訓練された典型的なVAEが、追加のトレーニングなしでこの新しい表現に直接一般化できることがわかります。
私たちの新しい表現により、拡散モデルなどの基本的な2Dモデルを活用して、3DGを直接モデル化することができません。
さらに、2D UV解像度を増やして、より多くのガウス分野に対応し、典型的な3Dバックボーンと比較してUVGをスケーラブルなソリューションにすることができます。
このアプローチは、すでに開発された優れた2D生成機能を本質的に利用することにより、3DGのさまざまな新しい生成アプリケーションのロックをすぐに解除します。
私たちの実験では、以前は自明であった拡散モデルに基づいて、さまざまな無条件の条件付き生成、3DGの適用アプリケーションを示しています。

要約(オリジナル)

3D Gaussian Splatting (3DGS) has demonstrated superior quality in modeling 3D objects and scenes. However, generating 3DGS remains challenging due to their discrete, unstructured, and permutation-invariant nature. In this work, we present a simple yet effective method to overcome these challenges. We utilize spherical mapping to transform 3DGS into a structured 2D representation, termed UVGS. UVGS can be viewed as multi-channel images, with feature dimensions as a concatenation of Gaussian attributes such as position, scale, color, opacity, and rotation. We further find that these heterogeneous features can be compressed into a lower-dimensional (e.g., 3-channel) shared feature space using a carefully designed multi-branch network. The compressed UVGS can be treated as typical RGB images. Remarkably, we discover that typical VAEs trained with latent diffusion models can directly generalize to this new representation without additional training. Our novel representation makes it effortless to leverage foundational 2D models, such as diffusion models, to directly model 3DGS. Additionally, one can simply increase the 2D UV resolution to accommodate more Gaussians, making UVGS a scalable solution compared to typical 3D backbones. This approach immediately unlocks various novel generation applications of 3DGS by inherently utilizing the already developed superior 2D generation capabilities. In our experiments, we demonstrate various unconditional, conditional generation, and inpainting applications of 3DGS based on diffusion models, which were previously non-trivial.

arxiv情報

著者 Aashish Rai,Dilin Wang,Mihir Jain,Nikolaos Sarafianos,Kefan Chen,Srinath Sridhar,Aayush Prakash
発行日 2025-02-11 18:44:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | UVGS: Reimagining Unstructured 3D Gaussian Splatting using UV Mapping はコメントを受け付けていません

Stay-Positive: A Case for Ignoring Real Image Features in Fake Image Detection

要約

AI生成された画像を検出することは、挑戦的でありながら不可欠なタスクです。
主な困難は、その決定に影響を与える可能性のある圧縮アーティファクトなど、偽のパターンに依存する検出器の傾向から生じます。
これらの問題は、多くの場合、検出器が実際のデータ分布に関連する特定のパターンに起因し、実際の生成トレースを分離することを困難にします。
生成モデルによって導入されたアーティファクトが含まれている場合にのみ、画像を偽物として分類する必要があると主張します。
この前提に基づいて、私たちは、実際のデータに関連するものを無視しながら、検出器のフォーカスを生成アーティファクトに制約するように設計されたアルゴリズムであるStay Positiveを提案します。
実験結果は、肯定的な展示で訓練された検出器が偽の相関に対する感受性を低下させ、一般化の改善と後処理への堅牢性をもたらすことを示しています。
さらに、アーティファクトを実際の画像と関連付ける検出器とは異なり、純粋に偽のアーティファクトに焦点を当てたものは、塗装された実際の画像を検出するのに適しています。

要約(オリジナル)

Detecting AI generated images is a challenging yet essential task. A primary difficulty arises from the detectors tendency to rely on spurious patterns, such as compression artifacts, which can influence its decisions. These issues often stem from specific patterns that the detector associates with the real data distribution, making it difficult to isolate the actual generative traces. We argue that an image should be classified as fake if and only if it contains artifacts introduced by the generative model. Based on this premise, we propose Stay Positive, an algorithm designed to constrain the detectors focus to generative artifacts while disregarding those associated with real data. Experimental results demonstrate that detectors trained with Stay Positive exhibit reduced susceptibility to spurious correlations, leading to improved generalization and robustness to post processing. Additionally, unlike detectors that associate artifacts with real images, those that focus purely on fake artifacts are better at detecting inpainted real images.

arxiv情報

著者 Anirudh Sundara Rajan,Yong Jae Lee
発行日 2025-02-11 18:59:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Stay-Positive: A Case for Ignoring Real Image Features in Fake Image Detection はコメントを受け付けていません

A Flag Decomposition for Hierarchical Datasets

要約

フラグマニホールドは、サブスペースの階層ネストシーケンスをエンコードし、さまざまなコンピュータービジョンおよび機械学習アプリケーションの強力な構造として機能します。
次元削減、モーション平均化、サブスペースクラスタリングなどのタスクの有用性にもかかわらず、電流アプリケーションは、特異値分解などの一般的なマトリックス分解方法を使用してフラグを抽出することに制限されていることがよくあります。
ここでは、一般的なアルゴリズムが階層データセットを考慮して動作する必要性に対処します。
特に、Stiefel座標の階層的に基づいたフラグ表現に任意の階層的実質値データを分解する新しいフラグベースの方法を提案します。
私たちの作品は、除去、クラスタリング、少数のショット学習など、アプリケーションのフラグマニホールドの可能性を活用しています。

要約(オリジナル)

Flag manifolds encode hierarchical nested sequences of subspaces and serve as powerful structures for various computer vision and machine learning applications. Despite their utility in tasks such as dimensionality reduction, motion averaging, and subspace clustering, current applications are often restricted to extracting flags using common matrix decomposition methods like the singular value decomposition. Here, we address the need for a general algorithm to factorize and work with hierarchical datasets. In particular, we propose a novel, flag-based method that decomposes arbitrary hierarchical real-valued data into a hierarchy-preserving flag representation in Stiefel coordinates. Our work harnesses the potential of flag manifolds in applications including denoising, clustering, and few-shot learning.

arxiv情報

著者 Nathan Mankovich,Ignacio Santamaria,Gustau Camps-Valls,Tolga Birdal
発行日 2025-02-11 18:59:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | A Flag Decomposition for Hierarchical Datasets はコメントを受け付けていません

Pippo: High-Resolution Multi-View Humans from a Single Image

要約

Pippoを提示します。Pippoは、1つのカジュアルにクリックされた写真から人の1K解像度の密なターンアラウンドビデオを作成できる生成モデルです。
Pippoはマルチビュー拡散トランスであり、追加の入力を必要としません – たとえば、入力画像の適合パラメトリックモデルまたはカメラパラメーター。
キャプションなしで3Bのヒューマン画像を使用して、スタジオキャプチャされた人間でマルチビューのミッドトレーニングとトレーニング後のマルチビューを実施します。
トレーニング中に、スタジオデータセットをすばやく吸収するために、低解像度でいくつかの(最大48)ビューを除去し、浅いMLPを使用してターゲットカメラを粗くエンコードします。
トレーニング後に、高解像度でのビューが少なくなり、ピクセルに合ったコントロール(たとえば、空間アンカーやプラッカーレイズ)を使用して、3Dの一貫した世代を有効にします。
推論では、Pippoがトレーニング中に見られるように5倍以上のビューを同時に生成できるようにする注意バイアス技術を提案します。
最後に、マルチビュー世代の3D一貫性を評価するために改善されたメトリックを導入し、Pippoが単一の画像からマルチビューヒューマンジェネレーションの既存の作業を上回ることを示します。

要約(オリジナル)

We present Pippo, a generative model capable of producing 1K resolution dense turnaround videos of a person from a single casually clicked photo. Pippo is a multi-view diffusion transformer and does not require any additional inputs – e.g., a fitted parametric model or camera parameters of the input image. We pre-train Pippo on 3B human images without captions, and conduct multi-view mid-training and post-training on studio captured humans. During mid-training, to quickly absorb the studio dataset, we denoise several (up to 48) views at low-resolution, and encode target cameras coarsely using a shallow MLP. During post-training, we denoise fewer views at high-resolution and use pixel-aligned controls (e.g., Spatial anchor and Plucker rays) to enable 3D consistent generations. At inference, we propose an attention biasing technique that allows Pippo to simultaneously generate greater than 5 times as many views as seen during training. Finally, we also introduce an improved metric to evaluate 3D consistency of multi-view generations, and show that Pippo outperforms existing works on multi-view human generation from a single image.

arxiv情報

著者 Yash Kant,Ethan Weber,Jin Kyu Kim,Rawal Khirodkar,Su Zhaoen,Julieta Martinez,Igor Gilitschenski,Shunsuke Saito,Timur Bagautdinov
発行日 2025-02-11 18:59:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR | Pippo: High-Resolution Multi-View Humans from a Single Image はコメントを受け付けていません

MatSwap: Light-aware material transfers in images

要約

MATSWAPを提示します。MATSWAPは、画像の指定表面に材料を指定された表面に転送する方法を示しています。
このようなタスクは、写真の物質的な外観、ジオメトリ、照明の大きな絡み合いのために、自明ではありません。
文献では、材料の編集方法は通常、扱いにくいテキストエンジニアリングまたはアーティストの知識と取得するのが非現実的な3Dシーンプロパティを必要とする広範な手動注釈に依存しています。
対照的に、明示的なUVマッピングを必要とせずに、平らな表面で観察されるように、平らな表面で観察されるように、入力材料間の関係を直接学習することを提案します。
これを達成するために、カスタムライトおよびジオメトリを意識した拡散モデルに依存しています。
合成データセットを使用して、材料転送のための大規模な事前訓練を受けたテキストから画像から画像間モデルを微調整し、その強力な事前に維持して、実際の画像への効果的な一般化を確保します。
その結果、私たちの方法は、シーンのアイデンティティを保持しながら、写真のターゲット位置に目的の資料をシームレスに統合します。
合成画像と実際の画像に関する方法を評価し、定性的および定量的に最近の研究と比較していることを示します。
公開時にコードとデータをリリースします。

要約(オリジナル)

We present MatSwap, a method to transfer materials to designated surfaces in an image photorealistically. Such a task is non-trivial due to the large entanglement of material appearance, geometry, and lighting in a photograph. In the literature, material editing methods typically rely on either cumbersome text engineering or extensive manual annotations requiring artist knowledge and 3D scene properties that are impractical to obtain. In contrast, we propose to directly learn the relationship between the input material — as observed on a flat surface — and its appearance within the scene, without the need for explicit UV mapping. To achieve this, we rely on a custom light- and geometry-aware diffusion model. We fine-tune a large-scale pre-trained text-to-image model for material transfer using our synthetic dataset, preserving its strong priors to ensure effective generalization to real images. As a result, our method seamlessly integrates a desired material into the target location in the photograph while retaining the identity of the scene. We evaluate our method on synthetic and real images and show that it compares favorably to recent work both qualitatively and quantitatively. We will release our code and data upon publication.

arxiv情報

著者 Ivan Lopes,Valentin Deschaintre,Yannick Hold-Geoffroy,Raoul de Charette
発行日 2025-02-11 18:59:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR | MatSwap: Light-aware material transfers in images はコメントを受け付けていません

ENFORCE: Exact Nonlinear Constrained Learning with Adaptive-depth Neural Projection

要約

ニューラルネットワークがドメイン固有の制約に準拠することを保証することは、安全性と倫理的懸念に対処しながら予測精度を高めるために重要です。
ほとんどの現実世界のタスクの非線形性にもかかわらず、既存の方法は主にアフィンまたは凸の制約に限定されています。
非線形制約を正確に満たす予測を保証するニューラルネットワークアーキテクチャであるEnforceを紹介します。
Enforceは、標準の制約のないグラデーションベースのオプティマー(ADAMなど)でトレーニングされ、自己分化と局所的なニューラル予測を活用して、$ \ Mathcal {c}^1 $制約を任意の寛容$ \ epsilon $に施行します。
特定の問題と必要な許容レベルに合わせて複雑さを動的に調整する適応距離のあるニューラル投影(ADANP)モジュールを構築します。
Enforceは、最小(および調整可能な)計算コストで、ニューラルネットワークの出力と出力の両方で非線形の平等制約の満足度を保証します。

要約(オリジナル)

Ensuring neural networks adhere to domain-specific constraints is crucial for addressing safety and ethical concerns while also enhancing prediction accuracy. Despite the nonlinear nature of most real-world tasks, existing methods are predominantly limited to affine or convex constraints. We introduce ENFORCE, a neural network architecture that guarantees predictions to satisfy nonlinear constraints exactly. ENFORCE is trained with standard unconstrained gradient-based optimizers (e.g., Adam) and leverages autodifferentiation and local neural projections to enforce any $\mathcal{C}^1$ constraint to arbitrary tolerance $\epsilon$. We build an adaptive-depth neural projection (AdaNP) module that dynamically adjusts its complexity to suit the specific problem and the required tolerance levels. ENFORCE guarantees satisfaction of equality constraints that are nonlinear in both inputs and outputs of the neural network with minimal (and adjustable) computational cost.

arxiv情報

著者 Giacomo Lastrucci,Artur M. Schweidtmann
発行日 2025-02-11 18:54:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | ENFORCE: Exact Nonlinear Constrained Learning with Adaptive-depth Neural Projection はコメントを受け付けていません

ProjectTest: A Project-level LLM Unit Test Generation Benchmark and Impact of Error Fixing Mechanisms

要約

ユニットテストの生成は、LLMSの有望で重要なユースケースになっています。
ただし、LLMユニットテスト生成機能を評価するための既存の評価ベンチマークは、より実用的で挑戦的なプロジェクトレベルのコードベースではなく、機能またはクラスレベルのコードに焦点を当てています。
このような制限に対処するために、Python、Java、およびJavaScriptをカバーするユニットテスト生成のプロジェクトレベルのベンチマークであるProjectTestを提案します。
ProjectTestは、言語ごとに20の中程度のサイズの高品質のプロジェクトを備えています。
ProjectTestで9つのフロンティアLLMを評価し、結果は、PicthonとJavaのProjecttestで中程度のパフォーマンスを示し、ProjectTestの難易度を強調していることを示しています。
また、徹底的なエラー分析も実施します。これは、Claude-3.5-SonnetなどのフロンティアLLMでさえ、コンピレーションやカスケードエラーを含む重要な簡単なエラーがあることを示しています。
この観察に動機付けられて、エラー固定メカニズムを装備した場合の可能性を評価するために、手動のエラー固定シナリオと自己誤差固定シナリオの下ですべてのフロンティアLLMをさらに評価します。

要約(オリジナル)

Unit test generation has become a promising and important use case of LLMs. However, existing evaluation benchmarks for assessing LLM unit test generation capabilities focus on function- or class-level code rather than more practical and challenging project-level codebases. To address such limitation, we propose ProjectTest, a project-level benchmark for unit test generation covering Python, Java, and JavaScript. ProjectTest features 20 moderate-sized and high-quality projects per language. We evaluate nine frontier LLMs on ProjectTest and the results show that all frontier LLMs tested exhibit moderate performance on ProjectTest on Python and Java, highlighting the difficulty of ProjectTest. We also conduct a thorough error analysis, which shows that even frontier LLMs, such as Claude-3.5-Sonnet, have significant simple errors, including compilation and cascade errors. Motivated by this observation, we further evaluate all frontier LLMs under manual error-fixing and self-error-fixing scenarios to assess their potential when equipped with error-fixing mechanisms.

arxiv情報

著者 Yibo Wang,Congying Xia,Wenting Zhao,Jiangshu Du,Chunyu Miao,Zhongfen Deng,Philip S. Yu,Chen Xing
発行日 2025-02-11 15:48:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SE | ProjectTest: A Project-level LLM Unit Test Generation Benchmark and Impact of Error Fixing Mechanisms はコメントを受け付けていません

ViSIR: Vision Transformer Single Image Reconstruction Method for Earth System Models

要約

目的:地球システムモデル(ESM)大気、海、陸地、氷、生物圏の相互作用を統合して、さまざまな条件下で地域および世界の気候の状態を推定します。
ESMは非常に複雑であるため、深いニューラルネットワークアーキテクチャを使用して複雑さをモデル化し、ダウンサンプリングデータを保存します。
このホワイトペーパーでは、ESMデータの単一画像SR(SR)再構成タスクを改善するために、Vision Transformer Sinusoidal表現ネットワーク(VISIR)を提案します。
方法:Visirは、SR視力変圧器(VIT)のSR能力を組み合わせて、SRタスクで観察されるスペクトルバイアスに対処するために、正弦波表現ネットワーク(SIREN)の高周波詳細保存を組み合わせています。
結果:VISIRは、3つの異なる測定で平均7.1dB PSNR緩衝されたSR世代敵(SRガン)、SR世代の敵対的(SR-Gans)を4.1 dB、7.5 dB、Sr世代の敵対的(SR-Gans)よりも優れています。
結論:提案されたVISIRが評価され、最先端の方法と比較されます。
結果は、提案されたアルゴリズムが平均平方根誤差(MSE)、ピークシグナルからノイズへの比例(PSNR)、および構造類似性指数測定(SSIM)の観点から他の方法を上回っていることを示しています。

要約(オリジナル)

Purpose: Earth system models (ESMs) integrate the interactions of the atmosphere, ocean, land, ice, and biosphere to estimate the state of regional and global climate under a wide variety of conditions. The ESMs are highly complex, and thus, deep neural network architectures are used to model the complexity and store the down-sampled data. In this paper, we propose the Vision Transformer Sinusoidal Representation Networks (ViSIR) to improve the single image SR (SR) reconstruction task for the ESM data. Methods: ViSIR combines the SR capability of Vision Transformers (ViT) with the high-frequency detail preservation of the Sinusoidal Representation Network (SIREN) to address the spectral bias observed in SR tasks. Results: The ViSIR outperforms ViT by 4.1 dB, SIREN by 7.5 dB, and SR-Generative Adversarial (SR-GANs) by 7.1dB PSNR on average for three different measurements. Conclusion: The proposed ViSIR is evaluated and compared with state-of-the-art methods. The results show that the proposed algorithm is outperforming other methods in terms of Mean Square Error(MSE), Peak-Signal-to-Noise-Ratio(PSNR), and Structural Similarity Index Measure(SSIM).

arxiv情報

著者 Ehsan Zeraatkar,Salah Faroughi,Jelena Tešić
発行日 2025-02-11 16:02:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | ViSIR: Vision Transformer Single Image Reconstruction Method for Earth System Models はコメントを受け付けていません

Unleashing the Potential of Pre-Trained Diffusion Models for Generalizable Person Re-Identification

要約

Domain-Generalizable Redification(DG Reid)は、1つ以上のソースドメインでモデルをトレーニングし、目に見えないターゲットドメインでのパフォーマンスを評価することを目指しています。
多数の方法が提案されていますが、ほとんどが差別的または対照的な学習フレームワークに依存して、一般化可能な機能表現を学習しています。
ただし、これらのアプローチは、ショートカット学習を軽減できず、最適ではないパフォーマンスにつながることがよくあります。
この作業では、DG Reidを強化するために、相関認識条件付けスキーム(DCAC)を使用した拡散モデル支援表現学習と呼ばれる新しい方法を提案します。
私たちの方法は、相関認識条件付けスキームを通じて、識別と対照的なReidモデルと事前に訓練された拡散モデルを統合します。
REIDモデルから生成されたID分類確率を、学習可能なIDワイズプロンプトのセットで組み込むことにより、コンディショニングスキームは、拡散プロセスをガイドするためにID相関をキャプチャする暗い知識を注入します。
同時に、拡散モデルからのフィードバックは、コンディショニングスキームを通じてREIDモデルに戻り、REID機能の一般化能力を効果的に改善します。
シングルソースとマルチソースの両方のDG Reidタスクの両方の広範な実験は、この方法が最先端のパフォーマンスを達成することを示しています。
包括的なアブレーション研究は、提案されたアプローチの有効性をさらに検証し、その堅牢性に関する洞察を提供します。
コードはhttps://github.com/rikoli/dcacで入手できます。

要約(オリジナル)

Domain-generalizable re-identification (DG Re-ID) aims to train a model on one or more source domains and evaluate its performance on unseen target domains, a task that has attracted growing attention due to its practical relevance. While numerous methods have been proposed, most rely on discriminative or contrastive learning frameworks to learn generalizable feature representations. However, these approaches often fail to mitigate shortcut learning, leading to suboptimal performance. In this work, we propose a novel method called diffusion model-assisted representation learning with a correlation-aware conditioning scheme (DCAC) to enhance DG Re-ID. Our method integrates a discriminative and contrastive Re-ID model with a pre-trained diffusion model through a correlation-aware conditioning scheme. By incorporating ID classification probabilities generated from the Re-ID model with a set of learnable ID-wise prompts, the conditioning scheme injects dark knowledge that captures ID correlations to guide the diffusion process. Simultaneously, feedback from the diffusion model is back-propagated through the conditioning scheme to the Re-ID model, effectively improving the generalization capability of Re-ID features. Extensive experiments on both single-source and multi-source DG Re-ID tasks demonstrate that our method achieves state-of-the-art performance. Comprehensive ablation studies further validate the effectiveness of the proposed approach, providing insights into its robustness. Codes will be available at https://github.com/RikoLi/DCAC.

arxiv情報

著者 Jiachen Li,Xiaojin Gong
発行日 2025-02-11 05:29:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Unleashing the Potential of Pre-Trained Diffusion Models for Generalizable Person Re-Identification はコメントを受け付けていません

HEROES: Unreal Engine-based Human and Emergency Robot Operation Education System

要約

大規模な犠牲者事故(MCIS)のためのファーストレスポンダーと人道的ロボットのトレーニングと準備は、現実的で簡単にアクセス可能なテスト施設がないため、多くの場合課題となります。
このような施設は、最初の対応者と人道的ロボットのためにトレーニングと教育目的を果たすことができるMCIを投稿する現実的なシナリオを提供できますが、物流上の制約のためにアクセスするのは難しいことがよくあります。
この課題を克服するために、ヒーローズを紹介します。ヒーローは、そのような都市の捜索救助作戦のための人間と緊急ロボットの新しいトレーニングシミュレーションを設計するための多用途の非現実的なエンジンシミュレーターです。
提案されたHeroesシミュレーターは、ロボットナビゲーションのトレーニングに使用される機械学習パイプライン用の合成データセットを生成できます。
この作業は、ロボットコミュニティの包括的なトレーニングプラットフォームの必要性に対処し、実際の緊急シナリオの実用的で効率的な準備を確保しています。
私たちのシミュレーターの強みは、その適応性、スケーラビリティ、およびロボット開発者とファーストレスポンダー間のコラボレーションを促進する能力にあり、MCISの捜索救助運用のための効果的な戦略を開発する際の相乗効果を促進します。
ヒーローが十分に多様な環境を生成する能力をサポートする81%の肯定的な応答と、ヒーローのシミュレーション環境の有用性を確認する78%の肯定的な応答をサポートする予備ユーザー調査を実施しました。

要約(オリジナル)

Training and preparing first responders and humanitarian robots for Mass Casualty Incidents (MCIs) often poses a challenge owing to the lack of realistic and easily accessible test facilities. While such facilities can offer realistic scenarios post an MCI that can serve training and educational purposes for first responders and humanitarian robots, they are often hard to access owing to logistical constraints. To overcome this challenge, we present HEROES- a versatile Unreal Engine simulator for designing novel training simulations for humans and emergency robots for such urban search and rescue operations. The proposed HEROES simulator is capable of generating synthetic datasets for machine learning pipelines that are used for training robot navigation. This work addresses the necessity for a comprehensive training platform in the robotics community, ensuring pragmatic and efficient preparation for real-world emergency scenarios. The strengths of our simulator lie in its adaptability, scalability, and ability to facilitate collaboration between robot developers and first responders, fostering synergy in developing effective strategies for search and rescue operations in MCIs. We conducted a preliminary user study with an 81% positive response supporting the ability of HEROES to generate sufficiently varied environments, and a 78% positive response affirming the usefulness of the simulation environment of HEROES.

arxiv情報

著者 Anav Chaudhary,Kshitij Tiwari,Aniket Bera
発行日 2025-02-10 17:16:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | HEROES: Unreal Engine-based Human and Emergency Robot Operation Education System はコメントを受け付けていません