Mcity Data Engine: Iterative Model Improvement Through Open-Vocabulary Data Selection

要約

データが増え続ける可能性があるため、機械学習モデルのトレーニングに適したサンプルを選択およびラベルを付けることがますます困難になっています。
大量のラベルのないデータに対する関心の長い尾クラスを検出することは特に困難です。
これは、車両の艦隊と道端の知覚システムが豊富な生データを生成するインテリジェント輸送システム(ITS)に特に当てはまります。
このような反復データ選択とモデルトレーニングプロセスのための産業、独自のデータエンジンは存在しますが、研究者とオープンソースコミュニティは、公然と利用可能なシステムの欠如に苦しんでいます。
データ収集フェーズから始まり、モデルの展開段階で終了する完全なデータベースの開発サイクルのモジュールを提供するMCITYデータエンジンを提示します。
MCITYデータエンジンは、オープンボキャブラリーデータ選択プロセスを通じて、まれで新しいクラスに焦点を当てています。
すべてのコードは、MITライセンスの下でGitHubで公開されています:https://github.com/mcity/mcity_data_engine

要約(オリジナル)

With an ever-increasing availability of data, it has become more and more challenging to select and label appropriate samples for the training of machine learning models. It is especially difficult to detect long-tail classes of interest in large amounts of unlabeled data. This holds especially true for Intelligent Transportation Systems (ITS), where vehicle fleets and roadside perception systems generate an abundance of raw data. While industrial, proprietary data engines for such iterative data selection and model training processes exist, researchers and the open-source community suffer from a lack of an openly available system. We present the Mcity Data Engine, which provides modules for the complete data-based development cycle, beginning at the data acquisition phase and ending at the model deployment stage. The Mcity Data Engine focuses on rare and novel classes through an open-vocabulary data selection process. All code is publicly available on GitHub under an MIT license: https://github.com/mcity/mcity_data_engine

arxiv情報

著者 Daniel Bogdoll,Rajanikant Patnaik Ananta,Abeyankar Giridharan,Isabel Moore,Gregory Stevens,Henry X. Liu
発行日 2025-04-30 13:10:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Mcity Data Engine: Iterative Model Improvement Through Open-Vocabulary Data Selection はコメントを受け付けていません

HOT3D: Hand and Object Tracking in 3D from Egocentric Multi-View Videos

要約

3Dでエゴセントリックハンドとオブジェクト追跡のために公開されているデータセットであるHot3Dを紹介します。
データセットは、33の多様な剛性オブジェクトと相互作用する19の被験者を特徴とする833分(3.7m以上の画像)の録音を提供します。
単純なピックアップ、観察、およびパットダウンアクションに加えて、被験者はキッチン、オフィス、リビングルームの環境に典型的なアクションを実行します。
録音には、エゴセントリックマルチビューRGB/モノクロ画像、視線シグナル、シーンポイントクラウド、カメラ、ハンド、オブジェクトの3Dポーズを含む複数の同期データストリームが含まれます。
データセットは、AIメガネの研究プロトタイプであるMetaの2つのヘッドセットと、数百万ユニットを出荷した仮想現実ヘッドセットであるQuest 3で記録されます。
基本真実のポーズは、手とオブジェクトに取り付けられた小さな光学マーカーを使用して、モーションキャプチャシステムによって取得されました。
手注釈はUmetrackおよびMano形式で提供され、オブジェクトは、社内スキャナーによって得られたPBR材料を使用した3Dメッシュで表されます。
実験では、3つの人気のあるタスクのマルチビューエゴセントリックデータの有効性を実証します:3Dハンドトラッキング、モデルベースの6DOFオブジェクトのポーズ推定、および不明な手オブジェクトの3Dリフティング。
ベンチマークがHOT3Dによってユニークに有効になっている評価されたマルチビューメソッドは、シングルビューのカウンターパートを大幅に上回っています。

要約(オリジナル)

We introduce HOT3D, a publicly available dataset for egocentric hand and object tracking in 3D. The dataset offers over 833 minutes (3.7M+ images) of recordings that feature 19 subjects interacting with 33 diverse rigid objects. In addition to simple pick-up, observe, and put-down actions, the subjects perform actions typical for a kitchen, office, and living room environment. The recordings include multiple synchronized data streams containing egocentric multi-view RGB/monochrome images, eye gaze signal, scene point clouds, and 3D poses of cameras, hands, and objects. The dataset is recorded with two headsets from Meta: Project Aria, which is a research prototype of AI glasses, and Quest 3, a virtual-reality headset that has shipped millions of units. Ground-truth poses were obtained by a motion-capture system using small optical markers attached to hands and objects. Hand annotations are provided in the UmeTrack and MANO formats, and objects are represented by 3D meshes with PBR materials obtained by an in-house scanner. In our experiments, we demonstrate the effectiveness of multi-view egocentric data for three popular tasks: 3D hand tracking, model-based 6DoF object pose estimation, and 3D lifting of unknown in-hand objects. The evaluated multi-view methods, whose benchmarking is uniquely enabled by HOT3D, significantly outperform their single-view counterparts.

arxiv情報

著者 Prithviraj Banerjee,Sindi Shkodrani,Pierre Moulon,Shreyas Hampali,Shangchen Han,Fan Zhang,Linguang Zhang,Jade Fountain,Edward Miller,Selen Basol,Richard Newcombe,Robert Wang,Jakob Julian Engel,Tomas Hodan
発行日 2025-04-30 13:32:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO | HOT3D: Hand and Object Tracking in 3D from Egocentric Multi-View Videos はコメントを受け付けていません

VecFontSDF: Learning to Reconstruct and Synthesize High-quality Vector Fonts via Signed Distance Functions

要約

フォント設計は、デジタルコンテンツデザインと最新の印刷業界で非常に重要です。
ベクトルフォントを自動的に合成できるアルゴリズムの開発は、フォント設計プロセスを大幅に促進できます。
ただし、既存の方法は主にラスター画像の生成に集中しており、ベクトルフォントを直接合成できるアプローチはごくわずかです。
このペーパーでは、署名距離関数(SDF)を使用して高品質のベクトルフォントを再構築および合成するためのエンドツーエンドのトレーニング可能な方法VecfontSDFを提案します。
具体的には、提案されているSDFベースの暗黙的な形状表現に基づいて、VecfontSDFは、各グリフをいくつかの放物線曲線に囲まれた形状プリミティブとしてモデル化することを学びます。
このように、ほとんどの画像生成方法は、ベクトルフォントを合成するために簡単に拡張できます。
公開可能なデータセットで実施された定性的および定量的実験は、ベクターフォントの再構築、補間、少数のショットベクターフォント合成など、いくつかのタスクで高品質の結果を得て、アートの状態を著しく上回ることを示しています。

要約(オリジナル)

Font design is of vital importance in the digital content design and modern printing industry. Developing algorithms capable of automatically synthesizing vector fonts can significantly facilitate the font design process. However, existing methods mainly concentrate on raster image generation, and only a few approaches can directly synthesize vector fonts. This paper proposes an end-to-end trainable method, VecFontSDF, to reconstruct and synthesize high-quality vector fonts using signed distance functions (SDFs). Specifically, based on the proposed SDF-based implicit shape representation, VecFontSDF learns to model each glyph as shape primitives enclosed by several parabolic curves, which can be precisely converted to quadratic B\’ezier curves that are widely used in vector font products. In this manner, most image generation methods can be easily extended to synthesize vector fonts. Qualitative and quantitative experiments conducted on a publicly-available dataset demonstrate that our method obtains high-quality results on several tasks, including vector font reconstruction, interpolation, and few-shot vector font synthesis, markedly outperforming the state of the art.

arxiv情報

著者 Zeqing Xia,Bojun Xiong,Zhouhui Lian
発行日 2025-04-30 13:42:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | VecFontSDF: Learning to Reconstruct and Synthesize High-quality Vector Fonts via Signed Distance Functions はコメントを受け付けていません

BEVWorld: A Multimodal World Simulator for Autonomous Driving via Scene-Level BEV Latents

要約

世界モデルは、潜在的な将来のシナリオを予測する能力のために、自律運転に注目を集めています。
この論文では、マルチモーダルセンサーの入力を統合されたコンパクトな鳥瞰図(BEV)潜在環境モデリングのための潜在スペースに変換する新しいフレームワークであるBevworldを提案します。
提案された世界モデルは、マルチモーダルトークネイザーと潜在的なBEVシーケンス拡散モデルの2つの主要なコンポーネントで構成されています。
マルチモーダルトークナザーは最初に不均一な感覚データをエンコードし、そのデコーダーは、自己補助的な方法でレイキャスティングレンダリングを介して、潜在的なBevトークンをライダーとサラウンドビューの画像観測に再構築します。
これにより、共有された空間表現内で、パノラマ画像とポイントクラウドデータの共同モデリングと双方向のエンコーディングデコードが可能になります。
これに加えて、潜在的なBEVシーケンス拡散モデルは、高レベルのアクショントークンを条件付けした将来のシーンの一時的に一貫した予測を実行し、時間の経過とともにシーンレベルの推論を可能にします。
広範な実験は、自律的な運転ベンチマークに対するBevworldの有効性を示し、現実的な将来のシーン生成における能力と、知覚やモーション予測などのダウンストリームタスクの利点を示しています。

要約(オリジナル)

World models have attracted increasing attention in autonomous driving for their ability to forecast potential future scenarios. In this paper, we propose BEVWorld, a novel framework that transforms multimodal sensor inputs into a unified and compact Bird’s Eye View (BEV) latent space for holistic environment modeling. The proposed world model consists of two main components: a multi-modal tokenizer and a latent BEV sequence diffusion model. The multi-modal tokenizer first encodes heterogeneous sensory data, and its decoder reconstructs the latent BEV tokens into LiDAR and surround-view image observations via ray-casting rendering in a self-supervised manner. This enables joint modeling and bidirectional encoding-decoding of panoramic imagery and point cloud data within a shared spatial representation. On top of this, the latent BEV sequence diffusion model performs temporally consistent forecasting of future scenes, conditioned on high-level action tokens, enabling scene-level reasoning over time. Extensive experiments demonstrate the effectiveness of BEVWorld on autonomous driving benchmarks, showcasing its capability in realistic future scene generation and its benefits for downstream tasks such as perception and motion prediction.

arxiv情報

著者 Yumeng Zhang,Shi Gong,Kaixin Xiong,Xiaoqing Ye,Xiaofan Li,Xiao Tan,Fan Wang,Jizhou Huang,Hua Wu,Haifeng Wang
発行日 2025-04-30 13:43:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | BEVWorld: A Multimodal World Simulator for Autonomous Driving via Scene-Level BEV Latents はコメントを受け付けていません

Diffusion-based Adversarial Identity Manipulation for Facial Privacy Protection

要約

フェイス認識(FR)システムの成功により、潜在的な不正な監視とソーシャルネットワークでのユーザー追跡により、深刻なプライバシーの懸念が生じています。
プライバシーを強化するための既存の方法は、顔のプライバシーを保護できる自然な顔の画像を生成できません。
この論文では、悪意のあるFRシステムに対して自然で高度に移動可能な敵対的な顔を生成するために、拡散ベースの敵対的アイデンティティ操作(diffaim)を提案します。
具体的には、拡散モデルの低次元潜在スペース内で顔のアイデンティティを操作します。
これには、逆拡散プロセス中に勾配ベースの敵対的アイデンティティガイダンスを繰り返し注入し、希望の敵対的な顔に向かって世代を徐々に導きます。
このガイダンスは、ソースからのセマンティックな相違を促進しながら、ターゲットへのアイデンティティの収束のために最適化されており、視覚的な自然性を維持しながら効果的ななりすましを促進します。
さらに、操作中の顔面構造の一貫性を維持するために、構造を提供する正則化を組み込みます。
顔の検証と識別タスクの両方での広範な実験は、最先端の違いと比較して、優れた視覚品質を維持しながら、より強力なブラックボックス攻撃の移転性を達成することを示しています。
また、Face ++やAliyunを含む商用FR APIの提案されたアプローチの有効性を実証します。

要約(オリジナル)

The success of face recognition (FR) systems has led to serious privacy concerns due to potential unauthorized surveillance and user tracking on social networks. Existing methods for enhancing privacy fail to generate natural face images that can protect facial privacy. In this paper, we propose diffusion-based adversarial identity manipulation (DiffAIM) to generate natural and highly transferable adversarial faces against malicious FR systems. To be specific, we manipulate facial identity within the low-dimensional latent space of a diffusion model. This involves iteratively injecting gradient-based adversarial identity guidance during the reverse diffusion process, progressively steering the generation toward the desired adversarial faces. The guidance is optimized for identity convergence towards a target while promoting semantic divergence from the source, facilitating effective impersonation while maintaining visual naturalness. We further incorporate structure-preserving regularization to preserve facial structure consistency during manipulation. Extensive experiments on both face verification and identification tasks demonstrate that compared with the state-of-the-art, DiffAIM achieves stronger black-box attack transferability while maintaining superior visual quality. We also demonstrate the effectiveness of the proposed approach for commercial FR APIs, including Face++ and Aliyun.

arxiv情報

著者 Liqin Wang,Qianyue Hu,Wei Lu,Xiangyang Luo
発行日 2025-04-30 13:49:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Diffusion-based Adversarial Identity Manipulation for Facial Privacy Protection はコメントを受け付けていません

HoloTime: Taming Video Diffusion Models for Panoramic 4D Scene Generation

要約

拡散モデルの急速な進歩は、通常、ユーザーエクスペリエンスにシーンレベルの4Dアセットを必要とするVRおよびARテクノロジーの適用に革命をもたらすという約束を保持しています。
それにもかかわらず、既存の拡散モデルは、主に静的3Dシーンまたはオブジェクトレベルのダイナミクスのモデリングに集中し、真に没入感のある体験を提供する能力を制約します。
この問題に対処するために、ビデオ拡散モデルを統合して単一のプロンプトまたは参照画像からパノラマビデオを生成するフレームワークと、生成されたパノラマビデオを4Dアセットにシームレスに変換し、ユーザー向けの完全な没入型の4Dエクスペリエンスを可能にする360度の4Dシーン再構成方法を生成するフレームワークであるHotimeを提案します。
具体的には、高忠実度のパノラマビデオを生成するためのビデオ拡散モデルを飼いならすために、下流の4Dシーン再構築タスクに適したパノラマビデオの最初の包括的なコレクションである360Worldデータセットを紹介します。
このキュレーションされたデータセットを使用すると、パノラマ画像を高品質のパノラマビデオに変換できる2段階の画像間拡散モデルであるパノラマアニメーターを提案します。
これに続いて、パノラマの時空の再構築を提示します。これは、時空の深さ推定方法を活用して生成されたパノラマビデオを4Dポイントクラウドに変換し、全体的な4Dガウスのスプラッティング表現の最適化を可能にし、空間的および時間的に一貫した4Dシーンを再構築します。
私たちの方法の有効性を検証するために、既存のアプローチと比較分析を実施し、パノラマビデオ生成と4Dシーンの再構成の両方においてその優位性を明らかにしました。
これは、より魅力的で現実的な没入型環境を作成する方法の能力を示しており、VRおよびARアプリケーションでのユーザーエクスペリエンスを強化します。

要約(オリジナル)

The rapid advancement of diffusion models holds the promise of revolutionizing the application of VR and AR technologies, which typically require scene-level 4D assets for user experience. Nonetheless, existing diffusion models predominantly concentrate on modeling static 3D scenes or object-level dynamics, constraining their capacity to provide truly immersive experiences. To address this issue, we propose HoloTime, a framework that integrates video diffusion models to generate panoramic videos from a single prompt or reference image, along with a 360-degree 4D scene reconstruction method that seamlessly transforms the generated panoramic video into 4D assets, enabling a fully immersive 4D experience for users. Specifically, to tame video diffusion models for generating high-fidelity panoramic videos, we introduce the 360World dataset, the first comprehensive collection of panoramic videos suitable for downstream 4D scene reconstruction tasks. With this curated dataset, we propose Panoramic Animator, a two-stage image-to-video diffusion model that can convert panoramic images into high-quality panoramic videos. Following this, we present Panoramic Space-Time Reconstruction, which leverages a space-time depth estimation method to transform the generated panoramic videos into 4D point clouds, enabling the optimization of a holistic 4D Gaussian Splatting representation to reconstruct spatially and temporally consistent 4D scenes. To validate the efficacy of our method, we conducted a comparative analysis with existing approaches, revealing its superiority in both panoramic video generation and 4D scene reconstruction. This demonstrates our method’s capability to create more engaging and realistic immersive environments, thereby enhancing user experiences in VR and AR applications.

arxiv情報

著者 Haiyang Zhou,Wangbo Yu,Jiawen Guan,Xinhua Cheng,Yonghong Tian,Li Yuan
発行日 2025-04-30 13:55:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | HoloTime: Taming Video Diffusion Models for Panoramic 4D Scene Generation はコメントを受け付けていません

Vision Transformers on the Edge: A Comprehensive Survey of Model Compression and Acceleration Strategies

要約

近年、視覚変圧器(VITS)は、画像分類、オブジェクト検出、セグメンテーションなどのコンピュータービジョンタスクの強力で有望な技術として浮上しています。
階層的特徴抽出に依存する畳み込みニューラルネットワーク(CNN)とは異なり、Vitsは画像をパッチのシーケンスとして扱い、自己触媒メカニズムを活用します。
ただし、彼らの高い計算の複雑さとメモリは、リソース制約のエッジデバイスでの展開に大きな課題をもたらします。
これらの制限に対処するために、広範な研究はモデル圧縮技術とハードウェアを意識した加速戦略に焦点を当てています。
それにもかかわらず、エッジ展開のための精度、効率、およびハードウェアの適応性におけるこれらの手法とそのトレードオフを体系的に分類する包括的なレビューはまだ不足しています。
この調査では、モデル圧縮技術の構造化された分析、エッジへの推論のためのソフトウェアツール、およびVITSのハードウェア加速戦略を提供することにより、このギャップを橋渡しします。
精度、効率、ハードウェアの適応性への影響について説明し、グラフィックプロセシングユニット(GPU)、アプリケーション固有の統合回路(ASIC)、フィールドプログラム可能なゲートアレイ(FPGA)を含むエッジプラットフォームでのVIT展開を進めるための重要な課題と新たな研究の方向性を強調します。
目標は、エッジデバイスでの効率的な展開のためのVITを最適化するための現代的なガイドでさらなる研究を促すことです。

要約(オリジナル)

In recent years, vision transformers (ViTs) have emerged as powerful and promising techniques for computer vision tasks such as image classification, object detection, and segmentation. Unlike convolutional neural networks (CNNs), which rely on hierarchical feature extraction, ViTs treat images as sequences of patches and leverage self-attention mechanisms. However, their high computational complexity and memory demands pose significant challenges for deployment on resource-constrained edge devices. To address these limitations, extensive research has focused on model compression techniques and hardware-aware acceleration strategies. Nonetheless, a comprehensive review that systematically categorizes these techniques and their trade-offs in accuracy, efficiency, and hardware adaptability for edge deployment remains lacking. This survey bridges this gap by providing a structured analysis of model compression techniques, software tools for inference on edge, and hardware acceleration strategies for ViTs. We discuss their impact on accuracy, efficiency, and hardware adaptability, highlighting key challenges and emerging research directions to advance ViT deployment on edge platforms, including graphics processing units (GPUs), application-specific integrated circuit (ASICs), and field-programmable gate arrays (FPGAs). The goal is to inspire further research with a contemporary guide on optimizing ViTs for efficient deployment on edge devices.

arxiv情報

著者 Shaibal Saha,Lanyu Xu
発行日 2025-04-30 13:55:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AR, cs.CV | Vision Transformers on the Edge: A Comprehensive Survey of Model Compression and Acceleration Strategies はコメントを受け付けていません

Visual Text Processing: A Comprehensive Review and Unified Evaluation

要約

視覚テキストは、ドキュメント画像とシーン画像の両方で重要なコンポーネントであり、豊富なセマンティック情報を伝え、コンピュータービジョンコミュニティで大きな注目を集めています。
テキストの検出や認識などの従来のタスクを超えて、視覚的なテキスト処理は、テキスト画像の再構築やテキスト画像操作など、基礎モデルの出現によって駆動される急速な進歩を目撃しました。
大きな進歩にもかかわらず、テキストを一般的なオブジェクトと区別するユニークなプロパティによる課題は残ります。
これらの明確なテキスト特性を効果的にキャプチャして活用することは、堅牢な視覚的なテキスト処理モデルを開発するために不可欠です。
この調査では、2つの重要な質問に焦点を当てた視覚的なテキスト処理における最近の進歩に関する包括的な多面的な分析を紹介します。(1)さまざまな視覚テキスト処理タスクに最も適したテキスト機能は何ですか?
(2)これらの特徴的なテキスト機能を、どのようにして処理フレームワークに効果的に組み込むことができますか?
さらに、幅広い視覚的なテキスト処理データセットを含む新しいベンチマークであるVTPBenchを紹介します。
マルチモーダル大手言語モデル(MLLM)の高度な視覚品質評価機能を活用して、公正で信頼できる評価を確保するために設計された新しい評価メトリックであるVTPSCoreを提案します。
20を超える特定のモデルを使用した私たちの経験的研究は、現在の技術を改善するためのかなりの余地を明らかにしています。
私たちの目的は、この作業を視覚テキスト処理の動的な分野での将来の探求と革新を促進する基本的なリソースとして確立することです。
関連するリポジトリは、https://github.com/shuyansy/visual-text-processing-surveyで入手できます。

要約(オリジナル)

Visual text is a crucial component in both document and scene images, conveying rich semantic information and attracting significant attention in the computer vision community. Beyond traditional tasks such as text detection and recognition, visual text processing has witnessed rapid advancements driven by the emergence of foundation models, including text image reconstruction and text image manipulation. Despite significant progress, challenges remain due to the unique properties that differentiate text from general objects. Effectively capturing and leveraging these distinct textual characteristics is essential for developing robust visual text processing models. In this survey, we present a comprehensive, multi-perspective analysis of recent advancements in visual text processing, focusing on two key questions: (1) What textual features are most suitable for different visual text processing tasks? (2) How can these distinctive text features be effectively incorporated into processing frameworks? Furthermore, we introduce VTPBench, a new benchmark that encompasses a broad range of visual text processing datasets. Leveraging the advanced visual quality assessment capabilities of multimodal large language models (MLLMs), we propose VTPScore, a novel evaluation metric designed to ensure fair and reliable evaluation. Our empirical study with more than 20 specific models reveals substantial room for improvement in the current techniques. Our aim is to establish this work as a fundamental resource that fosters future exploration and innovation in the dynamic field of visual text processing. The relevant repository is available at https://github.com/shuyansy/Visual-Text-Processing-survey.

arxiv情報

著者 Yan Shu,Weichao Zeng,Fangmin Zhao,Zeyu Chen,Zhenhang Li,Xiaomeng Yang,Yu Zhou,Paolo Rota,Xiang Bai,Lianwen Jin,Xu-Cheng Yin,Nicu Sebe
発行日 2025-04-30 14:19:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Visual Text Processing: A Comprehensive Review and Unified Evaluation はコメントを受け付けていません

Segmentation-Aware Generative Reinforcement Network (GRN) for Tissue Layer Segmentation in 3-D Ultrasound Images for Chronic Low-back Pain (cLBP) Assessment

要約

セグメンテーション損失フィードバックを統合して、単一の段階で画像生成とセグメンテーションの両方のパフォーマンスを最適化するGenerative Renuferation Network(GRN)と呼ばれる新しいセグメンテーション対応の共同トレーニングフレームワークを紹介します。
セグメンテーションガイドエンハンスメント(SGE)と呼ばれる画像拡張手法も開発されており、発電機はセグメンテーションモデル専用に調整された画像を生成します。
GRNの2つのバリアントも開発されました。これには、サンプル効率の高い学習(GRN-SEL)のGRNと、半監視学習(GRN-SSL)用のGRNが含まれます。
GRNのパフォーマンスは、29人の被験者からの69個の完全に注釈付きの3D超音波スキャンのデータセットを使用して評価されました。
注釈には、真皮、表在性脂肪、表在性筋膜膜(SFM)、深部脂肪、深部筋膜膜(DFM)、および筋肉の6つの解剖学的構造が含まれていました。
我々の結果は、SGEを備えたGRN-SELは、完全にラベル付きのデータセットでトレーニングされたモデルと比較して、サイコロの類似性係数(DSC)の1.98%の改善を達成しながら、最大70%のラベルの取り組みを減らすことを示しています。
GRN-SELだけでラベル付けの取り組みを60%、SGEでGRN-SSLを削減し、標識要件を70%減らし、GRN-SSLのみを60%減少させ、すべて完全に監視されたモデルに匹敵するパフォーマンスを維持します。
これらの調査結果は、ラベル付けされたデータを大幅に低いデータで最適化する際のGRNフレームワークの有効性を示唆しており、超音波画像分析のためのスケーラブルで効率的なソリューションを提供し、データアノテーションに関連する負担を軽減します。

要約(オリジナル)

We introduce a novel segmentation-aware joint training framework called generative reinforcement network (GRN) that integrates segmentation loss feedback to optimize both image generation and segmentation performance in a single stage. An image enhancement technique called segmentation-guided enhancement (SGE) is also developed, where the generator produces images tailored specifically for the segmentation model. Two variants of GRN were also developed, including GRN for sample-efficient learning (GRN-SEL) and GRN for semi-supervised learning (GRN-SSL). GRN’s performance was evaluated using a dataset of 69 fully annotated 3D ultrasound scans from 29 subjects. The annotations included six anatomical structures: dermis, superficial fat, superficial fascial membrane (SFM), deep fat, deep fascial membrane (DFM), and muscle. Our results show that GRN-SEL with SGE reduces labeling efforts by up to 70% while achieving a 1.98% improvement in the Dice Similarity Coefficient (DSC) compared to models trained on fully labeled datasets. GRN-SEL alone reduces labeling efforts by 60%, GRN-SSL with SGE decreases labeling requirements by 70%, and GRN-SSL alone by 60%, all while maintaining performance comparable to fully supervised models. These findings suggest the effectiveness of the GRN framework in optimizing segmentation performance with significantly less labeled data, offering a scalable and efficient solution for ultrasound image analysis and reducing the burdens associated with data annotation.

arxiv情報

著者 Zixue Zeng,Xiaoyan Zhao,Matthew Cartier,Tong Yu,Jing Wang,Xin Meng,Zhiyu Sheng,Maryam Satarpour,John M Cormack,Allison Bean,Ryan Nussbaum,Maya Maurer,Emily Landis-Walkenhorst,Dinesh Kumbhare,Kang Kim,Ajay Wasan,Jiantao Pu
発行日 2025-04-30 14:19:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Segmentation-Aware Generative Reinforcement Network (GRN) for Tissue Layer Segmentation in 3-D Ultrasound Images for Chronic Low-back Pain (cLBP) Assessment はコメントを受け付けていません

Garment3DGen: 3D Garment Stylization and Texture Generation

要約

Garment3Dgenに、ガイダンスとして単一の入力画像を与えられたベースメッシュから3D衣服資産を合成する新しい方法を導入します。
提案されたアプローチにより、ユーザーは、テキストプロンプトで生成されたものなど、実際の画像と合成画像の両方に基づいて3Dテクスチャ服を生成できます。
生成された資産は、人体に直接覆われてシミュレートできます。
画像間拡散法の最近の進捗状況を活用して、3D衣服のジオメトリを生成します。
ただし、これらのジオメトリはダウンストリームタスクに直接使用できないため、それらを擬似の根真実として使用し、生成された3Dターゲットと一致するベーステンプレートメッシュを変形させるメッシュ変形最適化手順を設定することを提案します。
慎重に設計された損失により、ベースメッシュは望ましいターゲットに向かって自由に変形しますが、メッシュの品質とトポロジをシミュレートできるように保存できます。
最後に、グローバルかつ局所的に一貫性のある高忠実度のテクスチャマップを生成し、入力ガイダンスを忠実にキャプチャして、生成された3Dアセットをレンダリングできるようにします。
Garment3DGenを使用すると、ユーザーはアーティストの介入を必要とせずに、選択したシミュレーション対応の3Dガーメントを生成できます。
さまざまな資産で多くの定量的および定性的比較を提示し、Garment3DGenがスケッチからシミュレートされた衣服から範囲の主要なアプリケーションのロックを解除したり、VRの衣服と対話したりすることを示しています。
コードは公開されています。

要約(オリジナル)

We introduce Garment3DGen a new method to synthesize 3D garment assets from a base mesh given a single input image as guidance. Our proposed approach allows users to generate 3D textured clothes based on both real and synthetic images, such as those generated by text prompts. The generated assets can be directly draped and simulated on human bodies. We leverage the recent progress of image-to-3D diffusion methods to generate 3D garment geometries. However, since these geometries cannot be utilized directly for downstream tasks, we propose to use them as pseudo ground-truth and set up a mesh deformation optimization procedure that deforms a base template mesh to match the generated 3D target. Carefully designed losses allow the base mesh to freely deform towards the desired target, yet preserve mesh quality and topology such that they can be simulated. Finally, we generate high-fidelity texture maps that are globally and locally consistent and faithfully capture the input guidance, allowing us to render the generated 3D assets. With Garment3DGen users can generate the simulation-ready 3D garment of their choice without the need of artist intervention. We present a plethora of quantitative and qualitative comparisons on various assets and demonstrate that Garment3DGen unlocks key applications ranging from sketch-to-simulated garments or interacting with the garments in VR. Code is publicly available.

arxiv情報

著者 Nikolaos Sarafianos,Tuur Stuyck,Xiaoyu Xiang,Yilei Li,Jovan Popovic,Rakesh Ranjan
発行日 2025-04-30 14:22:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Garment3DGen: 3D Garment Stylization and Texture Generation はコメントを受け付けていません