OpenVidVRD: Open-Vocabulary Video Visual Relation Detection via Prompt-Driven Semantic Space Alignment

要約

ビデオ視覚関係検出(VIDVRD)タスクは、動的なコンテンツ、高い注釈コスト、および関係の長期尾の分布のために挑戦的なビデオでオブジェクトとその関係を識別することです。
Visual Language Models(VLMS)は、オープンボキャブラリーの視覚関係検出タスクを探索するのに役立ちますが、多くの場合、さまざまな視覚領域とその関係の間のつながりを見落としています。
さらに、VLMを使用してビデオの視覚関係を直接識別することは、画像とビデオの間に大きな格差が大きいため、重要な課題をもたらします。
したがって、OpenVidVrdと呼ばれる新しいオープンボキャブラリーVIDVRDフレームワークを提案します。これは、VLMの豊富な知識と強力な能力を迅速な学習を通じて改善する強力な能力を転送します。
具体的には、VLMを使用して、ビデオの領域に基づいて自動的に生成された領域キャプションからテキスト表現を抽出します。
次に、クロスモーダルの時空間的補完情報を統合することにより、ビデオのオブジェクトレベルの関係表現を導出するための時空間的なリファイナーモジュールを開発します。
さらに、意味空間を調整するための迅速な駆動型戦略が採用され、VLMSの意味的理解を活用して、OpenVidVrdの全体的な一般化能力を高めます。
VIDVRDおよびVIDORパブリックデータセットで実施された広範な実験は、提案されたモデルが既存の方法よりも優れていることを示しています。

要約(オリジナル)

The video visual relation detection (VidVRD) task is to identify objects and their relationships in videos, which is challenging due to the dynamic content, high annotation costs, and long-tailed distribution of relations. Visual language models (VLMs) help explore open-vocabulary visual relation detection tasks, yet often overlook the connections between various visual regions and their relations. Moreover, using VLMs to directly identify visual relations in videos poses significant challenges because of the large disparity between images and videos. Therefore, we propose a novel open-vocabulary VidVRD framework, termed OpenVidVRD, which transfers VLMs’ rich knowledge and powerful capabilities to improve VidVRD tasks through prompt learning. Specificall y, We use VLM to extract text representations from automatically generated region captions based on the video’s regions. Next, we develop a spatiotemporal refiner module to derive object-level relationship representations in the video by integrating cross-modal spatiotemporal complementary information. Furthermore, a prompt-driven strategy to align semantic spaces is employed to harness the semantic understanding of VLMs, enhancing the overall generalization ability of OpenVidVRD. Extensive experiments conducted on the VidVRD and VidOR public datasets show that the proposed model outperforms existing methods.

arxiv情報

著者 Qi Liu,Weiying Xue,Yuxiao Wang,Zhenao Wei
発行日 2025-03-12 14:13:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | OpenVidVRD: Open-Vocabulary Video Visual Relation Detection via Prompt-Driven Semantic Space Alignment はコメントを受け付けていません

P3P: Pseudo-3D Pre-training for Scaling 3D Masked Autoencoders

要約

3Dの事前トレーニングは、3D認識タスクを進めるために極めて重要です。
ただし、クリーンな3Dデータの希少性は、3Dプリトレーニングの取り組みをスケーリングするために大きな課題をもたらします。
限られたラベル付きデータと豊富な非標識データを効果的に組み合わせた半監視学習からインスピレーションを得て、革新的な自己監視前のトレーニング前のフレームワークを導入します。
このフレームワークは、堅牢な深度推定モデルを使用して画像から生成された本物の3Dデータと擬似3Dデータの両方を活用しています。
もう1つの重要な課題は、トレーニング前のプロセスの効率です。
Point-BertやPoint-Maeなどの既存のアプローチは、3Dトークン埋め込みにK-nearest Neighborsを利用して、2次時間の複雑さをもたらします。
これに対処するために、トレーニング効率の良い2D再構成ターゲットと相まって、線形時間の複雑さを備えた新しいトークン埋め込み戦略を提案します。
私たちの方法は、3D分類、検出、少数の学習で最先端のパフォーマンスを達成するだけでなく、トレーニング前および下流の微調整プロセスの両方で高い効率を保証します。

要約(オリジナル)

Pre-training in 3D is pivotal for advancing 3D perception tasks. However, the scarcity of clean 3D data poses significant challenges for scaling 3D pre-training efforts. Drawing inspiration from semi-supervised learning, which effectively combines limited labeled data with abundant unlabeled data, we introduce an innovative self-supervised pre-training framework. This framework leverages both authentic 3D data and pseudo-3D data generated from images using a robust depth estimation model. Another critical challenge is the efficiency of the pre-training process. Existing approaches, such as Point-BERT and Point-MAE, utilize k-nearest neighbors for 3D token embedding, resulting in quadratic time complexity. To address this, we propose a novel token embedding strategy with linear time complexity, coupled with a training-efficient 2D reconstruction target. Our method not only achieves state-of-the-art performance in 3D classification, detection, and few-shot learning but also ensures high efficiency in both pre-training and downstream fine-tuning processes.

arxiv情報

著者 Xuechao Chen,Ying Chen,Jialin Li,Qiang Nie,Hanqiu Deng,Yong Liu,Qixing Huang,Yang Li
発行日 2025-03-12 14:13:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | P3P: Pseudo-3D Pre-training for Scaling 3D Masked Autoencoders はコメントを受け付けていません

Alias-Free Latent Diffusion Models:Improving Fractional Shift Equivariance of Diffusion Latent Space

要約

潜在的な拡散モデル(LDMS)は、不安定な生成プロセスを持つことが知られています。このプロセスでは、入力ノイズの小さな摂動やシフトでさえ、出力が大幅に異なる可能性があります。
これにより、一貫した結果が必要なアプリケーションでの適用性が妨げられます。
この作業では、LDMSを再設計して、シフトエクイバリントにすることで一貫性を高めます。
アンチエイリアシング操作を導入することは、シフトの識別を部分的に改善する可能性がありますが、1)VAEトレーニングと複数のU-NET推論、および2)シフトエクイバリアンスを本質的に欠く自己触媒モジュールを含む、LDMSの独自の課題により、重要なエイリアシングと矛盾が持続します。
これらの問題に対処するために、注意モジュールを再設計して、シフトエクイバリアントになり、連続ドメイン内の特徴の周波数帯域幅を効果的に抑制する等拡大損失を提案します。
結果として得られるエイリアスフリーのLDM(AF-LDM)は、強力なシフト識別を実現し、不規則な反りに対しても堅牢です。
広範な実験は、AF-LDMが、ビデオ編集や画像間翻訳など、さまざまなアプリケーションでバニラLDMよりも大幅に一貫した結果を生成することを示しています。
コードは、https://github.com/singlezombie/afldmで入手できます

要約(オリジナル)

Latent Diffusion Models (LDMs) are known to have an unstable generation process, where even small perturbations or shifts in the input noise can lead to significantly different outputs. This hinders their applicability in applications requiring consistent results. In this work, we redesign LDMs to enhance consistency by making them shift-equivariant. While introducing anti-aliasing operations can partially improve shift-equivariance, significant aliasing and inconsistency persist due to the unique challenges in LDMs, including 1) aliasing amplification during VAE training and multiple U-Net inferences, and 2) self-attention modules that inherently lack shift-equivariance. To address these issues, we redesign the attention modules to be shift-equivariant and propose an equivariance loss that effectively suppresses the frequency bandwidth of the features in the continuous domain. The resulting alias-free LDM (AF-LDM) achieves strong shift-equivariance and is also robust to irregular warping. Extensive experiments demonstrate that AF-LDM produces significantly more consistent results than vanilla LDM across various applications, including video editing and image-to-image translation. Code is available at: https://github.com/SingleZombie/AFLDM

arxiv情報

著者 Yifan Zhou,Zeqi Xiao,Shuai Yang,Xingang Pan
発行日 2025-03-12 14:16:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Alias-Free Latent Diffusion Models:Improving Fractional Shift Equivariance of Diffusion Latent Space はコメントを受け付けていません

WildAvatar: Learning In-the-wild 3D Avatars from the Web

要約

アバターの作成に関する既存の研究は、通常、実験室データセットに限定されており、スケーラビリティに対する高いコストが必要であり、現実世界の表現が不十分です。
一方、ウェブには既製の実世界の人間のビデオがたくさんありますが、これらのビデオは品質が異なり、アバターの作成に正確な注釈が必要です。
この目的のために、これらの人間をWebからキュレートするためのフィルタリングプロトコルを使用した自動注釈パイプラインを提案します。
当社のパイプラインは、EMDBベンチマークで最先端の方法を上回り、フィルタリングプロトコルはWebビデオの検証メトリックを高めます。
次に、YouTubeから抽出されたWebスケールの野生の人間のアバター作成データセットであるWildavatarをキュレートします。
Wildavatarは、3Dヒトアバター作成の以前のデータセットよりも少なくとも10ドル\ Times $豊富で、現実の世界に近いです。
その可能性を調査するために、Wildavatarでのアバター作成方法の品質と一般化可能性を示します。
コード、データソースリンク、アノテーションを公開して、3Dヒトアバター作成および実際のアプリケーション用のその他の関連フィールドを推進します。

要約(オリジナル)

Existing research on avatar creation is typically limited to laboratory datasets, which require high costs against scalability and exhibit insufficient representation of the real world. On the other hand, the web abounds with off-the-shelf real-world human videos, but these videos vary in quality and require accurate annotations for avatar creation. To this end, we propose an automatic annotating pipeline with filtering protocols to curate these humans from the web. Our pipeline surpasses state-of-the-art methods on the EMDB benchmark, and the filtering protocols boost verification metrics on web videos. We then curate WildAvatar, a web-scale in-the-wild human avatar creation dataset extracted from YouTube, with $10000+$ different human subjects and scenes. WildAvatar is at least $10\times$ richer than previous datasets for 3D human avatar creation and closer to the real world. To explore its potential, we demonstrate the quality and generalizability of avatar creation methods on WildAvatar. We will publicly release our code, data source links and annotations to push forward 3D human avatar creation and other related fields for real-world applications.

arxiv情報

著者 Zihao Huang,Shoukang Hu,Guangcong Wang,Tianqi Liu,Yuhang Zang,Zhiguo Cao,Wei Li,Ziwei Liu
発行日 2025-03-12 14:19:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | WildAvatar: Learning In-the-wild 3D Avatars from the Web はコメントを受け付けていません

Efficient Alignment of Unconditioned Action Prior for Language-conditioned Pick and Place in Clutter

要約

私たちは、ロボットがターゲットオブジェクトを開いたクラッターで把握し、指定された場所に移動する必要がある言語で条件付けられたピックと場所のタスクを研究します。
いくつかのアプローチでは、Vision Foundationモデルの機能を使用してエンドツーエンドポリシーを学習し、大きなデータセットが必要です。
その他は、ゼロショット設定でファンデーションモデルを組み合わせて、カスケードエラーに苦しんでいます。
さらに、彼らは主にビジョンと言語の基礎モデルを活用しており、アクション事前に焦点を当てています。
このホワイトペーパーでは、ビジョン、言語、行動から基礎の事前を統合することにより、効果的なポリシーを開発することを目指しています。
$^2 $を提案します。これは、1つの注意レイヤーを学習することにより、無条件のアクションプライエアを3Dビジョン言語プライアーと整列させるアクション事前アライメントメソッドを提案します。
アライメント定式化により、当社のポリシーは、より少ないデータでトレーニングし、ゼロショットの一般化機能を維持できます。
ピックと場所の両方のアクションの共有ポリシーが各タスクのパフォーマンスを向上させることを示し、アクションのマルチモーダル性に対応するためのポリシー適応スキームを導入します。
シミュレーションと現実世界での広範な実験は、私たちのポリシーが、散らかったピックと場所の両方のタスクの両方でより少ないステップでより高いタスクの成功率を達成し、目に見えないオブジェクトと言語指示に効果的に一般化することを示しています。

要約(オリジナル)

We study the task of language-conditioned pick and place in clutter, where a robot should grasp a target object in open clutter and move it to a specified place. Some approaches learn end-to-end policies with features from vision foundation models, requiring large datasets. Others combine foundation models in a zero-shot setting, suffering from cascading errors. In addition, they primarily leverage vision and language foundation models, focusing less on action priors. In this paper, we aim to develop an effective policy by integrating foundation priors from vision, language, and action. We propose A$^2$, an action prior alignment method that aligns unconditioned action priors with 3D vision-language priors by learning one attention layer. The alignment formulation enables our policy to train with less data and preserve zero-shot generalization capabilities. We show that a shared policy for both pick and place actions enhances the performance for each task, and introduce a policy adaptation scheme to accommodate the multi-modal nature of actions. Extensive experiments in simulation and the real-world show that our policy achieves higher task success rates with fewer steps for both pick and place tasks in clutter, effectively generalizing to unseen objects and language instructions.

arxiv情報

著者 Kechun Xu,Xunlong Xia,Kaixuan Wang,Yifei Yang,Yunxuan Mao,Bing Deng,Rong Xiong,Yue Wang
発行日 2025-03-12 14:20:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Efficient Alignment of Unconditioned Action Prior for Language-conditioned Pick and Place in Clutter はコメントを受け付けていません

Detection, Pose Estimation and Segmentation for Multiple Bodies: Closing the Virtuous Circle

要約

人間のポーズ推定方法は、孤立した人々にはうまく機能しますが、複数のボディに近さのシナリオに苦労しています。
以前の研究は、検出された境界ボックスまたはキーポイントによるポーズ推定を条件付けすることにより、この問題に対処していますが、インスタンスマスクを見落としています。
境界ボックス、インスタンスマスク、ポーズの相互の一貫性を繰り返し実施することを提案します。
導入されたBBOX-MASK-POSE(BMP)メソッドは、閉ループで互いの出力を改善する3つの特殊なモデルを使用します。
すべてのモデルは相互条件付けに適合しており、マルチボディシーンの堅牢性が向上します。
新しいマスク条件付けされたポーズ推定モデルであるMaskposeは、Ochumanのトップダウンアプローチの中で最適です。
BBOX-MASK-POSEは、3つのタスクすべてのOchuman DatasetにSOTAを押します – 検出、インスタンスセグメンテーション、およびポーズ推定。
また、ココポーズの推定でSOTAパフォーマンスを達成します。
この方法は、大きなインスタンスが重複するシーンで特に優れており、ベースライン検出器よりも39%の検出を改善します。
小さな専門モデルとランタイムが高速化すると、BMPは大規模な人間中心の基礎モデルに代わる効果的な代替品です。
コードとモデルは、https://mirapurkrabek.github.io/bbox-mask-poseで入手できます。

要約(オリジナル)

Human pose estimation methods work well on isolated people but struggle with multiple-bodies-in-proximity scenarios. Previous work has addressed this problem by conditioning pose estimation by detected bounding boxes or keypoints, but overlooked instance masks. We propose to iteratively enforce mutual consistency of bounding boxes, instance masks, and poses. The introduced BBox-Mask-Pose (BMP) method uses three specialized models that improve each other’s output in a closed loop. All models are adapted for mutual conditioning, which improves robustness in multi-body scenes. MaskPose, a new mask-conditioned pose estimation model, is the best among top-down approaches on OCHuman. BBox-Mask-Pose pushes SOTA on OCHuman dataset in all three tasks – detection, instance segmentation, and pose estimation. It also achieves SOTA performance on COCO pose estimation. The method is especially good in scenes with large instances overlap, where it improves detection by 39% over the baseline detector. With small specialized models and faster runtime, BMP is an effective alternative to large human-centered foundational models. Code and models are available on https://MiraPurkrabek.github.io/BBox-Mask-Pose.

arxiv情報

著者 Miroslav Purkrabek,Jiri Matas
発行日 2025-03-12 14:28:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Detection, Pose Estimation and Segmentation for Multiple Bodies: Closing the Virtuous Circle はコメントを受け付けていません

COMAE: COMprehensive Attribute Exploration for Zero-shot Hashing

要約

ゼロショットハッシュ(ZSH)は、大規模な検索シナリオでの効率と一般化により、優れた成功を示しています。
かなりの成功が達成されていますが、緊急の制限はまだ存在します。
既存の作品は、見た目のクラスと非誘導クラスの間に効果的な転送可能性を持つ表現と属性の局所関係を無視します。
また、連続価値の属性は完全に活用されていません。
これに応じて、Comaeという名前のZSHの包括的な属性探査を実施します。これは、3つの細心の注意を払って設計された探索、すなわち、ポイントワイズ、ペアごとの、クラスごとの一貫性の制約を通じて、見られたクラスから目に見えないクラスまでの関係を描いています。
提案された属性プロトタイプネットワークから属性を回帰することにより、Comaeは視覚属性に関連するローカル機能を学習します。
その後、Comaeは、インスタンスに依存しない最適化ではなく、属性のコンテキストを包括的に描写するために対照的な学習を利用します。
最後に、クラスごとの制約は、ハッシュコード、画像表現、視覚属性をより効果的に学習するように設計されています。
人気のあるZSHデータセットでの実験結果は、Comaeが、特に目に見えないラベルクラスが多数あるシナリオで、最先端のハッシュテクニックよりも優れていることを示しています。

要約(オリジナル)

Zero-shot hashing (ZSH) has shown excellent success owing to its efficiency and generalization in large-scale retrieval scenarios. While considerable success has been achieved, there still exist urgent limitations. Existing works ignore the locality relationships of representations and attributes, which have effective transferability between seeable classes and unseeable classes. Also, the continuous-value attributes are not fully harnessed. In response, we conduct a COMprehensive Attribute Exploration for ZSH, named COMAE, which depicts the relationships from seen classes to unseen ones through three meticulously designed explorations, i.e., point-wise, pair-wise and class-wise consistency constraints. By regressing attributes from the proposed attribute prototype network, COMAE learns the local features that are relevant to the visual attributes. Then COMAE utilizes contrastive learning to comprehensively depict the context of attributes, rather than instance-independent optimization. Finally, the class-wise constraint is designed to cohesively learn the hash code, image representation, and visual attributes more effectively. Experimental results on the popular ZSH datasets demonstrate that COMAE outperforms state-of-the-art hashing techniques, especially in scenarios with a larger number of unseen label classes.

arxiv情報

著者 Yuqi Li,Qingqing Long,Yihang Zhou,Meng Xiao,Ran Zhang,Zhiyuan Ning,Zhihong Zhu,Xuezhi Wang,Yuanchun Zhou
発行日 2025-03-12 14:29:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | COMAE: COMprehensive Attribute Exploration for Zero-shot Hashing はコメントを受け付けていません

RS2V-L: Vehicle-Mounted LiDAR Data Generation from Roadside Sensor Observations

要約

洗練された制御コマンドを直接生成してマルチモーダル感覚データを処理するエンドツーエンドの自律駆動ソリューションは、自律運転研究の支配的なパラダイムになりました。
ただし、これらのアプローチは主にモデルトレーニングと最適化のための単一車両データ収集に依存しており、高いデータ収集と注釈コスト、重要な運転シナリオの希少性、モデルの一般化を妨げる断片化されたデータセットなどの重要な課題をもたらします。
これらの制限を緩和するために、RS2V-Lを導入します。RS2V-Lは、路傍センサーの観測から車両に取り付けられたLIDARデータを再構築および合成するための新しいフレームワークです。
具体的には、我々の方法では、ターゲットビークルの相対ポーズを活用することにより、道端のライダー点雲を車両に取り付けられたライダー座標系に変換します。
その後、高忠実度の車両に取り付けられたLIDARデータは、仮想LIDARモデリング、ポイントクラウド分類、および再サンプリング技術を通じて合成されます。
私たちの知る限り、これは道端のセンサー入力から車両に取り付けられたLIDARデータを再構築する最初のアプローチです。
広範な実験的評価は、生成されたデータをモデルトレーニングに組み込むことを、Kitti Dataset-Enhances 3Dオブジェクト検出精度を\ Text {30 \%} over {30 \%}で組み込み、エンドツーエンドの自動駆動データ生成の効率を大きくすることで改善することを示しています。
これらの調査結果は、提案された方法の有効性を強く検証し、自律運転モデル​​の堅牢性を改善しながら、高価な車両に取り付けられたデータ収集への依存を減らす可能性を強調しています。

要約(オリジナル)

End-to-end autonomous driving solutions, which process multi-modal sensory data to directly generate refined control commands, have become a dominant paradigm in autonomous driving research. However, these approaches predominantly depend on single-vehicle data collection for model training and optimization, resulting in significant challenges such as high data acquisition and annotation costs, the scarcity of critical driving scenarios, and fragmented datasets that impede model generalization. To mitigate these limitations, we introduce RS2V-L, a novel framework for reconstructing and synthesizing vehicle-mounted LiDAR data from roadside sensor observations. Specifically, our method transforms roadside LiDAR point clouds into the vehicle-mounted LiDAR coordinate system by leveraging the target vehicle’s relative pose. Subsequently, high-fidelity vehicle-mounted LiDAR data is synthesized through virtual LiDAR modeling, point cloud classification, and resampling techniques. To the best of our knowledge, this is the first approach to reconstruct vehicle-mounted LiDAR data from roadside sensor inputs. Extensive experimental evaluations demonstrate that incorporating the generated data into model training-complementing the KITTI dataset-enhances 3D object detection accuracy by over \text{30\%} while improving the efficiency of end-to-end autonomous driving data generation by more than an order of magnitude. These findings strongly validate the effectiveness of the proposed method and underscore its potential in reducing dependence on costly vehicle-mounted data collection while improving the robustness of autonomous driving models.

arxiv情報

著者 Ruidan Xing,Runyi Huang,Qing Xu,Lei He
発行日 2025-03-12 14:32:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | RS2V-L: Vehicle-Mounted LiDAR Data Generation from Roadside Sensor Observations はコメントを受け付けていません

SVGBuilder: Component-Based Colored SVG Generation with Text-Guided Autoregressive Transformers

要約

スケーラブルベクトルグラフィック(SVG)は、汎用性の高いグラフィックスに不可欠なXMLベースの形式であり、解像度の独立性とスケーラビリティを提供します。
ラスター画像とは異なり、SVGは幾何学的な形状を使用し、CSSおよびJavaScriptを介したインタラクティブ性、アニメーション、操作をサポートします。
現在のSVG生成方法は、高い計算コストと複雑さに関連する課題に直面しています。
対照的に、人間のデザイナーは、効率的なSVG作成のためにコンポーネントベースのツールを使用します。
これに触発されたSVGBuilderは、テキスト入力から高品質の色のSVGを生成するためのコンポーネントベースのオートリーレッシブモデルを導入しています。
計算オーバーヘッドを大幅に削減し、従来の方法と比較して効率を向上させます。
私たちのモデルは、最適化ベースのアプローチよりも最大604倍高速でSVGを生成します。
既存のSVGデータセットの制限に対処し、調査をサポートするために、100,000のグラフィックスで構成される色付きSVGの最初の大規模なデータセットであるColorsVG-100Kを紹介します。
このデータセットは、SVG生成モデルの色情報のギャップを埋め、モデルトレーニングの多様性を高めます。
最先端のモデルに対する評価は、実際のアプリケーションでのSVGBuilderの優れたパフォーマンスを示しており、複雑なSVGグラフィックを生成する効率と品質を強調しています。

要約(オリジナル)

Scalable Vector Graphics (SVG) are essential XML-based formats for versatile graphics, offering resolution independence and scalability. Unlike raster images, SVGs use geometric shapes and support interactivity, animation, and manipulation via CSS and JavaScript. Current SVG generation methods face challenges related to high computational costs and complexity. In contrast, human designers use component-based tools for efficient SVG creation. Inspired by this, SVGBuilder introduces a component-based, autoregressive model for generating high-quality colored SVGs from textual input. It significantly reduces computational overhead and improves efficiency compared to traditional methods. Our model generates SVGs up to 604 times faster than optimization-based approaches. To address the limitations of existing SVG datasets and support our research, we introduce ColorSVG-100K, the first large-scale dataset of colored SVGs, comprising 100,000 graphics. This dataset fills the gap in color information for SVG generation models and enhances diversity in model training. Evaluation against state-of-the-art models demonstrates SVGBuilder’s superior performance in practical applications, highlighting its efficiency and quality in generating complex SVG graphics.

arxiv情報

著者 Zehao Chen,Rong Pan
発行日 2025-03-12 14:34:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.GR | SVGBuilder: Component-Based Colored SVG Generation with Text-Guided Autoregressive Transformers はコメントを受け付けていません

SuperCarver: Texture-Consistent 3D Geometry Super-Resolution for High-Fidelity Surface Detail Generation

要約

高精度3Dメッシュ資産の従来の生産ワークフローには、専門のモデラーによる手動の彫刻の面倒で面倒なプロセスが必要です。
近年、AI-Powered 3Dコンテンツの作成における顕著な進歩が目撃されています。
ただし、最新の最先端はすでにもっともらしい構造と画像やテキストのプロンプトから複雑な外観を生成することができますが、実際のメッシュ表面は通常、滑らかであり、幾何学的な詳細を欠いています。
このペーパーでは、特定の粗いメッシュにテクスチャに一貫性のある表面の詳細を追加するために特に調整された3Dジオメトリスーパー解像度フレームワークであるスーパーカーバーを紹介します。
技術的には、複数の視点から元のテクスチャーメッシュを画像ドメインにレンダリングすることから始めます。
幾何学的なディテール生成を実現するために、ペアの低ポリおよび高ポリ正常レンダリングの慎重にキュレーションされたデータセットで微調整された決定論的な事前誘導正常拡散モデルを開発します。
潜在的に不完全な通常のマップ予測からメッシュ構造を最適化するために、距離フィールドの変形に基づいて、シンプルで効果的なノイズ耐性逆レンダリングスキームを設計します。
広範な実験では、スーパーカーバーが特定のテクスチャーの外観によって描かれているように現実的で表現力のある表面の詳細を生成し、大量の時代遅れの低品質資産を自動的にアップグレードし、実際のアプリケーションで高品質のメッシュ生産の反復サイクルを短縮するための強力なツールにすることが示されています。

要約(オリジナル)

Traditional production workflow of high-precision 3D mesh assets necessitates a cumbersome and laborious process of manual sculpting by specialized modelers. The recent years have witnessed remarkable advances in AI-empowered 3D content creation. However, although the latest state-of-the-arts are already capable of generating plausible structures and intricate appearances from images or text prompts, the actual mesh surfaces are typically over-smoothing and lack geometric details. This paper introduces SuperCarver, a 3D geometry super-resolution framework particularly tailored for adding texture-consistent surface details to given coarse meshes. Technically, we start by rendering the original textured mesh into the image domain from multiple viewpoints. To achieve geometric detail generation, we develop a deterministic prior-guided normal diffusion model fine-tuned on a carefully curated dataset of paired low-poly and high-poly normal renderings. To optimize mesh structures from potentially imperfect normal map predictions, we design a simple yet effective noise-resistant inverse rendering scheme based on distance field deformation. Extensive experiments show that SuperCarver generates realistic and expressive surface details as depicted by specific texture appearances, making it a powerful tool for automatically upgrading massive outdated low-quality assets and shortening the iteration cycle of high-quality mesh production in practical applications.

arxiv情報

著者 Qijian Zhang,Xiaozheng Jian,Xuan Zhang,Wenping Wang,Junhui Hou
発行日 2025-03-12 14:38:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | SuperCarver: Texture-Consistent 3D Geometry Super-Resolution for High-Fidelity Surface Detail Generation はコメントを受け付けていません