Positive2Negative: Breaking the Information-Lossy Barrier in Self-Supervised Single Image Denoising

要約

画像除去は画質を向上させ、さまざまな計算写真アプリケーションで基礎的な手法として機能します。
実際のシナリオで画像をきれいに獲得するための障害は、ノイズの多い画像、特に単一の騒々しい画像に応じてのみ、自己監視された画像除去方法の開発を必要とします。
既存の自己監視画像は、パラダイム(noise2noiseとnoise2void)を除去するパラダイム(noise2noise2void)が、ダウンサンプリングやマスキングなど、低品質の除去パフォーマンスに至るような情報損失の操作に大きく依存しています。
このペーパーでは、情報障害を破るために、肯定的な2ネガティブであるパラダイムを除去する新しい自己監督の単一イメージを提案します。
私たちのパラダイムには、2つの重要なステップが含まれます。これは、リノー化データ構築(RDC)と一貫性のない監督(DCS)です。
RDCは、予測されたノイズによって予測された除去された画像をリノードして、複数のノイズの多い画像を構築し、元の画像のすべての情報を保存します。
DCSは、複数の除去された画像全体で一貫性を保証し、ネットワークを監督して堅牢な除去を学習します。
私たちのPositive2Negativeパラダイムは、大幅な速度改善で除去される自己監視単一の画像で最先端のパフォーマンスを達成します。
このコードは、https://github.com/li-tong-621/p2nで一般に公開されています。

要約(オリジナル)

Image denoising enhances image quality, serving as a foundational technique across various computational photography applications. The obstacle to clean image acquisition in real scenarios necessitates the development of self-supervised image denoising methods only depending on noisy images, especially a single noisy image. Existing self-supervised image denoising paradigms (Noise2Noise and Noise2Void) rely heavily on information-lossy operations, such as downsampling and masking, culminating in low quality denoising performance. In this paper, we propose a novel self-supervised single image denoising paradigm, Positive2Negative, to break the information-lossy barrier. Our paradigm involves two key steps: Renoised Data Construction (RDC) and Denoised Consistency Supervision (DCS). RDC renoises the predicted denoised image by the predicted noise to construct multiple noisy images, preserving all the information of the original image. DCS ensures consistency across the multiple denoised images, supervising the network to learn robust denoising. Our Positive2Negative paradigm achieves state-of-the-art performance in self-supervised single image denoising with significant speed improvements. The code is released to the public at https://github.com/Li-Tong-621/P2N.

arxiv情報

著者 Tong Li,Lizhi Wang,Zhiyuan Xu,Lin Zhu,Wanxuan Lu,Hua Huang
発行日 2025-03-24 16:27:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Positive2Negative: Breaking the Information-Lossy Barrier in Self-Supervised Single Image Denoising はコメントを受け付けていません

3DSwapping: Texture Swapping For 3D Object From Single Reference Image

要約

3Dテクスチャスワッピングにより、3Dオブジェクトテクスチャのカスタマイズが可能になり、3D編集で効率的で多用途の視覚変換が可能になります。
専用の方法は存在しませんが、適応した2D編集とテキスト駆動型の3D編集アプローチは、この目的に役立ちます。
ただし、2D編集にはフレームごとの操作が必要であり、ビュー全体で矛盾を引き起こしますが、テキスト駆動型の3D編集は、参照画像からテクスチャ特性を維持するのに苦労します。
これらの課題に取り組むために、3DSWAPPING、統合する3Dテクスチャスワッピング方法を紹介します。1)プログレッシブ生成、2)ビュー依存勾配ガイダンス、および3)迅速な調整された勾配ガイダンス。
ビューの一貫性を確保するために、プログレッシブ生成プロセスは、単一の参照画像を編集することから始まり、隣接するビューへの編集を徐々に伝播します。
私たちの視界順応勾配ガイダンスは、一貫した出力と一貫性のない出力の特徴の違いに関する生成モデルを条件付けることにより、一貫性をさらに強化します。
テクスチャ特性を保持するために、参照画像と3Dオブジェクトの違いを正確にキャプチャするトークンを学習するプロンプトチューニングベースのグラデーションガイダンスを導入します。
このトークンは、編集プロセスを導き、ビュー全体でより一貫したテクスチャの保存を確保します。
全体として、3DSWAPPINGはこれらの新しい戦略を統合して、複数の視点で構造的な一貫性を維持しながら、より忠実度の高いテクスチャ転送を達成します。
広範な定性的および定量的評価は、3つの新しいコンポーネントが3Dオブジェクトの説得力のある効果的な2Dテクスチャスワッピングを可能にすることを確認しています。
コードは受け入れられると利用可能になります。

要約(オリジナル)

3D texture swapping allows for the customization of 3D object textures, enabling efficient and versatile visual transformations in 3D editing. While no dedicated method exists, adapted 2D editing and text-driven 3D editing approaches can serve this purpose. However, 2D editing requires frame-by-frame manipulation, causing inconsistencies across views, while text-driven 3D editing struggles to preserve texture characteristics from reference images. To tackle these challenges, we introduce 3DSwapping, a 3D texture swapping method that integrates: 1) progressive generation, 2) view-consistency gradient guidance, and 3) prompt-tuned gradient guidance. To ensure view consistency, our progressive generation process starts by editing a single reference image and gradually propagates the edits to adjacent views. Our view-consistency gradient guidance further reinforces consistency by conditioning the generation model on feature differences between consistent and inconsistent outputs. To preserve texture characteristics, we introduce prompt-tuning-based gradient guidance, which learns a token that precisely captures the difference between the reference image and the 3D object. This token then guides the editing process, ensuring more consistent texture preservation across views. Overall, 3DSwapping integrates these novel strategies to achieve higher-fidelity texture transfer while preserving structural coherence across multiple viewpoints. Extensive qualitative and quantitative evaluations confirm that our three novel components enable convincing and effective 2D texture swapping for 3D objects. Code will be available upon acceptance.

arxiv情報

著者 Xiao Cao,Beibei Lin,Bo Wang,Zhiyong Huang,Robby T. Tan
発行日 2025-03-24 16:31:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | 3DSwapping: Texture Swapping For 3D Object From Single Reference Image はコメントを受け付けていません

MC-LLaVA: Multi-Concept Personalized Vision-Language Model

要約

現在のビジョン言語モデル(VLM)は、視覚的な質問応答など、さまざまなタスク全体で例外的な能力を示しています。
ユーザーエクスペリエンスを向上させるために、最近の研究では、ユーザーが提供する概念を理解するためにVLMパーソナライズを調査しています。
ただし、主に単一の概念パーソナライズに焦点を当て、複数の概念の存在と相互作用を無視して、実際の適用性を制限します。
このペーパーでは、最初のマルチコンセプトパーソナライゼーションパラダイムであるMC-llavaを提案します。
具体的には、MC-Lolavaはマルチコンセプト指導チューニング戦略を採用しており、単一のトレーニングステップで複数の概念を効果的に統合しています。
共同トレーニングに関連するコストを削減するために、視覚トークン情報を使用してコンセプトトークンを初期化するパーソナライズされたテキストプロンプトを提案します。
さらに、推論中にパーソナライズされた視覚プロンプトを導入し、認識と接地機能を強化するための位置信頼マップを集約します。
マルチコンセプトパーソナライゼーションの研究を進めるために、さらに高品質の命令チューニングデータセットを提供します。
映画から複数の文字やオブジェクトを使用して画像を慎重に収集し、優れた多様性を特徴とするマルチコンセプトシナリオ用の質問回答サンプルを手動で生成します。
包括的な定性的および定量的実験は、MC-Lovaが印象的なマルチコンセプトパーソナライズされた応答を達成できることを示しており、VLMSがより優れたユーザー固有のアシスタントになる方法を開催しています。
コードとデータセットは、$ \ href {https://github.com/arctanxarc/mc-llava} {https://github.com/arctanxarc/mc-llava} $で公開されます。

要約(オリジナル)

Current vision-language models (VLMs) show exceptional abilities across diverse tasks, such as visual question answering. To enhance user experience, recent studies investigate VLM personalization to understand user-provided concepts. However, they mainly focus on single-concept personalization, neglecting the existence and interplay of multiple concepts, which limits real-world applicability. This paper proposes the first multi-concept personalization paradigm, MC-LLaVA. Specifically, MC-LLaVA employs a multi-concept instruction tuning strategy, effectively integrating multiple concepts in a single training step. To reduce the costs related to joint training, we propose a personalized textual prompt that uses visual token information to initialize concept tokens. Additionally, we introduce a personalized visual prompt during inference, aggregating location confidence maps for enhanced recognition and grounding capabilities. To advance multi-concept personalization research, we further contribute a high-quality instruction tuning dataset. We carefully collect images with multiple characters and objects from movies and manually generate question-answer samples for multi-concept scenarios, featuring superior diversity. Comprehensive qualitative and quantitative experiments demonstrate that MC-LLaVA can achieve impressive multi-concept personalized responses, paving the way for VLMs to become better user-specific assistants. The code and dataset will be publicly available at $\href{https://github.com/arctanxarc/MC-LLaVA}{https://github.com/arctanxarc/MC-LLaVA}$.

arxiv情報

著者 Ruichuan An,Sihan Yang,Ming Lu,Renrui Zhang,Kai Zeng,Yulin Luo,Jiajun Cao,Hao Liang,Ying Chen,Qi She,Shanghang Zhang,Wentao Zhang
発行日 2025-03-24 16:32:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | MC-LLaVA: Multi-Concept Personalized Vision-Language Model はコメントを受け付けていません

STEVE: A Step Verification Pipeline for Computer-use Agent Training

要約

グラフィカルユーザーインターフェイスを自律的に操作するためにAIエージェントを開発することは、長い挑戦的な作業です。
データのスケーリング法の最近の進歩により、スケーリングされた命令セットでコンピューター使用エージェントを訓練するようになりますが、動作のクローニングを使用してエージェントを訓練するには、膨大な高品質の軌跡が必要です。
スケーラビリティのニーズを満たすために、コンピューター使用エージェントトレーニングのためのステップ検証パイプラインであるSteveを設計しました。
まず、コンピューター使用エージェント向けの大きな命令セットを確立し、一部の最適なエージェントで軌道データを収集します。
GPT-4Oは、アクション実行の前後に画面に基づいて軌道内の各ステップの正確性を検証し、各ステップをバイナリラベルで割り当てます。
最後に、KahnemanとTverskyの最適化を採用して、バイナリの段階的ラベルからエージェントを最適化します。
広範な実験は、軌道内で肯定的および否定的なアクションの両方を活用することにより、エージェントが監視された微調整を上回ることを明らかにします。
また、Steveは、コンピューター使用エージェントとして7Bビジョン言語モデルをトレーニングすることを可能にし、挑戦的なライブデスクトップ環境Winagentarenaでリードパフォーマンスを達成し、コストを削減します。
コードとデータ:https://github.com/fanbinlu/steve。

要約(オリジナル)

Developing AI agents to autonomously manipulate graphical user interfaces is a long challenging task. Recent advances in data scaling law inspire us to train computer-use agents with a scaled instruction set, yet using behavior cloning to train agents still requires immense high-quality trajectories. To meet the scalability need, we designed STEVE, a step verification pipeline for computer-use agent training. First, we establish a large instruction set for computer-use agents and collect trajectory data with some suboptimal agents. GPT-4o is used to verify the correctness of each step in the trajectories based on the screens before and after the action execution, assigning each step with a binary label. Last, we adopt the Kahneman and Tversky Optimization to optimize the agent from the binary stepwise labels. Extensive experiments manifest that our agent outperforms supervised finetuning by leveraging both positive and negative actions within a trajectory. Also, STEVE enables us to train a 7B vision-language model as a computer-use agent, achieving leading performance in the challenging live desktop environment WinAgentArena with great efficiency at a reduced cost. Code and data: https://github.com/FanbinLu/STEVE.

arxiv情報

著者 Fanbin Lu,Zhisheng Zhong,Ziqin Wei,Shu Liu,Chi-Wing Fu,Jiaya Jia
発行日 2025-03-24 16:33:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | STEVE: A Step Verification Pipeline for Computer-use Agent Training はコメントを受け付けていません

PRISM: Privacy-Preserving Improved Stochastic Masking for Federated Generative Models

要約

連邦学習(FL)の最近の進歩にもかかわらず、FLへの生成モデルの統合は、高い通信コストや不均一なデータ環境での不安定なトレーニングなどの課題により制限されています。
これらの問題に対処するために、(i)不均一なデータ分布の安定したパフォーマンスと(ii)通信コストと最終モデルサイズの観点からのリソース効率を保証する生成モデルに合わせたFLフレームワークであるPRISMを提案します。
私たちの方法の鍵は、モデルの重みを更新するのではなく、ランダムネットワークの最適な確率的バイナリマスクを検索し、高い生成パフォーマンスを備えたスパースサブネットワークを識別することです。
すなわち、「強い宝くじ券」。
バイナリマスクを確率的に通信することにより、プリズムはコミュニケーションのオーバーヘッドを最小限に抑えます。
このアプローチは、サーバー側の最大平均不一致(MMD)損失(MMD)損失とマスクに対応する動的移動平均集約法(MADA)の利用と相まって、FLシナリオの局所的発散を軽減することにより、安定した強力な生成機能を促進します。
さらに、そのスパースの特性のおかげで、プリズムは余分なプルーニングや量子化なしで軽量モデルを生成し、エッジデバイスなどの環境に最適です。
MNIST、FMNIST、CELEBA、およびCIFAR10の実験は、PRISMが既存の方法を上回り、通信コストを最小限に抑えながらプライバシーを維持することを示しています。
プリズムは、以前の方法が苦労している複雑なデータセットで、挑戦的でない非IIDおよびプライバシーを提供するFL環境の下で画像を成功裏に生成した最初のものです。

要約(オリジナル)

Despite recent advancements in federated learning (FL), the integration of generative models into FL has been limited due to challenges such as high communication costs and unstable training in heterogeneous data environments. To address these issues, we propose PRISM, a FL framework tailored for generative models that ensures (i) stable performance in heterogeneous data distributions and (ii) resource efficiency in terms of communication cost and final model size. The key of our method is to search for an optimal stochastic binary mask for a random network rather than updating the model weights, identifying a sparse subnetwork with high generative performance; i.e., a “strong lottery ticket”. By communicating binary masks in a stochastic manner, PRISM minimizes communication overhead. This approach, combined with the utilization of maximum mean discrepancy (MMD) loss and a mask-aware dynamic moving average aggregation method (MADA) on the server side, facilitates stable and strong generative capabilities by mitigating local divergence in FL scenarios. Moreover, thanks to its sparsifying characteristic, PRISM yields a lightweight model without extra pruning or quantization, making it ideal for environments such as edge devices. Experiments on MNIST, FMNIST, CelebA, and CIFAR10 demonstrate that PRISM outperforms existing methods, while maintaining privacy with minimal communication costs. PRISM is the first to successfully generate images under challenging non-IID and privacy-preserving FL environments on complex datasets, where previous methods have struggled.

arxiv情報

著者 Kyeongkook Seo,Dong-Jun Han,Jaejun Yoo
発行日 2025-03-24 16:34:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.CV, cs.LG | PRISM: Privacy-Preserving Improved Stochastic Masking for Federated Generative Models はコメントを受け付けていません

Visual Position Prompt for MLLM based Visual Grounding

要約

マルチモーダルの大手言語モデル(MLLM)は、さまざまな画像関連のタスクに優れていますが、特に視覚接地などの位置認識タスクで、画像内の空間情報と正確に座標を整合することで課題に遭遇します。
この制限は、2つの重要な要因から生じます。
第一に、MLLMは明示的な空間的参照を欠いているため、テキストの説明を正確な画像の位置に関連付けることが困難です。
第二に、それらの機能抽出プロセスは、細粒の空間的詳細よりもグローバルコンテキストを優先し、ローカリゼーション能力が弱くなります。
この問題に対処するために、視覚的位置プロンプト(VPP)を装備したMLLMであるVPP-llavaを導入して、その接地機能を改善します。
VPP-llavaは、2つの相補的メカニズムを統合します。
グローバルVPPオーバーレイは、入力画像に軸のような埋め込みを学習可能で、構造化された空間キューを提供します。
ローカルVPPは、オブジェクトの位置を示唆する位置認識クエリを組み込むことにより、細粒のローカリゼーションに焦点を当てています。
また、0.6mのサンプルを備えたVPP-SFTデータセットを導入し、高品質の視覚的接地データを効率的なモデルトレーニングのためにコンパクト形式に統合します。
VPPを使用したこのデータセットでのトレーニングは、モデルのパフォーマンスを向上させ、Minigpt-V2などの他のMLLMと比較してより少ないトレーニングサンプルを使用しているにもかかわらず、標準の接地ベンチマークで最先端の結果を達成します。
コードとVPP-SFTデータセットは、受け入れればhttps://github.com/waynetomas/vpp-llavaで入手できます。

要約(オリジナル)

Although Multimodal Large Language Models (MLLMs) excel at various image-related tasks, they encounter challenges in precisely aligning coordinates with spatial information within images, particularly in position-aware tasks such as visual grounding. This limitation arises from two key factors. First, MLLMs lack explicit spatial references, making it difficult to associate textual descriptions with precise image locations. Second, their feature extraction processes prioritize global context over fine-grained spatial details, leading to weak localization capability. To address this issue, we introduce VPP-LLaVA, an MLLM equipped with Visual Position Prompt (VPP) to improve its grounding capability. VPP-LLaVA integrates two complementary mechanisms. The global VPP overlays learnable, axis-like embeddings onto the input image to provide structured spatial cues. The local VPP focuses on fine-grained localization by incorporating position-aware queries, which suggests probable object locations. We also introduce a VPP-SFT dataset with 0.6M samples, consolidating high-quality visual grounding data into a compact format for efficient model training. Training on this dataset with VPP enhances the model’s performance, achieving state-of-the-art results on standard grounding benchmarks despite using fewer training samples compared to other MLLMs like MiniGPT-v2, which rely on much larger datasets ($\sim$21M samples). The code and VPP-SFT dataset will be available at https://github.com/WayneTomas/VPP-LLaVA upon acceptance.

arxiv情報

著者 Wei Tang,Yanpeng Sun,Qinying Gu,Zechao Li
発行日 2025-03-24 16:34:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Visual Position Prompt for MLLM based Visual Grounding はコメントを受け付けていません

HunyuanPortrait: Implicit Condition Control for Enhanced Portrait Animation

要約

Hunyuanportraitを紹介します。これは、非常に制御可能でリアルなポートレートアニメーションに暗黙の表現を使用する拡散ベースの条件制御方法です。
外観の参照としての単一のポートレート画像とドライビングテンプレートとしてのビデオクリップを考えると、Hunyuanportraitは、運転ビデオの表情とヘッドポーズによって参照画像のキャラクターをアニメーション化できます。
私たちのフレームワークでは、事前に訓練されたエンコーダーを利用して、ビデオでポートレートモーション情報とアイデンティティのデカップリングを実現します。
そのためには、暗黙の表現がモーション情報をエンコードするために採用され、アニメーションフェーズの制御信号として採用されます。
主要なビルディングブロックとして安定したビデオ拡散の力を活用することにより、注意メカニズムを介して除去UNETに制御信号を注入するようにアダプターレイヤーを慎重に設計します。
これらは、詳細の空間的豊かさと時間的一貫性をもたらします。
Hunyuanportraitは、強力な一般化パフォーマンスも示しており、異なる画像スタイルの下で外観と動きを効果的に解き放つことができます。
私たちのフレームワークは、既存の方法を上回り、優れた時間的一貫性と制御可能性を示しています。
当社のプロジェクトは、https://kkkkkka.github.io/hunyuanportraitで入手できます。

要約(オリジナル)

We introduce HunyuanPortrait, a diffusion-based condition control method that employs implicit representations for highly controllable and lifelike portrait animation. Given a single portrait image as an appearance reference and video clips as driving templates, HunyuanPortrait can animate the character in the reference image by the facial expression and head pose of the driving videos. In our framework, we utilize pre-trained encoders to achieve the decoupling of portrait motion information and identity in videos. To do so, implicit representation is adopted to encode motion information and is employed as control signals in the animation phase. By leveraging the power of stable video diffusion as the main building block, we carefully design adapter layers to inject control signals into the denoising unet through attention mechanisms. These bring spatial richness of details and temporal consistency. HunyuanPortrait also exhibits strong generalization performance, which can effectively disentangle appearance and motion under different image styles. Our framework outperforms existing methods, demonstrating superior temporal consistency and controllability. Our project is available at https://kkakkkka.github.io/HunyuanPortrait.

arxiv情報

著者 Zunnan Xu,Zhentao Yu,Zixiang Zhou,Jun Zhou,Xiaoyu Jin,Fa-Ting Hong,Xiaozhong Ji,Junwei Zhu,Chengfei Cai,Shiyu Tang,Qin Lin,Xiu Li,Qinglin Lu
発行日 2025-03-24 16:35:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | HunyuanPortrait: Implicit Condition Control for Enhanced Portrait Animation はコメントを受け付けていません

Exploring the Integration of Key-Value Attention Into Pure and Hybrid Transformers for Semantic Segmentation

要約

CNNは長い間画像処理の最先端と見なされていましたが、トランスアーキテクチャの導入はこの立場に挑戦しています。
画像の分類とセグメンテーションで優れた結果を達成しながら、トランスフォーマーは本質的に大規模なトレーニングデータセットに依存しており、計算上の高価のままです。
KVトランスという名前の新たに導入されたトランス誘導体は、合成、NLP、および画像分類タスクで有望な結果を示し、複雑さとメモリの使用を削減します。
これは、医療スクリーニングアプリケーションなど、局所推論が必要なユースケースを特に助長します。
特に医療イメージングの領域で、セマンティックセグメンテーションタスクでのKVトランスのメリットをさらに評価するよう努めました。
同じベースアーキテクチャの従来のバリアントとKVバリエーションを直接比較することにより、モデルの複雑さの減少の実用的なトレードオフに関するさらなる洞察を提供します。
QKV実装と直接比較して、パラメーター数の顕著な減少と蓄積操作の蓄積が積極的に蓄積され、ほとんどのKVバリアントモデルから同様のパフォーマンスを達成することが観察されます。

要約(オリジナル)

While CNNs were long considered state of the art for image processing, the introduction of Transformer architectures has challenged this position. While achieving excellent results in image classification and segmentation, Transformers remain inherently reliant on large training datasets and remain computationally expensive. A newly introduced Transformer derivative named KV Transformer shows promising results in synthetic, NLP, and image classification tasks, while reducing complexity and memory usage. This is especially conducive to use cases where local inference is required, such as medical screening applications. We endeavoured to further evaluate the merit of KV Transformers on semantic segmentation tasks, specifically in the domain of medical imaging. By directly comparing traditional and KV variants of the same base architectures, we provide further insight into the practical tradeoffs of reduced model complexity. We observe a notable reduction in parameter count and multiply accumulate operations, while achieving similar performance from most of the KV variant models when directly compared to their QKV implementation.

arxiv情報

著者 DeShin Hwa,Tobias Holmes,Klaus Drechsler
発行日 2025-03-24 16:38:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Exploring the Integration of Key-Value Attention Into Pure and Hybrid Transformers for Semantic Segmentation はコメントを受け付けていません

Dora: Sampling and Benchmarking for 3D Shape Variational Auto-Encoders

要約

最近の3Dコンテンツ生成パイプラインは、一般に変分自動エンコーダー(VAE)を採用して、拡散ベースの生成のためにシェイプをコンパクトな潜在表現にエンコードします。
ただし、形状型トレーニングで広く採用されている均一な点サンプリング戦略は、しばしば幾何学的な詳細の大幅な損失につながり、形状再建の品質と下流の生成タスクを制限します。
ドラバエは、提案されているシャープエッジサンプリング戦略と二重の分析メカニズムを通じて、VAEの再建を強化する新しいアプローチです。
トレーニング中に幾何学的な複雑さが高い地域を特定して優先順位を付けることにより、私たちの方法は、きめ細かい形状の特徴の保存を大幅に改善します。
このようなサンプリング戦略と二重の注意メカニズムにより、VAEは均一なサンプリングアプローチで通常見逃される重要な幾何学的な詳細に焦点を合わせることができます。
VAEの再構築品質を体系的に評価するために、鋭いエッジの密度を通じて形状の複雑さを定量化するベンチマークであるドラベンチをさらに提案し、これらの顕著な幾何学的特徴の再構築精度に焦点を当てた新しいメトリックを導入します。
ドラベンチでの広範な実験は、ドラバエが最先端の密集したXcube-vaeに匹敵する再構築品質を達成し、少なくとも8ドルの時間$ $ $ $ small(1,280対> 10,000コード)を必要とすることを示しています。

要約(オリジナル)

Recent 3D content generation pipelines commonly employ Variational Autoencoders (VAEs) to encode shapes into compact latent representations for diffusion-based generation. However, the widely adopted uniform point sampling strategy in Shape VAE training often leads to a significant loss of geometric details, limiting the quality of shape reconstruction and downstream generation tasks. We present Dora-VAE, a novel approach that enhances VAE reconstruction through our proposed sharp edge sampling strategy and a dual cross-attention mechanism. By identifying and prioritizing regions with high geometric complexity during training, our method significantly improves the preservation of fine-grained shape features. Such sampling strategy and the dual attention mechanism enable the VAE to focus on crucial geometric details that are typically missed by uniform sampling approaches. To systematically evaluate VAE reconstruction quality, we additionally propose Dora-bench, a benchmark that quantifies shape complexity through the density of sharp edges, introducing a new metric focused on reconstruction accuracy at these salient geometric features. Extensive experiments on the Dora-bench demonstrate that Dora-VAE achieves comparable reconstruction quality to the state-of-the-art dense XCube-VAE while requiring a latent space at least 8$\times$ smaller (1,280 vs. > 10,000 codes).

arxiv情報

著者 Rui Chen,Jianfeng Zhang,Yixun Liang,Guan Luo,Weiyu Li,Jiarui Liu,Xiu Li,Xiaoxiao Long,Jiashi Feng,Ping Tan
発行日 2025-03-24 16:41:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Dora: Sampling and Benchmarking for 3D Shape Variational Auto-Encoders はコメントを受け付けていません

MotionMap: Representing Multimodality in Human Pose Forecasting

要約

人間のポーズ予測は、観測されたポーズシーケンスのために複数の先物が存在するため、本質的にマルチモーダルです。
ただし、タスクが不適切であるため、マルチモダリティの評価は困難です。
したがって、最初に、タスクを適切に位置づけるための代替パラダイムを提案します。
次に、最先端の方法はマルチモダリティを予測しますが、これには大量の予測をオーバーサンプリングする必要があります。
これにより、重要な疑問が生じます。(1)少数の予測を効率的にサンプリングすることでマルチモダリティをキャプチャできますか?
(2)その後、予測された先物のどれが観察されたポーズシーケンスの可能性が高いのはどれですか?
これらの質問は、マルチモダリティのためのシンプルで効果的なヒートマップベースの表現であるMotionMapで対処します。
ヒートマップを拡張して、すべての可能な動きの空間上の空間分布を表します。ここでは、異なる局所的な最大値は、特定の観測の異なる予測に対応しています。
MotionMapは、観察ごとに可変数のモードをキャプチャし、さまざまなモードに対して信頼測定を提供できます。
さらに、MotionMapを使用すると、予測されたポーズシーケンスにわたって不確実性と制御可能性の概念を導入できます。
最後に、MotionMapは、安全性を評価するのに重要ではないが重要でないまれなモードをキャプチャします。
人気のある3Dヒューマンポーズデータセットを使用した複数の定性的および定量的実験を通じて、Human 3.6mとAmassを使用して、提案された方法の強みと制限を強調して、私たちの主張を支持します。
プロジェクトページ:https://vita-epfl.github.io/motionmap

要約(オリジナル)

Human pose forecasting is inherently multimodal since multiple futures exist for an observed pose sequence. However, evaluating multimodality is challenging since the task is ill-posed. Therefore, we first propose an alternative paradigm to make the task well-posed. Next, while state-of-the-art methods predict multimodality, this requires oversampling a large volume of predictions. This raises key questions: (1) Can we capture multimodality by efficiently sampling a smaller number of predictions? (2) Subsequently, which of the predicted futures is more likely for an observed pose sequence? We address these questions with MotionMap, a simple yet effective heatmap based representation for multimodality. We extend heatmaps to represent a spatial distribution over the space of all possible motions, where different local maxima correspond to different forecasts for a given observation. MotionMap can capture a variable number of modes per observation and provide confidence measures for different modes. Further, MotionMap allows us to introduce the notion of uncertainty and controllability over the forecasted pose sequence. Finally, MotionMap captures rare modes that are non-trivial to evaluate yet critical for safety. We support our claims through multiple qualitative and quantitative experiments using popular 3D human pose datasets: Human3.6M and AMASS, highlighting the strengths and limitations of our proposed method. Project Page: https://vita-epfl.github.io/MotionMap

arxiv情報

著者 Reyhaneh Hosseininejad,Megh Shukla,Saeed Saadatnejad,Mathieu Salzmann,Alexandre Alahi
発行日 2025-03-24 16:42:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | MotionMap: Representing Multimodality in Human Pose Forecasting はコメントを受け付けていません