Disentangle Before Anonymize: A Two-stage Framework for Attribute-preserved and Occlusion-robust De-identification

要約

個人的な写真が簡単に漏れて収集される時代には、顔の識別はアイデンティティのプライバシーを保護するための重要な方法です。
ただし、現在の顔の識別技術は、属性の詳細を維持する際の課題に直面し、多くの場合、信頼性を低下させて匿名化された結果を生成します。
これらの欠点は、閉塞を処理する際に特に顕著であり、頻繁に目立った編集アーティファクトをもたらします。
この作業における私たちの主な発見は、アイデンティティの解体と匿名化の同時トレーニングがそれぞれの有効性を妨げることです。したがって、「匿名の前に解く前)を提案します。
このフレームワークには、対照的なアイデンティティの解体(CID)モジュールと、忠実な属性の保存と高品質のアイデンティティ匿名化編集を実現する重要な可証可能なリバーシブルアイデンティティ匿名化(KRIA)モジュールが含まれます。
さらに、oclusionsの下での匿名化品質の低下の問題に対処するために、マルチスケールの注意属性保持(MAAR)モジュールを導入します。拡張実験は、私たちの方法が最先端の脱同調アプローチを上回り、優れた品質、詳細な忠実度の向上、属性の保存パフォーマンスを改善し、occlusionsの堅牢性を高めることを示しています。

要約(オリジナル)

In an era where personal photos are easily leaked and collected, face de-identification is a crucial method for protecting identity privacy. However, current face de-identification techniques face challenges in preserving attribute details and often produce anonymized results with reduced authenticity. These shortcomings are particularly evident when handling occlusions,frequently resulting in noticeable editing artifacts. Our primary finding in this work is that simultaneous training of identity disentanglement and anonymization hinders their respective effectiveness.Therefore, we propose ‘Disentangle Before Anonymize’,a novel two-stage Framework(DBAF)designed for attributepreserved and occlusion-robust de-identification. This framework includes a Contrastive Identity Disentanglement (CID) module and a Key-authorized Reversible Identity Anonymization (KRIA) module, achieving faithful attribute preservation and high-quality identity anonymization edits. Additionally, we introduce a Multiscale Attentional Attribute Retention (MAAR) module to address the issue of reduced anonymization quality under occlusions.Extensive experiments demonstrate that our method outperforms state-of-the-art de-identification approaches, delivering superior quality, enhanced detail fidelity, improved attribute preservation performance, and greater robustness to occlusions.

arxiv情報

著者 Mingrui Zhu,Dongxin Chen,Xin Wei,Nannan Wang,Xinbo Gao
発行日 2025-05-01 10:36:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Disentangle Before Anonymize: A Two-stage Framework for Attribute-preserved and Occlusion-robust De-identification はコメントを受け付けていません

Ouroboros3D: Image-to-3D Generation via 3D-aware Recursive Diffusion

要約

既存の単一画像から3Dの作成方法には、通常、2段階のプロセスが含まれ、最初にマルチビュー画像を生成し、次にこれらの画像を3D再構成に使用します。
ただし、これらの2つの段階を個別にトレーニングすると、推論段階で重要なデータバイアスが発生し、再構築された結果の品質に影響します。
拡散ベースのマルチビュー画像生成と3D再構成を再帰的拡散プロセスに統合するUsoboros3Dという名前の統一された3D生成フレームワークを紹介します。
私たちのフレームワークでは、これらの2つのモジュールは、自己条件付けメカニズムを通じて共同で訓練されており、堅牢な推論のために互いの特性に適応することができます。
マルチビュー除去プロセス中、マルチビュー拡散モデルは、以前のタイムステップで再構成モジュールによってレンダリングされた3D対応マップを追加の条件として使用します。
3D対応フィードバックを備えた再帰的拡散フレームワークは、プロセス全体を結合し、幾何学的な一貫性を改善します。実験は、私たちのフレームワークが、推論フェーズでそれらを組み合わせるこれら2つの段階と既存の方法の分離を上回ることを示しています。
プロジェクトページ:https://costwen.github.io/ouroboros3d/

要約(オリジナル)

Existing single image-to-3D creation methods typically involve a two-stage process, first generating multi-view images, and then using these images for 3D reconstruction. However, training these two stages separately leads to significant data bias in the inference phase, thus affecting the quality of reconstructed results. We introduce a unified 3D generation framework, named Ouroboros3D, which integrates diffusion-based multi-view image generation and 3D reconstruction into a recursive diffusion process. In our framework, these two modules are jointly trained through a self-conditioning mechanism, allowing them to adapt to each other’s characteristics for robust inference. During the multi-view denoising process, the multi-view diffusion model uses the 3D-aware maps rendered by the reconstruction module at the previous timestep as additional conditions. The recursive diffusion framework with 3D-aware feedback unites the entire process and improves geometric consistency.Experiments show that our framework outperforms separation of these two stages and existing methods that combine them at the inference phase. Project page: https://costwen.github.io/Ouroboros3D/

arxiv情報

著者 Hao Wen,Zehuan Huang,Yaohui Wang,Xinyuan Chen,Lu Sheng
発行日 2025-05-01 10:43:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Ouroboros3D: Image-to-3D Generation via 3D-aware Recursive Diffusion はコメントを受け付けていません

ClearLines – Camera Calibration from Straight Lines

要約

直線からのキャリブレーションの問題は、幾何学的なコンピュータービジョンにおいて基本的なものであり、理論的な基盤が確立されています。
ただし、特に実際の屋外シナリオでは、その実用的な適用性は依然として限られています。
これらの環境は、シーンが多様で乱雑なシーン、まっすぐな3Dラインの再注入を中断し、さまざまな照明条件のために大きな課題をもたらし、タスクを困難にします。
さらに、フィールドには、それぞれの検出アルゴリズムの開発を促進する専用のデータセットがありません。
この研究では、「Clearlines」という名前の小さなデータセットを提示し、その作成プロセスを詳述することにより、ストレート3Dライン検出アルゴリズムを開発および改良するためのガイドとして役立つ実用的な洞察を提供します。

要約(オリジナル)

The problem of calibration from straight lines is fundamental in geometric computer vision, with well-established theoretical foundations. However, its practical applicability remains limited, particularly in real-world outdoor scenarios. These environments pose significant challenges due to diverse and cluttered scenes, interrupted reprojections of straight 3D lines, and varying lighting conditions, making the task notoriously difficult. Furthermore, the field lacks a dedicated dataset encouraging the development of respective detection algorithms. In this study, we present a small dataset named ‘ClearLines’, and by detailing its creation process, provide practical insights that can serve as a guide for developing and refining straight 3D line detection algorithms.

arxiv情報

著者 Gregory Schroeder,Mohamed Sabry,Cristina Olaverri-Monreal
発行日 2025-05-01 10:55:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | ClearLines – Camera Calibration from Straight Lines はコメントを受け付けていません

CORSTITCH – A free, open source software for stitching and georeferencing underwater coral reef videos

要約

Corstitchは、自動化されたRapidリーフ評価システムの調査を通じて得られたビデオトランセクトから正確なジオリファレンスされたリーフモザイクの作成を自動化するために開発されたオープンソースソフトウェアです。
フーリエベースの画像相関アルゴリズムを使用して、シーケンシャルビデオフレームをステッチし、同期したGNSSタイムスタンプに合わせました。
Google Earthなどの地理情報システムと互換性がある、結果の圧縮キーホールマークアップ言語ファイルは、詳細な空間分析を可能にします。
同じリーフの2つの時間的に異なる調査からのモザイクの比較分析による検証は、ソフトウェアの一貫した信頼性の高いパフォーマンスを実証しました。

要約(オリジナル)

CorStitch is an open-source software developed to automate the creation of accurate georeferenced reef mosaics from video transects obtained through Automated Rapid Reef Assessment System surveys. We utilized a Fourier-based image correlation algorithm to stitch sequential video frames, aligning them with synchronized GNSS timestamps. The resulting compressed Keyhole Markup Language files, compatible with geographic information systems such as Google Earth, enable detailed spatial analysis. Validation through comparative analysis of mosaics from two temporally distinct surveys of the same reef demonstrated the software’s consistent and reliable performance.

arxiv情報

著者 Julian Christopher L. Maya,Johnenn R. Manalang,Maricor N. Soriano
発行日 2025-05-01 11:29:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | CORSTITCH – A free, open source software for stitching and georeferencing underwater coral reef videos はコメントを受け付けていません

JointDiT: Enhancing RGB-Depth Joint Modeling with Diffusion Transformers

要約

RGBと深さのジョイント分布をモデル化する拡散トランスであるジョイントディットを提示します。
最先端の拡散トランスの前に建築上の利点と優れた画像を活用することにより、ジョイントディットは高忠実度の画像を生成するだけでなく、幾何学的にもっともらしい深さの深さマップを生成します。
この固体関節分布モデリングは、私たちが提案する2つのシンプルで効果的な手法、つまり各モダリティのノイズレベルと不均衡なタイムステップサンプリング戦略に依存する適応スケジューリングの重みを通じて達成されます。
これらの手法を使用すると、各モダリティのすべてのノイズレベルでモデルをトレーニングし、ジョイントディットが各ブランチのタイムステップを単純に制御することにより、共同生成、深度推定、深さ条件の画像生成など、さまざまな組み合わせ生成タスクを自然に処理できるようにします。
ジョイントディットは、優れた関節生成のパフォーマンスを示しています。
さらに、深さの推定と深さ条件の画像生成で同等の結果を達成し、ジョイント分布モデリングが条件付き生成の交換可能な代替品として機能することを示唆しています。
プロジェクトページは、https://byungki-k.github.io/jointdit/で入手できます。

要約(オリジナル)

We present JointDiT, a diffusion transformer that models the joint distribution of RGB and depth. By leveraging the architectural benefit and outstanding image prior of the state-of-the-art diffusion transformer, JointDiT not only generates high-fidelity images but also produces geometrically plausible and accurate depth maps. This solid joint distribution modeling is achieved through two simple yet effective techniques that we propose, i.e., adaptive scheduling weights, which depend on the noise levels of each modality, and the unbalanced timestep sampling strategy. With these techniques, we train our model across all noise levels for each modality, enabling JointDiT to naturally handle various combinatorial generation tasks, including joint generation, depth estimation, and depth-conditioned image generation by simply controlling the timestep of each branch. JointDiT demonstrates outstanding joint generation performance. Furthermore, it achieves comparable results in depth estimation and depth-conditioned image generation, suggesting that joint distribution modeling can serve as a replaceable alternative to conditional generation. The project page is available at https://byungki-k.github.io/JointDiT/.

arxiv情報

著者 Kwon Byung-Ki,Qi Dai,Lee Hyoseok,Chong Luo,Tae-Hyun Oh
発行日 2025-05-01 12:21:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | JointDiT: Enhancing RGB-Depth Joint Modeling with Diffusion Transformers はコメントを受け付けていません

KeySync: A Robust Approach for Leakage-free Lip Synchronization in High Resolution

要約

既存のビデオでリップの動きを新しい入力オーディオに合わせるタスクとして知られるリップ同期は、通常、オーディオ駆動型のフェイシャルアニメーションのよりシンプルなバリアントとしてフレーム化されます。
ただし、ヘッドジェネレーションの話(時間的一貫性など)の通常の問題に苦しんでいるだけでなく、リップの同期は、入力ビデオや顔面閉塞からの発現漏れなどの重要な新しい課題を示します。
これらの欠点に対処するために、慎重に設計されたマスキング戦略を使用して漏れや閉塞のソリューションを組み込むと同時に、時間的一貫性の問題を解決することに成功する2段階のフレームワークであるKeysyncを提示します。
Keysyncは、唇の再構築と相互同期で最先端の結果を達成し、視覚の品質を改善し、私たちの新しい漏れメトリックであるLippreakによると発現の漏れを減らすことを示しています。
さらに、咬合を処理する際の新しいマスキングアプローチの有効性を示し、いくつかのアブレーション研究を通じて建築の選択を検証します。
コードとモデルの重みは、https://antonibigata.github.io/keysyncにあります。

要約(オリジナル)

Lip synchronization, known as the task of aligning lip movements in an existing video with new input audio, is typically framed as a simpler variant of audio-driven facial animation. However, as well as suffering from the usual issues in talking head generation (e.g., temporal consistency), lip synchronization presents significant new challenges such as expression leakage from the input video and facial occlusions, which can severely impact real-world applications like automated dubbing, but are often neglected in existing works. To address these shortcomings, we present KeySync, a two-stage framework that succeeds in solving the issue of temporal consistency, while also incorporating solutions for leakage and occlusions using a carefully designed masking strategy. We show that KeySync achieves state-of-the-art results in lip reconstruction and cross-synchronization, improving visual quality and reducing expression leakage according to LipLeak, our novel leakage metric. Furthermore, we demonstrate the effectiveness of our new masking approach in handling occlusions and validate our architectural choices through several ablation studies. Code and model weights can be found at https://antonibigata.github.io/KeySync.

arxiv情報

著者 Antoni Bigata,Rodrigo Mira,Stella Bounareli,Michał Stypułkowski,Konstantinos Vougioukas,Stavros Petridis,Maja Pantic
発行日 2025-05-01 12:56:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | KeySync: A Robust Approach for Leakage-free Lip Synchronization in High Resolution はコメントを受け付けていません

Scene-Conditional 3D Object Stylization and Composition

要約

最近、3D生成モデルは印象的な進歩を遂げ、テキストまたは画像入力からほぼ任意の3Dアセットの生成を可能にしました。
ただし、これらのアプローチは、最終的に配置されるシーンを考慮せずに、単独でオブジェクトを生成します。
この論文では、既存の3Dアセットの様式化が特定の2Dシーンに収まるようにするフレームワークを提案し、さらに資産が環境内に配置されているかのようにフォトリアリスティックな構成を生成します。
これは、オブジェクトスタイリゼーションの新しいレベルの制御を開くだけでなく、たとえば、夏から冬からファンタジー対未来的な設定など、環境の変化を反映するために同じ資産を様式化することができますが、オブジェクトシーンの構成はより制御可能になります。
これは、モデリングを組み合わせて、事前に訓練されたテキストから画像への拡散モデルからの画像プライアーを使用した微分可能な光線を介して、オブジェクトのテクスチャと環境照明を最適化することで実現します。
私たちの方法は、さまざまな屋内および屋外のシーンや任意のオブジェクトに適用できることを実証します。
プロジェクトページ:https://jensenzhoujh.github.io/scene-cond-3d/。

要約(オリジナル)

Recently, 3D generative models have made impressive progress, enabling the generation of almost arbitrary 3D assets from text or image inputs. However, these approaches generate objects in isolation without any consideration for the scene where they will eventually be placed. In this paper, we propose a framework that allows for the stylization of an existing 3D asset to fit into a given 2D scene, and additionally produce a photorealistic composition as if the asset was placed within the environment. This not only opens up a new level of control for object stylization, for example, the same assets can be stylized to reflect changes in the environment, such as summer to winter or fantasy versus futuristic settings-but also makes the object-scene composition more controllable. We achieve this by combining modeling and optimizing the object’s texture and environmental lighting through differentiable ray tracing with image priors from pre-trained text-to-image diffusion models. We demonstrate that our method is applicable to a wide variety of indoor and outdoor scenes and arbitrary objects. Project page: https://jensenzhoujh.github.io/scene-cond-3d/.

arxiv情報

著者 Jinghao Zhou,Tomas Jakab,Philip Torr,Christian Rupprecht
発行日 2025-05-01 12:58:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Scene-Conditional 3D Object Stylization and Composition はコメントを受け付けていません

Seamless Optical Cloud Computing across Edge-Metro Network for Generative AI

要約

近年の生成人工知能(AI)の急速な進歩は、現代のライフスタイルを深く再形成し、計算力に対する需要の高まりをサポートするための革新的なアーキテクチャを必要としています。
クラウドコンピューティングは、この変換の原動力となっています。
ただし、クラウド内の広範なデータセンターとサーバーに依存しているため、大幅なパワーを消費し、計算セキュリティリスクに直面しています。
計算スケールを強化しながら消費電力を削減することは、クラウドコンピューティングにおける持続的な課題のままです。
ここでは、Edge-Metroネットワーク全体にシームレスに展開できる光学クラウドコンピューティングシステムを提案し、実験的に実証します。
入力とモデルを光に変調することにより、広範囲のエッジノードがエッジメトロネットワークを介して光学コンピューティングセンターに直接アクセスできます。
実験的検証は、118.6 MW/TOPS(1秒あたりのTERA操作)のエネルギー効率を示しており、従来の電子ベースのクラウドコンピューティングソリューションと比較してエネルギー消費量を2桁減らします。
さらに、このアーキテクチャは、画像生成タスクを実現するために並列コンピューティングを通じてさまざまな複雑な生成AIモデルを実行できることが実験的に検証されています。

要約(オリジナル)

The rapid advancement of generative artificial intelligence (AI) in recent years has profoundly reshaped modern lifestyles, necessitating a revolutionary architecture to support the growing demands for computational power. Cloud computing has become the driving force behind this transformation. However, it consumes significant power and faces computation security risks due to the reliance on extensive data centers and servers in the cloud. Reducing power consumption while enhancing computational scale remains persistent challenges in cloud computing. Here, we propose and experimentally demonstrate an optical cloud computing system that can be seamlessly deployed across edge-metro network. By modulating inputs and models into light, a wide range of edge nodes can directly access the optical computing center via the edge-metro network. The experimental validations show an energy efficiency of 118.6 mW/TOPs (tera operations per second), reducing energy consumption by two orders of magnitude compared to traditional electronic-based cloud computing solutions. Furthermore, it is experimentally validated that this architecture can perform various complex generative AI models through parallel computing to achieve image generation tasks.

arxiv情報

著者 Sizhe Xing,Aolong Sun,Chengxi Wang,Yizhi Wang,Boyu Dong,Junhui Hu,Xuyu Deng,An Yan,Yingjun Liu,Fangchen Hu,Zhongya Li,Ouhan Huang,Junhao Zhao,Yingjun Zhou,Ziwei Li,Jianyang Shi,Xi Xiao,Richard Penty,Qixiang Cheng,Nan Chi,Junwen Zhang
発行日 2025-05-01 13:00:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.DC, cs.LG, eess.IV, eess.SP | Seamless Optical Cloud Computing across Edge-Metro Network for Generative AI はコメントを受け付けていません

Towards Scalable Human-aligned Benchmark for Text-guided Image Editing

要約

最近、さまざまなテキスト誘導画像編集モデルが提案されています。
ただし、主にタスクの主観的な性質のために、広く受け入れられている標準評価方法はありません。研究者は手動ユーザーの調査に依存させます。
これに対処するために、テキスト誘導画像編集(HATIE)のための新しい人間に合ったベンチマークを紹介します。
幅広い編集タスクをカバーする大規模なベンチマークセットを提供すると、特定の簡単なケースに限定されない信頼できる評価が可能になります。
また、Hatieは完全に自動化された全方向性評価パイプラインを提供します。
特に、編集のさまざまな側面を測定する複数のスコアを組み合わせて、人間の知覚と整合します。
Hatieの評価が実際にさまざまな面で人間に整合していることを経験的に検証し、いくつかの最先端のモデルのベンチマーク結果を提供して、パフォーマンスに関するより深い洞察を提供します。

要約(オリジナル)

A variety of text-guided image editing models have been proposed recently. However, there is no widely-accepted standard evaluation method mainly due to the subjective nature of the task, letting researchers rely on manual user study. To address this, we introduce a novel Human-Aligned benchmark for Text-guided Image Editing (HATIE). Providing a large-scale benchmark set covering a wide range of editing tasks, it allows reliable evaluation, not limited to specific easy-to-evaluate cases. Also, HATIE provides a fully-automated and omnidirectional evaluation pipeline. Particularly, we combine multiple scores measuring various aspects of editing so as to align with human perception. We empirically verify that the evaluation of HATIE is indeed human-aligned in various aspects, and provide benchmark results on several state-of-the-art models to provide deeper insights on their performance.

arxiv情報

著者 Suho Ryu,Kihyun Kim,Eugene Baek,Dongsoo Shin,Joonseok Lee
発行日 2025-05-01 13:06:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Towards Scalable Human-aligned Benchmark for Text-guided Image Editing はコメントを受け付けていません

HeAL3D: Heuristical-enhanced Active Learning for 3D Object Detection

要約

アクティブ学習は、自律運転のトレーニングモデルのためにサンプル選択を実行するための関連するアプローチであることが証明されています。
特に、3Dオブジェクト検出のためのアクティブ学習に関する以前の研究では、制御されていないシナリオでのサンプルの選択が困難であることが示されています。
さらに、現在のアプローチは、サンプル選択問題の理論的側面にのみ焦点を当てていますが、3D検出モデルの広範な文献と適用から得られる実用的な洞察を無視しています。
このホワイトペーパーでは、これらのヒューリスティックな特徴をローカリゼーションと分類と統合して、モデルのトレーニングに最も寄与するサンプルを提供するヒール(3Dオブジェクト検出のためのヒューリスティック強化アクティブ学習)を紹介します。
以前の作品とは対照的に、私たちのアプローチは、オブジェクトの距離やポイント量などのヒューリスティックな特徴を統合して不確実性を推定し、選択したサンプルの有用性を検出モデルを訓練するために強化します。
Kittiに関する私たちの定量的評価は、Healが最先端のマップに関して競争力のあるマップを提示し、サンプルの24%しか持たないフルスーパービズ化ベースラインと同じマップを達成することを示しています。

要約(オリジナル)

Active Learning has proved to be a relevant approach to perform sample selection for training models for Autonomous Driving. Particularly, previous works on active learning for 3D object detection have shown that selection of samples in uncontrolled scenarios is challenging. Furthermore, current approaches focus exclusively on the theoretical aspects of the sample selection problem but neglect the practical insights that can be obtained from the extensive literature and application of 3D detection models. In this paper, we introduce HeAL (Heuristical-enhanced Active Learning for 3D Object Detection) which integrates those heuristical features together with Localization and Classification to deliver the most contributing samples to the model’s training. In contrast to previous works, our approach integrates heuristical features such as object distance and point-quantity to estimate the uncertainty, which enhance the usefulness of selected samples to train detection models. Our quantitative evaluation on KITTI shows that HeAL presents competitive mAP with respect to the State-of-the-Art, and achieves the same mAP as the full-supervised baseline with only 24% of the samples.

arxiv情報

著者 Esteban Rivera,Surya Prabhakaran,Markus Lienkamp
発行日 2025-05-01 13:24:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | HeAL3D: Heuristical-enhanced Active Learning for 3D Object Detection はコメントを受け付けていません