Exploring Scene Affinity for Semi-Supervised LiDAR Semantic Segmentation

要約

このペーパーでは、運転シーンにおける半監視されたLidarセマンティックセグメンテーションのシーンアフィニティ(AISCENE)、すなわち、シーン内の一貫性とシーン間相関について説明します。
教師と学生のトレーニングを採用するAisceneは、教師ネットワークを採用して、非標識データから擬似標識シーンを生成し、生徒ネットワークの学習を監督します。
前方伝播のための擬似標識シーンのすべてのポイントを含むほとんどの方法とは異なり、バックプロパゲーションのための擬似ラベルポイントのみであるAisceneは、擬似ラベルなしでポイントを削除し、シーン内の前方と後方の伝播の両方の一貫性を確保します。
この単純なポイント消去戦略は、監視されていない、意味的に曖昧なポイント(バックプロパゲーションで除外)が擬似標識ポイントの学習に影響を与えることを効果的に防止します。
さらに、AISCENEにはパッチベースのデータ増強が組み込まれており、シーンレベルとインスタンスレベルの両方で複数のシーンを混合しています。
通常、2つのシーン間でシーンレベルの混合を実行する既存の増強技術と比較して、この方法は、ラベル付き(または擬似標識)シーンのセマンティック多様性を高め、それによりセグメンテーションモデルの半監視パフォーマンスを改善します。
実験は、AISCENEが4つの設定にわたって2つの一般的なベンチマークで以前の方法を上回り、最も困難な1%のラベル付きデータで1.9%と2.1%の顕著な改善を達成することを示しています。

要約(オリジナル)

This paper explores scene affinity (AIScene), namely intra-scene consistency and inter-scene correlation, for semi-supervised LiDAR semantic segmentation in driving scenes. Adopting teacher-student training, AIScene employs a teacher network to generate pseudo-labeled scenes from unlabeled data, which then supervise the student network’s learning. Unlike most methods that include all points in pseudo-labeled scenes for forward propagation but only pseudo-labeled points for backpropagation, AIScene removes points without pseudo-labels, ensuring consistency in both forward and backward propagation within the scene. This simple point erasure strategy effectively prevents unsupervised, semantically ambiguous points (excluded in backpropagation) from affecting the learning of pseudo-labeled points. Moreover, AIScene incorporates patch-based data augmentation, mixing multiple scenes at both scene and instance levels. Compared to existing augmentation techniques that typically perform scene-level mixing between two scenes, our method enhances the semantic diversity of labeled (or pseudo-labeled) scenes, thereby improving the semi-supervised performance of segmentation models. Experiments show that AIScene outperforms previous methods on two popular benchmarks across four settings, achieving notable improvements of 1.9% and 2.1% in the most challenging 1% labeled data.

arxiv情報

著者 Chuandong Liu,Xingxing Weng,Shuguo Jiang,Pengcheng Li,Lei Yu,Gui-Song Xia
発行日 2025-04-01 11:31:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Exploring Scene Affinity for Semi-Supervised LiDAR Semantic Segmentation はコメントを受け付けていません

Nonhuman Primate Brain Tissue Segmentation Using a Transfer Learning Approach

要約

非ヒト霊長類(NHP)は、人間との密接な進化的関係により、人間の脳機能と神経障害を理解するための重要なモデルとして機能します。
NHPにおける正確な脳組織のセグメンテーションは、神経障害を理解するために重要ですが、注釈付きNHP脳MRIデータセットの希少性、NHP脳の小さなサイズ、利用可能なイメージングデータの限られた解像度、および人間とNHP脳の解剖学的違いのために挑戦的です。
これらの課題に対処するために、特にトレーニングデータが制限されている場合、NHP脳MRIのセグメンテーション精度を強化するために、ヒト脳MRIデータから転送された知識を活用するために、転送学習を備えたSTU-NETを利用する新しいアプローチを提案します。
STU-NETと転送学習の組み合わせは、複雑な組織の境界を効果的に描写し、NHP脳に固有の細かい解剖学的詳細をキャプチャします。
特に、私たちの方法は、限られた空間分解能と組織コントラストで解決するのに挑戦している被殻や視床などの小さな皮質構造のセグメント化の改善を実証し、0.88を超えるDSC、7未満のHD95を達成しました。
人間の健康に関連する神経障害の前臨床研究。

要約(オリジナル)

Non-human primates (NHPs) serve as critical models for understanding human brain function and neurological disorders due to their close evolutionary relationship with humans. Accurate brain tissue segmentation in NHPs is critical for understanding neurological disorders, but challenging due to the scarcity of annotated NHP brain MRI datasets, the small size of the NHP brain, the limited resolution of available imaging data and the anatomical differences between human and NHP brains. To address these challenges, we propose a novel approach utilizing STU-Net with transfer learning to leverage knowledge transferred from human brain MRI data to enhance segmentation accuracy in the NHP brain MRI, particularly when training data is limited. The combination of STU-Net and transfer learning effectively delineates complex tissue boundaries and captures fine anatomical details specific to NHP brains. Notably, our method demonstrated improvement in segmenting small subcortical structures such as putamen and thalamus that are challenging to resolve with limited spatial resolution and tissue contrast, and achieved DSC of over 0.88, IoU over 0.8 and HD95 under 7. This study introduces a robust method for multi-class brain tissue segmentation in NHPs, potentially accelerating research in evolutionary neuroscience and preclinical studies of neurological disorders relevant to human health.

arxiv情報

著者 Zhen Lin,Hongyu Yuan,Richard Barcus,Qing Lyu,Sucheta Chakravarty,Megan E. Lipford,Carol A. Shively,Suzanne Craft,Mohammad Kawas,Jeongchul Kim,Christopher T. Whitlow
発行日 2025-04-01 11:52:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, eess.IV | Nonhuman Primate Brain Tissue Segmentation Using a Transfer Learning Approach はコメントを受け付けていません

DG-TTA: Out-of-domain Medical Image Segmentation through Augmentation and Descriptor-driven Domain Generalization and Test-Time Adaptation

要約

目的:ドメイン外画像に事前に訓練された医療ディープラーニングセグメンテーションモデルを適用すると、品質が不十分な予測が得られることがよくあります。
この研究では、強力な一般化記述子を使用して増強とともに使用して、ドメイン系統のトレーニング前およびテスト時間適応を可能にし、目に見えないドメインで高品質のセグメンテーションを達成することを提案します。
材料と方法:このレトロスペクティブ研究では、3D CTおよびMRI画像を含む5つの異なる公開データセット(2012〜2022)を使用して、ドメイン外シナリオのセグメンテーションパフォーマンスを評価します。
設定には、腹部、脊椎、心臓イメージングが含まれます。
データは、トレーニングおよびテストサンプルにランダムに分割されます。
ソースデータ上のドメインジェネラル化前トレーニングは、ターゲットドメインで最高の初期パフォーマンスを取得するために使用されます。
最適な一般化のために、一般化SSC記述子とジン強度増強の組み合わせを紹介します。
その後、テスト時にセグメンテーションの結果が最適化され、目に見えないスキャンごとに事前に訓練されたモデルを、同じ増強監督装置の組み合わせを使用して一貫性スキームで適応させることを提案します。
セグメンテーションは、サイコロの類似性とHausdorff距離を使用して評価され、Wilcoxon署名ランクテストで改善の重要性がテストされます。
結果:提案された一般化されたトレーニング前およびその後のテスト時間適応により、CTから腹部のMRIクロスドメイン予測(+46.2%および+28.2%DICE)、脊椎(+72.9%)、および心臓(+14.2%および+55.7%DICE)のシナリオ(P <0.001)のモデルパフォーマンスが大幅に向上します。 結論:私たちの方法により、コンパクトで効率的な方法論で、医療イメージソースとターゲットデータとブリッジドメインのギャップを最適で独立した使用法を可能にします。 オープンソースコードは、https://github.com/multimodallearning/dg-ttaで入手可能です

要約(オリジナル)

Purpose: Applying pre-trained medical deep learning segmentation models on out-of-domain images often yields predictions of insufficient quality. In this study, we propose to use a powerful generalizing descriptor along with augmentation to enable domain-generalized pre-training and test-time adaptation, achieving high-quality segmentation in unseen domains. Materials and Methods: In this retrospective study five different publicly available datasets (2012 to 2022) including 3D CT and MRI images are used to evaluate segmentation performance in out-of-domain scenarios. The settings include abdominal, spine, and cardiac imaging. The data is randomly split into training and test samples. Domain-generalized pre-training on source data is used to obtain the best initial performance in the target domain. We introduce the combination of the generalizing SSC descriptor and GIN intensity augmentation for optimal generalization. Segmentation results are subsequently optimized at test time, where we propose to adapt the pre-trained models for every unseen scan with a consistency scheme using the same augmentation-descriptor combination. The segmentation is evaluated using Dice similarity and Hausdorff distance and the significance of improvements is tested with the Wilcoxon signed-rank test. Results: The proposed generalized pre-training and subsequent test-time adaptation improves model performance significantly in CT to MRI cross-domain prediction for abdominal (+46.2% and +28.2% Dice), spine (+72.9%), and cardiac (+14.2% and +55.7% Dice) scenarios (p<0.001). Conclusion: Our method enables optimal, independent usage of medical image source and target data and bridges domain gaps successfully with a compact and efficient methodology. Open-source code available at: https://github.com/multimodallearning/DG-TTA

arxiv情報

著者 Christian Weihsbach,Christian N. Kruse,Alexander Bigalke,Mattias P. Heinrich
発行日 2025-04-01 11:54:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: (Primary), 68T07, cs.CV, cs.LG, I.2.6 | DG-TTA: Out-of-domain Medical Image Segmentation through Augmentation and Descriptor-driven Domain Generalization and Test-Time Adaptation はコメントを受け付けていません

SVInvNet: A Densely Connected Encoder-Decoder Architecture for Seismic Velocity Inversion

要約

この研究では、さまざまなサイズのノイズの多いトレーニングデータセットの両方に焦点を当てた、地震速度反転問題に対する深い学習ベースのアプローチを提示します。
地震速度反転ネットワーク(SVINVNET)は、密なブロックで強化されたマルチ接続エンコーダーデコーダー構造を含む新しいアーキテクチャを導入します。
この設計は、時系列データを効果的に処理するように特別に調整されています。これは、非線形地震速度の反転の課題に対処するために不可欠です。
トレーニングとテストのために、多層、誤った、塩ドームのカテゴリを含む多様な地震速度モデルを作成しました。
また、一貫性と確率的の両方のさまざまな種類の周囲ノイズと、トレーニングデータセットのサイズが学習成果にどのように影響するかを調査しました。
SVINVNETは、750〜6,000のサンプルの範囲のデータセットでトレーニングされており、12,000サンプルの大きなベンチマークデータセットを使用してテストされています。
ベースラインモデルと比較してパラメーターが少ないにもかかわらず、Svinvnetはこのデータセットで優れたパフォーマンスを達成します。
SVINVNETのパフォーマンスは、OpenFWIデータセットとMarmousi由来の速度モデルを使用してさらに評価されました。
比較分析は、提案されたモデルの有効性を明確に明らかにしています。

要約(オリジナル)

This study presents a deep learning-based approach to seismic velocity inversion problem, focusing on both noisy and noiseless training datasets of varying sizes. Our Seismic Velocity Inversion Network (SVInvNet) introduces a novel architecture that contains a multi-connection encoder-decoder structure enhanced with dense blocks. This design is specifically tuned to effectively process time series data, which is essential for addressing the challenges of non-linear seismic velocity inversion. For training and testing, we created diverse seismic velocity models, including multi-layered, faulty, and salt dome categories. We also investigated how different kinds of ambient noise, both coherent and stochastic, and the size of the training dataset affect learning outcomes. SVInvNet is trained on datasets ranging from 750 to 6,000 samples and is tested using a large benchmark dataset of 12,000 samples. Despite its fewer parameters compared to the baseline model, SVInvNet achieves superior performance with this dataset. The performance of SVInvNet was further evaluated using the OpenFWI dataset and Marmousi-derived velocity models. The comparative analysis clearly reveals the effectiveness of the proposed model.

arxiv情報

著者 Mojtaba Najafi Khatounabad,Hacer Yalim Keles,Selma Kadioglu
発行日 2025-04-01 12:44:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, physics.geo-ph | SVInvNet: A Densely Connected Encoder-Decoder Architecture for Seismic Velocity Inversion はコメントを受け付けていません

ConsistencyDet: A Few-step Denoising Framework for Object Detection Using the Consistency Model

要約

知覚コンピューティングの領域における典型的なタスクであるオブジェクト検出は、生成方法を使用して取り組むことができます。
本研究では、注釈付きエンティティの摂動境界ボックスで動作する除去拡散プロセスとしてオブジェクト検出を明確にするように設計された新しいフレームワークを紹介します。
このフレームワークは、\ textbf {conseconcydet}と呼ばれ、一貫性モデルとして知られる革新的な除去概念を活用します。
このモデルの特徴は、その自己整合性機能であり、モデルが歪んだ情報をいつでもその手付かずの状態にマッピングできるようにし、それによって\ textBf {“ sometpep noising ”}メカニズムを実現します。
このような属性は、モデルの運用効率を著しく高め、従来の拡散モデルとは一線を画します。
トレーニングフェーズ全体を通して、ConseconcyDetは、除去タスクを実行するためのモデルの根拠のある注釈と条件から派生したノイズ注入ボックスを使用して、拡散シーケンスを開始します。
その後、推論段階で、モデルは、正規分布からランダムにサンプリングされた境界ボックスから始まる除去サンプリング戦略を採用しています。
反復的な改良により、モデルは任意に生成されたボックスの品揃えを決定的な検出に変換します。
MS-COCOやLVISなどの標準的なベンチマークを採用する包括的な評価は、一貫性がパフォーマンスメトリックの他の先端検出器を上回ることを裏付けています。
私たちのコードは、https://anonymous.4open.science/r/consistencydet-37d5で入手できます。

要約(オリジナル)

Object detection, a quintessential task in the realm of perceptual computing, can be tackled using a generative methodology. In the present study, we introduce a novel framework designed to articulate object detection as a denoising diffusion process, which operates on the perturbed bounding boxes of annotated entities. This framework, termed \textbf{ConsistencyDet}, leverages an innovative denoising concept known as the Consistency Model. The hallmark of this model is its self-consistency feature, which empowers the model to map distorted information from any time step back to its pristine state, thereby realizing a \textbf{“few-step denoising”} mechanism. Such an attribute markedly elevates the operational efficiency of the model, setting it apart from the conventional Diffusion Model. Throughout the training phase, ConsistencyDet initiates the diffusion sequence with noise-infused boxes derived from the ground-truth annotations and conditions the model to perform the denoising task. Subsequently, in the inference stage, the model employs a denoising sampling strategy that commences with bounding boxes randomly sampled from a normal distribution. Through iterative refinement, the model transforms an assortment of arbitrarily generated boxes into definitive detections. Comprehensive evaluations employing standard benchmarks, such as MS-COCO and LVIS, corroborate that ConsistencyDet surpasses other leading-edge detectors in performance metrics. Our code is available at https://anonymous.4open.science/r/ConsistencyDet-37D5.

arxiv情報

著者 Lifan Jiang,Zhihui Wang,Changmiao Wang,Ming Li,Jiaxu Leng,Xindong Wu
発行日 2025-04-01 12:46:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | ConsistencyDet: A Few-step Denoising Framework for Object Detection Using the Consistency Model はコメントを受け付けていません

Efficient Semantic Segmentation via Lightweight Multiple-Information Interaction Network

要約

最近、畳み込みニューラルネットワーク(CNNS)のローカルモデリング機能を変圧器のグローバル依存強度と統合することで、セマンティックセグメンテーションコミュニティに感覚が生まれました。
ただし、相当な計算ワークロードと高いハードウェアメモリの需要は、リアルタイムシナリオでのさらなるアプリケーションに対する大きな障害のままです。
この作業では、リアルタイムのセマンティックセグメンテーションのための軽量の複数情報相互作用ネットワーク(LMIINET)を提案します。これは、CNNとトランスを効果的に組み合わせながら、冗長な計算とメモリフットプリントを削減します。
これは、コンテキストの統合を強化する効率的な畳み込みを含む、軽量の特徴相互作用ボトルネック(LFIB)モジュールを備えています。
さらに、詳細なセマンティック情報をキャプチャするためにローカルおよびグローバルな特徴の相互作用を強化することにより、フラットントランスが改善されます。
LFIBブロックとトランスブロックの両方に組み合わせ係数学習スキームを組み込むと、改善された特徴相互作用が容易になります。
広範な実験は、Lmiinetが精度と効率のバランスをとることに優れていることを示しています。
0.72mパラメーターと11.74gのフロップ(1秒あたりの浮動小数点操作)のみで、Lmiinetは、都市節のテストセットで100 fps(1秒あたりのフレーム)で72.0 \%miouを達成し、単一のrtx2080ti gpuを使用した160 fpsで160 fpsで160 fpsで100 fps(組合の平均交差点)を達成します。

要約(オリジナル)

Recently, integrating the local modeling capabilities of Convolutional Neural Networks (CNNs) with the global dependency strengths of Transformers has created a sensation in the semantic segmentation community. However, substantial computational workloads and high hardware memory demands remain major obstacles to their further application in real-time scenarios. In this work, we propose a Lightweight Multiple-Information Interaction Network (LMIINet) for real-time semantic segmentation, which effectively combines CNNs and Transformers while reducing redundant computations and memory footprints. It features Lightweight Feature Interaction Bottleneck (LFIB) modules comprising efficient convolutions that enhance context integration. Additionally, improvements are made to the Flatten Transformer by enhancing local and global feature interaction to capture detailed semantic information. Incorporating a combination coefficient learning scheme in both LFIB and Transformer blocks facilitates improved feature interaction. Extensive experiments demonstrate that LMIINet excels in balancing accuracy and efficiency. With only 0.72M parameters and 11.74G FLOPs (Floating Point Operations Per Second), LMIINet achieves 72.0\% mIoU at 100 FPS (Frames Per Second) on the Cityscapes test set and 69.94\% mIoU (mean Intersection over Union) at 160 FPS on the CamVid test dataset using a single RTX2080Ti GPU.

arxiv情報

著者 Yangyang Qiu,Guoan Xu,Guangwei Gao,Zhenhua Guo,Yi Yu,Chia-Wen Lin
発行日 2025-04-01 13:14:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Efficient Semantic Segmentation via Lightweight Multiple-Information Interaction Network はコメントを受け付けていません

MSCMNet: Multi-scale Semantic Correlation Mining for Visible-Infrared Person Re-Identification

要約

可視性のある人の再識別(VI-REID)タスクの主な課題は、一致する目的で異なるモダリティから識別機能を抽出する方法にあります。
既存の井戸は主にモーダルの矛盾を最小限に抑えることに焦点を当てていますが、モダリティ情報を完全に活用することはできません。
この問題を解決するために、マルチスケールのセマンティック相関マイニングネットワーク(MSCMNET)が、複数のスケールでセマンティック機能を包括的に活用し、同時に機能抽出で可能な限り少量のモダリティ情報の損失を減らすために提案されています。
提案されているネットワークには、3つの新しいコンポーネントが含まれています。
第一に、モダリティ情報の効果的な利用を考慮した後、マルチスケール情報相関マイニングブロック(MIMB)は、複数のスケールにわたるセマンティック相関を調査するように設計されています。
第二に、MIMBが利用できるセマンティック情報を豊かにするために、非共有パラメーターを使用した四重層 – ストリーム特徴抽出器(QFE)は、データセットのさまざまな寸法から情報を抽出するように特別に設計されています。
最後に、包括的な機能における情報の矛盾に対処するために、四重層センタートリプレット損失(QCT)がさらに提案されています。
SYSU-MM01、REGDB、およびLLCMデータセットに関する広範な実験は、提案されたMSCMNETが最大の精度を達成することを示しています。

要約(オリジナル)

The main challenge in the Visible-Infrared Person Re-Identification (VI-ReID) task lies in how to extract discriminative features from different modalities for matching purposes. While the existing well works primarily focus on minimizing the modal discrepancies, the modality information can not thoroughly be leveraged. To solve this problem, a Multi-scale Semantic Correlation Mining network (MSCMNet) is proposed to comprehensively exploit semantic features at multiple scales and simultaneously reduce modality information loss as small as possible in feature extraction. The proposed network contains three novel components. Firstly, after taking into account the effective utilization of modality information, the Multi-scale Information Correlation Mining Block (MIMB) is designed to explore semantic correlations across multiple scales. Secondly, in order to enrich the semantic information that MIMB can utilize, a quadruple-stream feature extractor (QFE) with non-shared parameters is specifically designed to extract information from different dimensions of the dataset. Finally, the Quadruple Center Triplet Loss (QCT) is further proposed to address the information discrepancy in the comprehensive features. Extensive experiments on the SYSU-MM01, RegDB, and LLCM datasets demonstrate that the proposed MSCMNet achieves the greatest accuracy.

arxiv情報

著者 Xuecheng Hua,Ke Cheng,Hu Lu,Juanjuan Tu,Yuanquan Wang,Shitong Wang
発行日 2025-04-01 13:34:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | MSCMNet: Multi-scale Semantic Correlation Mining for Visible-Infrared Person Re-Identification はコメントを受け付けていません

Att-Adapter: A Robust and Precise Domain-Specific Multi-Attributes T2I Diffusion Adapter via Conditional Variational Autoencoder

要約

テキストからイメージ(T2I)拡散モデルは、高品質の画像を生成する際に顕著なパフォーマンスを達成しました。
ただし、テキストのみのガイダンスを備えた新しいドメイン(例えば、目の開口性や車の幅などの数値)で、連続属性、特に複数の属性を同時に同時に正確に制御できるようにすることは、依然として重要な課題です。
これに対処するために、属性(ATT)アダプターを導入します。これは、前処理された拡散モデルで微調整されたマルチアトリビュート制御を可能にするように設計された新しいプラグアンドプレイモジュールです。
私たちのアプローチでは、サンプル画像のセットから単一のコントロールアダプターを学習します。サンプル画像は、対応できず、複数の視覚属性を含むことができます。
att-adapterは、分離されたクロス注意モジュールを活用して、複数のドメイン属性をテキスト条件付けで自然に調和させます。
さらに、視覚世界の多様な性質に合わせて、過剰適合を緩和するために、条件付き変分変異オートエンコーダー(CVAE)をATT-ADAPTERに導入します。
2つのパブリックデータセットの評価は、ATTアダプターが連続属性を制御する際にすべてのLORAベースのベースラインよりも優れていることを示しています。
さらに、この方法は、より広い制御範囲を有効にし、複数の属性にわたって解体を改善し、スタイルガンベースのテクニックを上回ります。
特に、att-adapterは柔軟であり、トレーニングにペアの合成データを必要とせず、単一のモデル内の複数の属性に対して簡単にスケーラブルです。

要約(オリジナル)

Text-to-Image (T2I) Diffusion Models have achieved remarkable performance in generating high quality images. However, enabling precise control of continuous attributes, especially multiple attributes simultaneously, in a new domain (e.g., numeric values like eye openness or car width) with text-only guidance remains a significant challenge. To address this, we introduce the Attribute (Att) Adapter, a novel plug-and-play module designed to enable fine-grained, multi-attributes control in pretrained diffusion models. Our approach learns a single control adapter from a set of sample images that can be unpaired and contain multiple visual attributes. The Att-Adapter leverages the decoupled cross attention module to naturally harmonize the multiple domain attributes with text conditioning. We further introduce Conditional Variational Autoencoder (CVAE) to the Att-Adapter to mitigate overfitting, matching the diverse nature of the visual world. Evaluations on two public datasets show that Att-Adapter outperforms all LoRA-based baselines in controlling continuous attributes. Additionally, our method enables a broader control range and also improves disentanglement across multiple attributes, surpassing StyleGAN-based techniques. Notably, Att-Adapter is flexible, requiring no paired synthetic data for training, and is easily scalable to multiple attributes within a single model.

arxiv情報

著者 Wonwoong Cho,Yan-Ying Chen,Matthew Klenk,David I. Inouye,Yanxia Zhang
発行日 2025-04-01 13:42:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Att-Adapter: A Robust and Precise Domain-Specific Multi-Attributes T2I Diffusion Adapter via Conditional Variational Autoencoder はコメントを受け付けていません

Enhanced Controllability of Diffusion Models via Feature Disentanglement and Realism-Enhanced Sampling Methods

要約

拡散モデルが有望なパフォーマンスを示しているため、拡散モデルの制御可能性を改善するために多くの努力が払われています。
ただし、拡散した潜在スペースを持つように拡散モデルを訓練する方法と、サンプリングプロセス中に解き放たれた条件を自然に組み込む方法は露出していません。
この論文では、拡散モデル(FDIFF)の特徴の解体のためのトレーニングフレームワークを紹介します。
さらに、拡散モデルのリアリズムを高め、制御可能性を高めることができる2つのサンプリング方法を提案します。
簡潔に言えば、2つの潜在的な特徴、空間コンテンツマスク、および平らなスタイルの埋め込みを条件付けした拡散モデルをトレーニングします。
拡散モデルの除去プロセスの帰納的バイアスに依存して、コンテンツ機能のポーズ/レイアウト情報とスタイル機能のセマンティック/スタイル情報をエンコードします。
サンプリング方法に関しては、条件付きの独立性の仮定を破壊して条件付き入力間の何らかの依存性を可能にすることにより、まずコンポーズタブル拡散モデル(GCDM)を一般化します。
第二に、パフォーマンスをさらに向上させるために、コンテンツとスタイル機能のタイムステップ依存の重量スケジューリングを提案します。
また、画像操作と画像翻訳の既存の方法と比較して、提案された方法のより良い制御性を観察します。

要約(オリジナル)

As Diffusion Models have shown promising performance, a lot of efforts have been made to improve the controllability of Diffusion Models. However, how to train Diffusion Models to have the disentangled latent spaces and how to naturally incorporate the disentangled conditions during the sampling process have been underexplored. In this paper, we present a training framework for feature disentanglement of Diffusion Models (FDiff). We further propose two sampling methods that can boost the realism of our Diffusion Models and also enhance the controllability. Concisely, we train Diffusion Models conditioned on two latent features, a spatial content mask, and a flattened style embedding. We rely on the inductive bias of the denoising process of Diffusion Models to encode pose/layout information in the content feature and semantic/style information in the style feature. Regarding the sampling methods, we first generalize Composable Diffusion Models (GCDM) by breaking the conditional independence assumption to allow for some dependence between conditional inputs, which is shown to be effective in realistic generation in our experiments. Second, we propose timestep-dependent weight scheduling for content and style features to further improve the performance. We also observe better controllability of our proposed methods compared to existing methods in image manipulation and image translation.

arxiv情報

著者 Wonwoong Cho,Hareesh Ravi,Midhun Harikumar,Vinh Khuc,Krishna Kumar Singh,Jingwan Lu,David I. Inouye,Ajinkya Kale
発行日 2025-04-01 13:50:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.GR | Enhanced Controllability of Diffusion Models via Feature Disentanglement and Realism-Enhanced Sampling Methods はコメントを受け付けていません

RePoseD: Efficient Relative Pose Estimation With Known Depth Information

要約

単眼深度推定方法(MDE)の最近の進歩とその改善された精度は、アプリケーションの新しい可能性を開きます。
この論文では、相対的なポーズ推定に単眼深度推定値をどのように使用できるかを調査します。
特に、MDEを使用すると、従来のポイントベースの方法よりも結果が改善されるかどうかという質問に答えることに興味があります。
関連する単眼の深さを持つ点対応から2つのカメラの相対的なポーズを推定するための新しいフレームワークを提案します。
深さ予測は通常、未知のスケールまたは未知のスケールとシフトの両方のパラメーターの両方に定義されるため、ソルバーは相対ポーズとともにスケールまたはスケールパラメーターとシフトパラメーターの両方を共同で推定します。
3つのカメラ構成のさまざまな種類の深さを考慮して効率的なソルバーを導き出します。(1)2つのキャリブレーションカメラ、(2)共有焦点距離が不明な2つのカメラ、および(3)未知の焦点距離を持つ2つのカメラ。
私たちの新しいソルバーは、速度と精度の点で、最先端の深さを意識したソルバーよりも優れています。
複数のデータセットとさまざまなMDEでの広範な実験では、どの状況でどの深度認識ソルバーが望ましいかについて説明します。
コードは公開されます。

要約(オリジナル)

Recent advances in monocular depth estimation methods (MDE) and their improved accuracy open new possibilities for their applications. In this paper, we investigate how monocular depth estimates can be used for relative pose estimation. In particular, we are interested in answering the question whether using MDEs improves results over traditional point-based methods. We propose a novel framework for estimating the relative pose of two cameras from point correspondences with associated monocular depths. Since depth predictions are typically defined up to an unknown scale or even both unknown scale and shift parameters, our solvers jointly estimate the scale or both the scale and shift parameters along with the relative pose. We derive efficient solvers considering different types of depths for three camera configurations: (1) two calibrated cameras, (2) two cameras with an unknown shared focal length, and (3) two cameras with unknown different focal lengths. Our new solvers outperform state-of-the-art depth-aware solvers in terms of speed and accuracy. In extensive real experiments on multiple datasets and with various MDEs, we discuss which depth-aware solvers are preferable in which situation. The code will be made publicly available.

arxiv情報

著者 Yaqing Ding,Viktor Kocur,Václav Vávra,Jian Yang,Torsten Sattler,Zuzana Kukelova
発行日 2025-04-01 14:02:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | RePoseD: Efficient Relative Pose Estimation With Known Depth Information はコメントを受け付けていません