LP-DETR: Layer-wise Progressive Relations for Object Detection

要約

このホワイトペーパーでは、マルチスケールリレーションモデリングを通じてDETRベースのオブジェクト検出を強化する新しいアプローチであるLP-DERT(レイヤーごとのプログレッシブDETR)を紹介します。
私たちの方法は、デコーダー層全体でさまざまな関係(ローカル、メディア、グローバル)のバランスをとることを適応的に学習する、関係認識の自己触媒メカニズムを通じて、オブジェクトクエリ間の学習可能な空間的関係を導入します。
このプログレッシブ設計により、モデルは検出パイプライン全体で進化する空間依存関係を効果的にキャプチャできます。
COCO 2017データセットの広範な実験は、標準の自己触媒モジュールと比較して、この方法が収束速度と検出精度の両方を改善することを示しています。
提案された方法は競争結果を達成し、ResNet-50バックボーンを使用して12エポックと24エポックで52.3%APと52.5 \%APで52.3%APに達し、さらにSWIN-Lバックボーンで58.0 \%APに改善します。
さらに、私たちの分析は興味深いパターンを明らかにしています。モデルは自然に初期デコーダー層のローカル空間関係に優先順位を付けることを学びながら、より深い層のより広いコンテキストに徐々に注意をシフトし、オブジェクト検出の将来の研究のための貴重な洞察を提供します。

要約(オリジナル)

This paper presents LP-DETR (Layer-wise Progressive DETR), a novel approach that enhances DETR-based object detection through multi-scale relation modeling. Our method introduces learnable spatial relationships between object queries through a relation-aware self-attention mechanism, which adaptively learns to balance different scales of relations (local, medium and global) across decoder layers. This progressive design enables the model to effectively capture evolving spatial dependencies throughout the detection pipeline. Extensive experiments on COCO 2017 dataset demonstrate that our method improves both convergence speed and detection accuracy compared to standard self-attention module. The proposed method achieves competitive results, reaching 52.3\% AP with 12 epochs and 52.5\% AP with 24 epochs using ResNet-50 backbone, and further improving to 58.0\% AP with Swin-L backbone. Furthermore, our analysis reveals an interesting pattern: the model naturally learns to prioritize local spatial relations in early decoder layers while gradually shifting attention to broader contexts in deeper layers, providing valuable insights for future research in object detection.

arxiv情報

著者 Zhengjian Kang,Ye Zhang,Xiaoyu Deng,Xintao Li,Yongzhe Zhang
発行日 2025-02-11 15:25:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | LP-DETR: Layer-wise Progressive Relations for Object Detection はコメントを受け付けていません

FlexiCrackNet: A Flexible Pipeline for Enhanced Crack Segmentation with General Features Transfered from SAM

要約

自動亀裂セグメンテーションは、交通安全維持と構造の完全性システムにおけるインテリジェントな視覚認識モジュールのための基礎技術です。
既存の深い学習モデルと「トレーニング前 +微調整」パラダイムは、リソースに制約のある環境での限られた適応性の課題と、多様なデータドメイン全体での不十分なスケーラビリティに直面することがよくあります。
これらの制限を克服するために、従来の深い学習パラダイムを大規模な事前訓練モデルの強さをシームレスに統合する新しいパイプラインであるFlexicRackNetを提案します。
そのコアでは、FlexicRackNetはエンコーダデコーダーアーキテクチャを採用して、タスク固有の機能を抽出します。
軽量のEdgesamのCNNベースのエンコーダーは、EdgesAMの固定入力サイズ要件から分離された一般的な特徴抽出器としてのみ使用されます。
一般的およびドメイン固有の機能を調和させるために、情報相互作用ゲート注意メカニズム(IGAM)を導入します。これは、マルチレベルの特徴を適応的に融合してセグメンテーションパフォーマンスを強化し、無関係なノイズを軽減します。
この設計により、一般的な知識の効率的な転送がセグメンテーションタスクをクラックしながら、多様な入力解像度とリソース制約の環境への適応性を確保できます。
実験は、FlexicRackNetが最先端の方法を上回り、ぼやけた入力、複雑な背景、視覚的に曖昧なアーティファクトなどの挑戦的なシナリオの下で、ゼロショットの一般化、計算効率、およびセグメンテーションの堅牢性に優れていることを示しています。
これらの進歩は、自動亀裂検出および包括的な構造的健康監視システムにおける実際のアプリケーションのFlexicRackNetの可能性を強調しています。

要約(オリジナル)

Automatic crack segmentation is a cornerstone technology for intelligent visual perception modules in road safety maintenance and structural integrity systems. Existing deep learning models and “pre-training + fine-tuning” paradigms often face challenges of limited adaptability in resource-constrained environments and inadequate scalability across diverse data domains. To overcome these limitations, we propose FlexiCrackNet, a novel pipeline that seamlessly integrates traditional deep learning paradigms with the strengths of large-scale pre-trained models. At its core, FlexiCrackNet employs an encoder-decoder architecture to extract task-specific features. The lightweight EdgeSAM’s CNN-based encoder is exclusively used as a generic feature extractor, decoupled from the fixed input size requirements of EdgeSAM. To harmonize general and domain-specific features, we introduce the information-Interaction gated attention mechanism (IGAM), which adaptively fuses multi-level features to enhance segmentation performance while mitigating irrelevant noise. This design enables the efficient transfer of general knowledge to crack segmentation tasks while ensuring adaptability to diverse input resolutions and resource-constrained environments. Experiments show that FlexiCrackNet outperforms state-of-the-art methods, excels in zero-shot generalization, computational efficiency, and segmentation robustness under challenging scenarios such as blurry inputs, complex backgrounds, and visually ambiguous artifacts. These advancements underscore the potential of FlexiCrackNet for real-world applications in automated crack detection and comprehensive structural health monitoring systems.

arxiv情報

著者 Xinlong Wan,Xiaoyan Jiang,Guangsheng Luo,Ferdous Sohel,Jenqneng Hwang
発行日 2025-02-11 15:27:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | FlexiCrackNet: A Flexible Pipeline for Enhanced Crack Segmentation with General Features Transfered from SAM はコメントを受け付けていません

CILP-FGDI: Exploiting Vision-Language Model for Generalizable Person Re-Identification

要約

堅牢なクロスモーダル機能で知られる視覚言語モデルは、さまざまなコンピュータービジョンタスクに広く適用されています。
この論文では、大規模な画像テキストペアで前提とされた視覚的およびテキストの特徴を調整するために、大規模な画像テキストペアに前提とした視覚言語モデルであるクリップ(コントラスト言語イメージの前oraining)の使用を探ります。
一般化可能な人の再識別。
タスクへのクリップの適応は、2つの主要な課題を提示します。差別的能力を​​高めるためのより微細な機能を学習し、モデルの一般化機能を改善するためのよりドメイン不変の機能を学習することです。
最初の課題を緩和するために、微調整された機能を学習する能力を高めるために、テキストの説明の精度を高めるために3段階の戦略が提案されています。
当初、画像エンコーダーは、人の再識別タスクに効果的に適応するようにトレーニングされています。
第2段階では、画像エンコーダーによって抽出された機能を使用して、各画像のテキストの説明(つまり、プロンプト)を生成します。
最後に、学習されたプロンプトを備えたテキストエンコーダーが使用され、最終画像エンコーダーのトレーニングをガイドします。
モデルの一般化機能を目に見えないドメインに強化するために、ドメインに不変の画像機能を学習するために、双方向ガイド方法が導入されています。
具体的には、ドメインインヴァリアントおよびドメイン関連プロンプトが生成され、正の(画像機能とドメイン不変プロンプトをまとめる)とネガティブ(画像機能とドメイン関連プロンプトの引き離し)ビューの両方が画像エンコーダーのトレーニングに使用されます。
まとめて、これらの戦略は、微粒子の一般化された機能を直接再識別するための革新的なクリップベースのフレームワークの開発に貢献しています。

要約(オリジナル)

The Visual Language Model, known for its robust cross-modal capabilities, has been extensively applied in various computer vision tasks. In this paper, we explore the use of CLIP (Contrastive Language-Image Pretraining), a vision-language model pretrained on large-scale image-text pairs to align visual and textual features, for acquiring fine-grained and domain-invariant representations in generalizable person re-identification. The adaptation of CLIP to the task presents two primary challenges: learning more fine-grained features to enhance discriminative ability, and learning more domain-invariant features to improve the model’s generalization capabilities. To mitigate the first challenge thereby enhance the ability to learn fine-grained features, a three-stage strategy is proposed to boost the accuracy of text descriptions. Initially, the image encoder is trained to effectively adapt to person re-identification tasks. In the second stage, the features extracted by the image encoder are used to generate textual descriptions (i.e., prompts) for each image. Finally, the text encoder with the learned prompts is employed to guide the training of the final image encoder. To enhance the model’s generalization capabilities to unseen domains, a bidirectional guiding method is introduced to learn domain-invariant image features. Specifically, domain-invariant and domain-relevant prompts are generated, and both positive (pulling together image features and domain-invariant prompts) and negative (pushing apart image features and domain-relevant prompts) views are used to train the image encoder. Collectively, these strategies contribute to the development of an innovative CLIP-based framework for learning fine-grained generalized features in person re-identification.

arxiv情報

著者 Huazhong Zhao,Lei Qi,Xin Geng
発行日 2025-02-11 15:37:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | CILP-FGDI: Exploiting Vision-Language Model for Generalizable Person Re-Identification はコメントを受け付けていません

TransRef: Multi-Scale Reference Embedding Transformer for Reference-Guided Image Inpainting

要約

複雑なセマンティック環境と破損した画像の多様な穴パターンを完了するための入力の画像は、大規模なデータでトレーニングされた最先端の学習ベースの入力方法であっても挑戦的です。
破損した画像の同じシーンをキャプチャする参照画像は、破損した画像の穴と同様のテクスチャと構造の事前を共有するため、破損した画像を完成させるための有益なガイダンスを提供します。
この作業では、参照ガイド付き画像の開始用にトランスベースのエンコーダデコーダーネットワーク、TransRefという名前のネットワークを提案します。
具体的には、ガイダンスは参照埋め込み手順を通じて徐々に行われます。この手順では、その後、参照機能が破損した画像の機能と融合し、融合します。
ガイダンスのための参照機能を正確に利用するために、参照パッチアラインメント(REF-PA)モジュールが提案され、参照画像と破損した画像のパッチ機能を整列させ、スタイルの違いを調和させ、参照パッチトランス(REF-PT)
)埋め込まれた参照機能を改良するモジュールが提案されています。
さらに、参照ガイド付き画像修復タスクの研究を容易にするために、50Kペアの入力画像と参照画像を含む公開可能なベンチマークデータセットを構築します。
定量的評価と定性的評価の両方が、複雑な穴を完成させる際の最先端の方法に対する参照情報の有効性と提案された方法を示しています。
コードとデータセットはhttps://github.com/cameltr/transrefでアクセスできます。

要約(オリジナル)

Image inpainting for completing complicated semantic environments and diverse hole patterns of corrupted images is challenging even for state-of-the-art learning-based inpainting methods trained on large-scale data. A reference image capturing the same scene of a corrupted image offers informative guidance for completing the corrupted image as it shares similar texture and structure priors to that of the holes of the corrupted image. In this work, we propose a transformer-based encoder-decoder network, named TransRef, for reference-guided image inpainting. Specifically, the guidance is conducted progressively through a reference embedding procedure, in which the referencing features are subsequently aligned and fused with the features of the corrupted image. For precise utilization of the reference features for guidance, a reference-patch alignment (Ref-PA) module is proposed to align the patch features of the reference and corrupted images and harmonize their style differences, while a reference-patch transformer (Ref-PT) module is proposed to refine the embedded reference feature. Moreover, to facilitate the research of reference-guided image restoration tasks, we construct a publicly accessible benchmark dataset containing 50K pairs of input and reference images. Both quantitative and qualitative evaluations demonstrate the efficacy of the reference information and the proposed method over the state-of-the-art methods in completing complex holes. Code and dataset can be accessed at https://github.com/Cameltr/TransRef.

arxiv情報

著者 Taorong Liu,Liang Liao,Delin Chen,Jing Xiao,Zheng Wang,Chia-Wen Lin,Shin’ichi Satoh
発行日 2025-02-11 15:55:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | TransRef: Multi-Scale Reference Embedding Transformer for Reference-Guided Image Inpainting はコメントを受け付けていません

mWhisper-Flamingo for Multilingual Audio-Visual Noise-Robust Speech Recognition

要約

Audio-Visuual Speech Speech Septureation(AVSR)は、リップベースのビデオとオーディオを組み合わせて、ノイズのパフォーマンスを向上させることができますが、ほとんどの方法は英語のデータでのみトレーニングされています。
1つの制限は、大規模な多言語ビデオデータがないことです。これにより、モデルをゼロからトレーニングするのが難しくなります。
この作業では、事前に訓練されたオーディオモデル(Whisper)とビデオモデル(AV-Hubert)の強度を組み合わせた多言語AVSRのMwhisper-Flamingoを提案します。
より良いマルチモーダル統合を有効にし、ノイズの多い多言語パフォーマンスを改善するために、ペアのオーディオ視聴覚入力と個別のオーディオ/ビジュアル入力の両方でモデルがトレーニングされるデコーダーモダリティドロップアウトを導入します。
Mwisper-Flamingoは、9言語のAVSRデータセットであるMuavicで最先端のWERを達成しています。
視聴覚MWHISPER-FLAMINGOは、騒々しい条件ですべての言語でオーディオのみのささやきを常に上回っています。

要約(オリジナル)

Audio-Visual Speech Recognition (AVSR) combines lip-based video with audio and can improve performance in noise, but most methods are trained only on English data. One limitation is the lack of large-scale multilingual video data, which makes it hard hard to train models from scratch. In this work, we propose mWhisper-Flamingo for multilingual AVSR which combines the strengths of a pre-trained audio model (Whisper) and video model (AV-HuBERT). To enable better multi-modal integration and improve the noisy multilingual performance, we introduce decoder modality dropout where the model is trained both on paired audio-visual inputs and separate audio/visual inputs. mWhisper-Flamingo achieves state-of-the-art WER on MuAViC, an AVSR dataset of 9 languages. Audio-visual mWhisper-Flamingo consistently outperforms audio-only Whisper on all languages in noisy conditions.

arxiv情報

著者 Andrew Rouditchenko,Samuel Thomas,Hilde Kuehne,Rogerio Feris,James Glass
発行日 2025-02-11 15:56:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.SD, eess.AS | mWhisper-Flamingo for Multilingual Audio-Visual Noise-Robust Speech Recognition はコメントを受け付けていません

Not All Prompts Are Made Equal: Prompt-based Pruning of Text-to-Image Diffusion Models

要約

テキストからイメージ(T2I)拡散モデルは、印象的な画像生成機能を実証しています。
それでも、彼らの計算強度は、リソースに制約のある組織が、内部ターゲットデータで微調整した後、T2Iモデルの展開を禁止しています。
剪定技術は、T2Iモデルの計算負担を減らすための潜在的なソリューションを提供しますが、静的な剪定方法は、さまざまなプロンプトのさまざまな容量要件を見下ろすすべての入力プロンプトに対して同じプルーニングモデルを使用します。
ダイナミックプルーニングは、各プロンプトに個別のサブネットワークを利用することによりこの問題に対処しますが、GPUのバッチ並列性を防ぎます。
これらの制限を克服するために、T2I拡散モデル向けに設計された新しいプロンプトベースの剪定法である適応促進プロンプ型剪定(APTP)を導入します。
私たちのアプローチの中心はプロンプトルーターモデルです。これは、入力テキストプロンプトに必要な容量を決定することを学び、プロンプトの完全な希望の計算予算を考慮して、アーキテクチャコードにルーティングします。
各アーキテクチャコードは、割り当てられたプロンプトに合わせた専門モデルを表し、コードの数はハイパーパラメーターです。
対照学習を使用してプロンプトルーターとアーキテクチャコードをトレーニングし、同様のプロンプトが近くのコードにマッピングされるようにします。
さらに、最適な輸送を使用して、コードが単一のものに崩壊するのを防ぎます。
ターゲットデータセットとしてCC3MとCOCOを使用して、安定した拡散(SD)v2.1を剪定することにより、APTPの有効性を示します。
APTPは、FID、クリップ、およびCMMDスコアに関して、シングルモデル剪定ベースラインよりも優れています。
APTPによって学んだクラスターの分析は、それらが意味的に意味があることを明らかにしています。
また、APTPは、SDの以前に経験的に発見された挑戦的なプロンプトを自動的に発見できることを示しています。
テキストイメージを生成し、それらをより高い容量コードに割り当てるためのプロンプト。

要約(オリジナル)

Text-to-image (T2I) diffusion models have demonstrated impressive image generation capabilities. Still, their computational intensity prohibits resource-constrained organizations from deploying T2I models after fine-tuning them on their internal target data. While pruning techniques offer a potential solution to reduce the computational burden of T2I models, static pruning methods use the same pruned model for all input prompts, overlooking the varying capacity requirements of different prompts. Dynamic pruning addresses this issue by utilizing a separate sub-network for each prompt, but it prevents batch parallelism on GPUs. To overcome these limitations, we introduce Adaptive Prompt-Tailored Pruning (APTP), a novel prompt-based pruning method designed for T2I diffusion models. Central to our approach is a prompt router model, which learns to determine the required capacity for an input text prompt and routes it to an architecture code, given a total desired compute budget for prompts. Each architecture code represents a specialized model tailored to the prompts assigned to it, and the number of codes is a hyperparameter. We train the prompt router and architecture codes using contrastive learning, ensuring that similar prompts are mapped to nearby codes. Further, we employ optimal transport to prevent the codes from collapsing into a single one. We demonstrate APTP’s effectiveness by pruning Stable Diffusion (SD) V2.1 using CC3M and COCO as target datasets. APTP outperforms the single-model pruning baselines in terms of FID, CLIP, and CMMD scores. Our analysis of the clusters learned by APTP reveals they are semantically meaningful. We also show that APTP can automatically discover previously empirically found challenging prompts for SD, e.g. prompts for generating text images, assigning them to higher capacity codes.

arxiv情報

著者 Alireza Ganjdanesh,Reza Shirkavand,Shangqian Gao,Heng Huang
発行日 2025-02-11 15:58:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Not All Prompts Are Made Equal: Prompt-based Pruning of Text-to-Image Diffusion Models はコメントを受け付けていません

From Pixels to Components: Eigenvector Masking for Visual Representation Learning

要約

画像の目に見える部分からマスクされた予測は、視覚表現学習のための強力な自己監視アプローチです。
ただし、ピクセルのランダムパッチをマスキングする一般的な慣行は、特定の障害モードを示します。これにより、ダウンストリームタスクに必要な意味のある高レベル機能の学習を防ぐことができます。
生のピクセルではなく、データの適切な変換で動作する代替マスキング戦略を提案します。
具体的には、主成分分析を実行し、データ差異の固定比を説明するコンポーネントのサブセットをランダムにマスクします。
学習タスクは、目に見えるコンポーネントからマスクされたコンポーネントを再構築することになります。
ピクセルのローカルパッチと比較して、画像の主要なコンポーネントはよりグローバルな情報を提供します。
したがって、目に見えるコンポーネントからマスクされたものを予測するには、より高レベルの機能が含まれ、マスキング戦略がより便利な表現を抽出できるようにすると仮定します。
これは、ピクセルマスキングを超えるコンポーネントの画像分類パフォーマンスの改善を示す経験的発見によって裏付けられています。
したがって、私たちの方法は、従来のマスクされた画像モデリングアプローチに代わる、シンプルで堅牢なデータ駆動型の代替品を構成します。

要約(オリジナル)

Predicting masked from visible parts of an image is a powerful self-supervised approach for visual representation learning. However, the common practice of masking random patches of pixels exhibits certain failure modes, which can prevent learning meaningful high-level features, as required for downstream tasks. We propose an alternative masking strategy that operates on a suitable transformation of the data rather than on the raw pixels. Specifically, we perform principal component analysis and then randomly mask a subset of components, which accounts for a fixed ratio of the data variance. The learning task then amounts to reconstructing the masked components from the visible ones. Compared to local patches of pixels, the principal components of images carry more global information. We thus posit that predicting masked from visible components involves more high-level features, allowing our masking strategy to extract more useful representations. This is corroborated by our empirical findings which demonstrate improved image classification performance for component over pixel masking. Our method thus constitutes a simple and robust data-driven alternative to traditional masked image modeling approaches.

arxiv情報

著者 Alice Bizeul,Thomas Sutter,Alain Ryser,Bernhard Schölkopf,Julius von Kügelgen,Julia E. Vogt
発行日 2025-02-11 16:04:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | From Pixels to Components: Eigenvector Masking for Visual Representation Learning はコメントを受け付けていません

MRAnnotator: multi-Anatomy and many-Sequence MRI segmentation of 44 structures

要約

このレトロスペクティブ研究では、2つのデータセットで44の構造に注釈を付けました。マウントシナイヘルスシステムの843人の患者からの1,518 MRIシーケンスの内部データセットと、ベンチマークのために263人の患者から397 MRIシーケンスの外部データセットです。
内部データセットは、NNU-NETモデルMrannotatorをトレーニングし、外部データセットで強力な一般化可能性を示しました。
Mrannotatorは、両方のデータセットでTotalSegmentator MRIやMrSegmentatorなどの既存のモデルを上回り、内部データセットで0.878、外部セットで0.875の全体の平均DICEスコアを達成しました。
モデルの重みはGitHubで利用でき、外部テストセットはリクエストに応じて共有できます。

要約(オリジナル)

In this retrospective study, we annotated 44 structures on two datasets: an internal dataset of 1,518 MRI sequences from 843 patients at the Mount Sinai Health System, and an external dataset of 397 MRI sequences from 263 patients for benchmarking. The internal dataset trained the nnU-Net model MRAnnotator, which demonstrated strong generalizability on the external dataset. MRAnnotator outperformed existing models such as TotalSegmentator MRI and MRSegmentator on both datasets, achieving an overall average Dice score of 0.878 on the internal dataset and 0.875 on the external set. Model weights are available on GitHub, and the external test set can be shared upon request.

arxiv情報

著者 Alexander Zhou,Zelong Liu,Andrew Tieu,Nikhil Patel,Sean Sun,Anthony Yang,Peter Choi,Hao-Chih Lee,Mickael Tordjman,Louisa Deyer,Yunhao Mei,Valentin Fauveau,George Soultanidis,Bachir Taouli,Mingqian Huang,Amish Doshi,Zahi A. Fayad,Timothy Deyer,Xueyan Mei
発行日 2025-02-11 16:23:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | MRAnnotator: multi-Anatomy and many-Sequence MRI segmentation of 44 structures はコメントを受け付けていません

Multiview Point Cloud Registration Based on Minimum Potential Energy for Free-Form Blade Measurement

要約

ポイントクラウド登録は、産業測定におけるフリーフォームブレードの再構築に不可欠なステップです。
それにもかかわらず、3D取得システムの欠陥を測定すると、騒々しく不完全なポイントクラウドデータが発生し、登録が効率的で正確な登録が困難になります。
この論文では、これらの問題に対処するための最小ポテンシャルエネルギー(MPE)方法に基づいた新しいグローバル登録方法を提案します。
基本的な戦略は、目的関数が物理登録システムの最小ポテンシャルエネルギー最適化関数として定義されることです。
この関数は、より多くの重量をインライアポイントの大部分に分配し、ノイズと外れ値に対する重量を減らし、基本的に数学的定式化における摂動の影響を減らします。
ソリューションを、収束を強化するために、トリミングされた反復的な最も近いポイントアルゴリズムを使用して、グローバルに最適な近似手順と微細な登録プロセスに分解します。
近似手順は、2つの主要なステップで構成されています。
第一に、フォーストラクションオペレーターの構築によれば、ポテンシャルエネルギーの最小値の位置を単純に計算できます。
第二に、MPEポイントを見つけるために、2つのフラグを使用して登録手順のステータスを観察する新しい理論を提案します。
4種類のブレードで提案されたアルゴリズムのパフォーマンスを示します。
提案された方法は、精度と騒音抵抗の両方の観点から、他のグローバルな方法よりも優れています。

要約(オリジナル)

Point cloud registration is an essential step for free-form blade reconstruction in industrial measurement. Nonetheless, measuring defects of the 3D acquisition system unavoidably result in noisy and incomplete point cloud data, which renders efficient and accurate registration challenging. In this paper, we propose a novel global registration method that is based on the minimum potential energy (MPE) method to address these problems. The basic strategy is that the objective function is defined as the minimum potential energy optimization function of the physical registration system. The function distributes more weight to the majority of inlier points and less weight to the noise and outliers, which essentially reduces the influence of perturbations in the mathematical formulation. We decompose the solution into a globally optimal approximation procedure and a fine registration process with the trimmed iterative closest point algorithm to boost convergence. The approximation procedure consists of two main steps. First, according to the construction of the force traction operator, we can simply compute the position of the potential energy minimum. Second, to find the MPE point, we propose a new theory that employs two flags to observe the status of the registration procedure. We demonstrate the performance of the proposed algorithm on four types of blades. The proposed method outperforms the other global methods in terms of both accuracy and noise resistance.

arxiv情報

著者 Zijie Wu,Yaonan Wang,Yang Mo,Qing Zhu,He Xie,Haotian Wu,Mingtao Feng,Ajmal Mian
発行日 2025-02-11 16:30:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CG, cs.CV | Multiview Point Cloud Registration Based on Minimum Potential Energy for Free-Form Blade Measurement はコメントを受け付けていません

Matrix3D: Large Photogrammetry Model All-in-One

要約

同じモデルを使用して、ポーズ推定、深度予測、新しいビュー合成を含むいくつかの写真測量測定サブタスクを実行する統合モデルであるMatrix3Dを提示します。
Matrix3Dは、マルチモーダル拡散トランス(DIT)を利用して、画像、カメラパラメーター、深度マップなどのいくつかのモダリティにわたって変換を統合します。
Matrix3Dの大規模なマルチモーダルトレーニングの鍵は、マスク学習戦略の組み込みにあります。
これにより、画像ポーズや画像の深いペアのバイモダリティデータなど、部分的に完全なデータを使用してもフルモダリティモデルトレーニングが可能になるため、利用可能なトレーニングデータのプールが大幅に増加します。
Matrix3dは、ポーズ推定と新しいビュー合成タスクの最先端のパフォーマンスを示しています。
さらに、マルチラウンドの相互作用を通じて細粒の制御を提供し、3Dコンテンツ作成のための革新的なツールになります。
プロジェクトページ:https://nju-3dv.github.io/projects/matrix3d。

要約(オリジナル)

We present Matrix3D, a unified model that performs several photogrammetry subtasks, including pose estimation, depth prediction, and novel view synthesis using just the same model. Matrix3D utilizes a multi-modal diffusion transformer (DiT) to integrate transformations across several modalities, such as images, camera parameters, and depth maps. The key to Matrix3D’s large-scale multi-modal training lies in the incorporation of a mask learning strategy. This enables full-modality model training even with partially complete data, such as bi-modality data of image-pose and image-depth pairs, thus significantly increases the pool of available training data. Matrix3D demonstrates state-of-the-art performance in pose estimation and novel view synthesis tasks. Additionally, it offers fine-grained control through multi-round interactions, making it an innovative tool for 3D content creation. Project page: https://nju-3dv.github.io/projects/matrix3d.

arxiv情報

著者 Yuanxun Lu,Jingyang Zhang,Tian Fang,Jean-Daniel Nahmias,Yanghai Tsin,Long Quan,Xun Cao,Yao Yao,Shiwei Li
発行日 2025-02-11 16:36:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Matrix3D: Large Photogrammetry Model All-in-One はコメントを受け付けていません