Breaking the Barriers: Video Vision Transformers for Word-Level Sign Language Recognition

要約

手話は、ジェスチャー、表情、身体の動きを通して微妙な表現を可能にする、聴覚障害と頑固な(DHH)コミュニティのコミュニケーションの基本的な手段です。
DHH集団内での相互作用を促進する上での重要な役割にもかかわらず、聴覚集団間の手話の流encyさが限られているため、重大な障壁が持続します。
自動信号認識(SLR)を通じてこのコミュニケーションのギャップを克服することは、特に動的な単語レベルでの課題のままです。ここでは、時間的および空間的依存関係を効果的に認識する必要があります。
畳み込みニューラルネットワークはSLRの可能性を示していますが、それらは計算的に集中的であり、ビデオシーケンス間のグローバルな時間的依存関係をキャプチャするのが困難です。
これらの制限に対処するために、単語レベルのアメリカ手話(ASL)認識のビデオビジョントランス(VIVIT)モデルを提案します。
変圧器モデルは、自己触媒メカニズムを利用して、空間的および時間的次元全体でグローバルな関係を効果的にキャプチャし、複雑なジェスチャー認識タスクに適しています。
VideOMAMEEモデルは、WLASL100データセットで75.58%の上位1精度を達成し、65.89%の従来のCNNと比較してその強力なパフォーマンスを強調しています。
私たちの研究は、変圧器ベースのアーキテクチャがSLRを前進させ、コミュニケーションの障壁を克服し、DHHの個人を含めることを促進する可能性があることを示しています。

要約(オリジナル)

Sign language is a fundamental means of communication for the deaf and hard-of-hearing (DHH) community, enabling nuanced expression through gestures, facial expressions, and body movements. Despite its critical role in facilitating interaction within the DHH population, significant barriers persist due to the limited fluency in sign language among the hearing population. Overcoming this communication gap through automatic sign language recognition (SLR) remains a challenge, particularly at a dynamic word-level, where temporal and spatial dependencies must be effectively recognized. While Convolutional Neural Networks have shown potential in SLR, they are computationally intensive and have difficulties in capturing global temporal dependencies between video sequences. To address these limitations, we propose a Video Vision Transformer (ViViT) model for word-level American Sign Language (ASL) recognition. Transformer models make use of self-attention mechanisms to effectively capture global relationships across spatial and temporal dimensions, which makes them suitable for complex gesture recognition tasks. The VideoMAE model achieves a Top-1 accuracy of 75.58% on the WLASL100 dataset, highlighting its strong performance compared to traditional CNNs with 65.89%. Our study demonstrates that transformer-based architectures have great potential to advance SLR, overcome communication barriers and promote the inclusion of DHH individuals.

arxiv情報

著者 Alexander Brettmann,Jakob Grävinghoff,Marlene Rüschoff,Marie Westhues
発行日 2025-04-10 14:27:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Breaking the Barriers: Video Vision Transformers for Word-Level Sign Language Recognition はコメントを受け付けていません

A Quantitative Evaluation of the Expressivity of BMI, Pose and Gender in Body Embeddings for Recognition and Identification

要約

人の再識別(Reid)システムは、画像やビデオフレーム全体の個人を特定し、さまざまな現実世界のアプリケーションで重要な役割を果たします。
ただし、多くのREIDメソッドは、性別、ポーズ、ボディマスインデックス(BMI)などの敏感な属性の影響を受けます。これは、制御されていない環境で異なり、バイアスと一般化の減少につながります。
これに対処するために、表現力の概念を身体認識ドメインに拡張して、Reidモデルがこれらの属性をエンコードする方法をよりよく理解します。
特徴ベクトル表現と特定の属性の間の相互情報として定義される表現率は、特徴と属性ベクトルを入力として使用する二次ニューラルネットワークを使用して計算されます。
これは、モデルの表現に機密属性が埋め込まれている範囲を分析するための定量的フレームワークを提供します。
最先端の自己監督のReidモデルであるSemreidに表現率分析を適用し、BMIがモデルの最終レイヤーで最高の表現性スコアを一貫して示し、特徴エンコーディングにおける支配的な役割を強調していることがわかります。
訓練されたネットワークの最終的な注意層では、身体属性の表現力の順序はBMI>ピッチ>ヨー>性別であり、学習した表現における相対的な重要性を強調しています。
さらに、表現率の値は、ネットワークレイヤーとトレーニングエポック全体で徐々に進化し、機能抽出中の属性の動的なエンコードを反映しています。
これらの洞察は、Reidモデルに対する身体関連の属性の影響を強調し、属性駆動型のバイアスを特定して軽減するための体系的な方法論を提供します。
表現力分析を活用することにより、多様な現実世界の設定におけるREIDシステムの公平性、堅牢性、および一般化を強化するための貴重なツールを提供します。

要約(オリジナル)

Person Re-identification (ReID) systems identify individuals across images or video frames and play a critical role in various real-world applications. However, many ReID methods are influenced by sensitive attributes such as gender, pose, and body mass index (BMI), which vary in uncontrolled environments, leading to biases and reduced generalization. To address this, we extend the concept of expressivity to the body recognition domain to better understand how ReID models encode these attributes. Expressivity, defined as the mutual information between feature vector representations and specific attributes, is computed using a secondary neural network that takes feature and attribute vectors as inputs. This provides a quantitative framework for analyzing the extent to which sensitive attributes are embedded in the model’s representations. We apply expressivity analysis to SemReID, a state-of-the-art self-supervised ReID model, and find that BMI consistently exhibits the highest expressivity scores in the model’s final layers, underscoring its dominant role in feature encoding. In the final attention layer of the trained network, the expressivity order for body attributes is BMI > Pitch > Yaw > Gender, highlighting their relative importance in learned representations. Additionally, expressivity values evolve progressively across network layers and training epochs, reflecting a dynamic encoding of attributes during feature extraction. These insights emphasize the influence of body-related attributes on ReID models and provide a systematic methodology for identifying and mitigating attribute-driven biases. By leveraging expressivity analysis, we offer valuable tools to enhance the fairness, robustness, and generalization of ReID systems in diverse real-world settings.

arxiv情報

著者 Basudha Pal,Siyuan Huang,Rama Chellappa
発行日 2025-04-10 14:29:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | A Quantitative Evaluation of the Expressivity of BMI, Pose and Gender in Body Embeddings for Recognition and Identification はコメントを受け付けていません

Revisiting Likelihood-Based Out-of-Distribution Detection by Modeling Representations

要約

特に安全性の高いアプリケーションで、ディストリビューション(OOD)検出は、深い学習システムの信頼性を確保するために重要です。
尤度ベースのディープ生成モデルは、OOD検出における不十分なパフォーマンスに対する歴史的に批判に直面しており、多くの場合、画像データに適用した場合、分散型の分布サンプルよりも多くの可能性をoodデータに割り当てます。
この作業では、可能性が本質的に欠陥がないことを示します。
むしろ、画像空間のいくつかのプロパティは、有効な検出スコアとしての尤度を禁止しています。
拡散モデルの確率フロー定式化を具体的に使用して、十分に良好な尤度推定器を考えると、事前に訓練されたエンコーダの表現スペースに適用された場合、尤度ベースの方法が最先端の方法と同等に実行できることを示します。
私たちの作品のコードは、$ \ href {https://github.com/limchaos/likelihood-ood.git} {\ texttt {https://github.com/limchaos/likelihood-ood.git}}}で見つけることができます。

要約(オリジナル)

Out-of-distribution (OOD) detection is critical for ensuring the reliability of deep learning systems, particularly in safety-critical applications. Likelihood-based deep generative models have historically faced criticism for their unsatisfactory performance in OOD detection, often assigning higher likelihood to OOD data than in-distribution samples when applied to image data. In this work, we demonstrate that likelihood is not inherently flawed. Rather, several properties in the images space prohibit likelihood as a valid detection score. Given a sufficiently good likelihood estimator, specifically using the probability flow formulation of a diffusion model, we show that likelihood-based methods can still perform on par with state-of-the-art methods when applied in the representation space of pre-trained encoders. The code of our work can be found at $\href{https://github.com/limchaos/Likelihood-OOD.git}{\texttt{https://github.com/limchaos/Likelihood-OOD.git}}$.

arxiv情報

著者 Yifan Ding,Arturas Aleksandrauskas,Amirhossein Ahmadian,Jonas Unger,Fredrik Lindsten,Gabriel Eilertsen
発行日 2025-04-10 14:30:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Revisiting Likelihood-Based Out-of-Distribution Detection by Modeling Representations はコメントを受け付けていません

Balancing Act: Distribution-Guided Debiasing in Diffusion Models

要約

拡散モデル(DM)は、前例のない画像生成機能を備えた強力な生成モデルとして浮上しています。
これらのモデルは、データ増強および創造的なアプリケーションに広く使用されています。
ただし、DMはトレーニングデータセットに存在するバイアスを反映しています。
これは、DMが1つの人口統計サブグループと他の人(女性対男性など)を好む顔のコンテキストで特に懸念されます。
この作業では、追加のデータやモデル再トレーニングに依存せずにDMを削除する方法を提示します。
具体的には、生成された画像を実施して規定された属性分布に従うことを実施する配布ガイダンスを提案します。
これを実現するために、UNETを除生する潜在的な特徴が豊かな人口統計セマンティクスを保持しているという重要な洞察に基づいて構築し、委任された世代を導くために同じものを活用できます。
属性分布予測子(ADP) – 潜在的な特徴を属性の分布にマッピングする小さなMLPをトレーニングします。
ADPは、既存の属性分類子から生成された擬似ラベルでトレーニングされています。
ADPを使用した提案された配布ガイダンスにより、公正な世代を行うことができます。
私たちの方法は、単一/複数の属性間のバイアスを減らし、ベースラインを無条件およびテキスト条件の拡散モデルの大幅なマージンで上回ります。
さらに、生成されたデータでトレーニングセットを再調整することにより、公正属性分類器をトレーニングする下流タスクを提示します。

要約(オリジナル)

Diffusion Models (DMs) have emerged as powerful generative models with unprecedented image generation capability. These models are widely used for data augmentation and creative applications. However, DMs reflect the biases present in the training datasets. This is especially concerning in the context of faces, where the DM prefers one demographic subgroup vs others (eg. female vs male). In this work, we present a method for debiasing DMs without relying on additional data or model retraining. Specifically, we propose Distribution Guidance, which enforces the generated images to follow the prescribed attribute distribution. To realize this, we build on the key insight that the latent features of denoising UNet hold rich demographic semantics, and the same can be leveraged to guide debiased generation. We train Attribute Distribution Predictor (ADP) – a small mlp that maps the latent features to the distribution of attributes. ADP is trained with pseudo labels generated from existing attribute classifiers. The proposed Distribution Guidance with ADP enables us to do fair generation. Our method reduces bias across single/multiple attributes and outperforms the baseline by a significant margin for unconditional and text-conditional diffusion models. Further, we present a downstream task of training a fair attribute classifier by rebalancing the training set with our generated data.

arxiv情報

著者 Rishubh Parihar,Abhijnya Bhat,Abhipsa Basu,Saswat Mallick,Jogendra Nath Kundu,R. Venkatesh Babu
発行日 2025-04-10 14:39:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Balancing Act: Distribution-Guided Debiasing in Diffusion Models はコメントを受け付けていません

FAST: Federated Active Learning with Foundation Models for Communication-efficient Sampling and Training

要約

Federated Active Learning(FAL)は、データのプライバシーを維持しながら、分散クライアント全体で大量の非標識データを活用する有望な枠組みとして浮上しています。
ただし、クライアントがかなりのローカルデータセットを所有している場合、特にシロ設定では、高い注釈コストとコミュニケーション集約型のサンプリングプロセスにより、現実世界の展開は引き続き制限されています。
このペーパーでは、重要な質問に取り組んでいます。アノテーターの努力を最小限に抑えながら、人間の学習のコミュニケーションコストを削減するためのベストプラクティスは何ですか?
既存のFALメソッドは、通常、フェデレーションアップデートからアクティブなサンプリングを分離する反復注釈プロセスに依存しており、複数の高価なコミュニケーションと注釈につながります。
これに応じて、予備パスでの弱いラベル付けの基礎モデルを活用する2パスFALフレームワークであるFastを紹介し、その後、最も不確実なサンプルのみに焦点を当てた改良パスが続きます。
基礎モデルからの表現知識を活用し、精製ステップを合理化されたワークフローに統合することにより、反復的なアクティブサンプリングによって発生するオーバーヘッドを大幅に減少させます。
多様な医療および自然画像のベンチマークに関する広範な実験は、限られた5%のラベル付け予算の下で8倍の通信ラウンドを減らしながら、既存のFAL方法を平均4.36%上回ることを示しています。

要約(オリジナル)

Federated Active Learning (FAL) has emerged as a promising framework to leverage large quantities of unlabeled data across distributed clients while preserving data privacy. However, real-world deployments remain limited by high annotation costs and communication-intensive sampling processes, particularly in a cross-silo setting, when clients possess substantial local datasets. This paper addresses the crucial question: What is the best practice to reduce communication costs in human-in-the-loop learning with minimal annotator effort? Existing FAL methods typically rely on iterative annotation processes that separate active sampling from federated updates, leading to multiple rounds of expensive communication and annotation. In response, we introduce FAST, a two-pass FAL framework that harnesses foundation models for weak labeling in a preliminary pass, followed by a refinement pass focused exclusively on the most uncertain samples. By leveraging representation knowledge from foundation models and integrating refinement steps into a streamlined workflow, FAST substantially reduces the overhead incurred by iterative active sampling. Extensive experiments on diverse medical and natural image benchmarks demonstrate that FAST outperforms existing FAL methods by an average of 4.36% while reducing communication rounds eightfold under a limited 5% labeling budget.

arxiv情報

著者 Haoyuan Li,Mathias Funk,Jindong Wang,Aaqib Saeed
発行日 2025-04-10 14:42:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.DC, cs.LG | FAST: Federated Active Learning with Foundation Models for Communication-efficient Sampling and Training はコメントを受け付けていません

Nonlocal Retinex-Based Variational Model and its Deep Unfolding Twin for Low-Light Image Enhancement

要約

低照度条件下でキャプチャされた画像は、多くのアプリケーションで大きな制限をもたらします。照明の低下は、詳細を曖昧にし、コントラストを減らし、ノイズを隠す可能性があるためです。
照明効果を削除し、そのような画像の品質を向上させることは、画像セグメンテーションやオブジェクト検出など、多くのタスクにとって重要です。
この論文では、照明、反射率、およびノイズ成分へのRetinex分解に基づいて、低光の画像強化の変動方法を提案します。
色補正前処理ステップは、低光度画像に適用され、それは分解で観測された入力として使用されます。
さらに、我々のモデルは、構造の詳細を維持するように設計された新しい非ローカルグラデーション型の忠実度の用語を統合します。
さらに、自動ガンマ補正モジュールを提案します。
提案された変分アプローチに基づいて、近位演算子が学習可能なネットワークに置き換える深い展開カウンターパートを導入することにより、モデルを拡張します。
反射率の非ローカルな事前の事前と非局所勾配ベースの制約の両方で長距離依存関係をキャプチャするための相互参加メカニズムを提案します。
実験結果は、両方の方法が異なるデータセットにわたるいくつかの最近の最先端の手法と比較して好意的に比較されることを示しています。
特に、学習戦略に依存していないにもかかわらず、変分モデルは、ほとんどの深い学習アプローチよりも視覚的にも品質メトリックの観点からも優れています。

要約(オリジナル)

Images captured under low-light conditions present significant limitations in many applications, as poor lighting can obscure details, reduce contrast, and hide noise. Removing the illumination effects and enhancing the quality of such images is crucial for many tasks, such as image segmentation and object detection. In this paper, we propose a variational method for low-light image enhancement based on the Retinex decomposition into illumination, reflectance, and noise components. A color correction pre-processing step is applied to the low-light image, which is then used as the observed input in the decomposition. Moreover, our model integrates a novel nonlocal gradient-type fidelity term designed to preserve structural details. Additionally, we propose an automatic gamma correction module. Building on the proposed variational approach, we extend the model by introducing its deep unfolding counterpart, in which the proximal operators are replaced with learnable networks. We propose cross-attention mechanisms to capture long-range dependencies in both the nonlocal prior of the reflectance and the nonlocal gradient-based constraint. Experimental results demonstrate that both methods compare favorably with several recent and state-of-the-art techniques across different datasets. In particular, despite not relying on learning strategies, the variational model outperforms most deep learning approaches both visually and in terms of quality metrics.

arxiv情報

著者 Daniel Torres,Joan Duran,Julia Navarro,Catalina Sbert
発行日 2025-04-10 14:48:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Nonlocal Retinex-Based Variational Model and its Deep Unfolding Twin for Low-Light Image Enhancement はコメントを受け付けていません

P2Object: Single Point Supervised Object Detection and Instance Segmentation

要約

シングルポイント監督を使用したオブジェクト認識は、最近の注目を集めています。
ただし、完全に監視されたアルゴリズムと比較したパフォーマンスのギャップは大きなままです。
以前の作品は、クラスアグリスティック\ textbf {\ textIT {In a Image}}}}を生成し、混合候補を単一のバッグとして扱い、複数のインスタンス学習(MIL)に大きな負担をかけました。
このホワイトペーパーでは、アンカーのように提案を生成し、粗から金融のパラダイムで提案を改良することにより、バランスの取れた\ textBf {\ textBf {instance-level Proposal Bags}}を構築するポイントツーボックスネットワーク(P2BNET)を紹介します。
さらなる調査を通じて、画像レベルまたはインスタンスレベルのいずれかで提案の袋が個別のボックスサンプリングに確立されていることがわかります。
これにより、擬似ボックスの推定が最適下溶液に導かれ、オブジェクトの境界が切り捨てられたり、背景が過度に包含されたりします。
したがって、離散から連続した最適化のシリーズ調査を実施し、P2BNET ++とポイントツーマスクネットワーク(P2MNET)を生成します。
P2BNET ++は、空間的手がかりをよりよく利用することにより、ほぼ継続的な提案サンプリング戦略を実施します。
P2MNETは、ピクセルの予測を支援するために低レベルの画像情報をさらに導入し、推定ボックスの制限を緩和するために境界自己予測が設計されています。
連続Object-Aware \ textBf {\ textit {pixel-level Perception}}の恩恵を受けると、p2mnetはより正確な境界ボックスを生成し、セグメンテーションタスクに一般化できます。
私たちの方法は、COCO、VOC、SBD、およびCityscapesの平均平均精度の観点から、以前の方法を主に上回り、完全に監視されたタスクと比較してパフォーマンスギャップを埋める大きな可能性を示しています。

要約(オリジナル)

Object recognition using single-point supervision has attracted increasing attention recently. However, the performance gap compared with fully-supervised algorithms remains large. Previous works generated class-agnostic \textbf{\textit{proposals in an image}} offline and then treated mixed candidates as a single bag, putting a huge burden on multiple instance learning (MIL). In this paper, we introduce Point-to-Box Network (P2BNet), which constructs balanced \textbf{\textit{instance-level proposal bags}} by generating proposals in an anchor-like way and refining the proposals in a coarse-to-fine paradigm. Through further research, we find that the bag of proposals, either at the image level or the instance level, is established on discrete box sampling. This leads the pseudo box estimation into a sub-optimal solution, resulting in the truncation of object boundaries or the excessive inclusion of background. Hence, we conduct a series exploration of discrete-to-continuous optimization, yielding P2BNet++ and Point-to-Mask Network (P2MNet). P2BNet++ conducts an approximately continuous proposal sampling strategy by better utilizing spatial clues. P2MNet further introduces low-level image information to assist in pixel prediction, and a boundary self-prediction is designed to relieve the limitation of the estimated boxes. Benefiting from the continuous object-aware \textbf{\textit{pixel-level perception}}, P2MNet can generate more precise bounding boxes and generalize to segmentation tasks. Our method largely surpasses the previous methods in terms of the mean average precision on COCO, VOC, SBD, and Cityscapes, demonstrating great potential to bridge the performance gap compared with fully supervised tasks.

arxiv情報

著者 Pengfei Chen,Xuehui Yu,Xumeng Han,Kuiran Wang,Guorong Li,Lingxi Xie,Zhenjun Han,Jianbin Jiao
発行日 2025-04-10 14:51:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | P2Object: Single Point Supervised Object Detection and Instance Segmentation はコメントを受け付けていません

BYOCL: Build Your Own Consistent Latent with Hierarchical Representative Latent Clustering

要約

SAMまたはその他の単一イメージセグメンテーションモデルの画像シーケンスを処理するセマンティックな矛盾の問題に対処するために、BYOCLを紹介します。
この新しいモデルは、広範な実験でSAMを上回り、クリップやその他の表現全体に階層的なプロトタイプ機能を紹介します。
BYOCLは、入力をより小さなバッチに分割することにより、時間と空間の消費を大幅に削減し、以前の方法と比較して指数関数的な時間削減を達成します。
私たちのアプローチは、機能抽出のためにSAMイメージエンコーダーを活用し、その後、バッチ内およびバッチ間クラスタリングアルゴリズムが続きます。
広範な実験は、BYOCLが以前の最先端の単一画像セグメンテーションモデルをはるかに超えることを示しています。
私たちの作業は、潜在スペースにプラグアンドプレイモジュールを利用して、トレーニングを必要とせずに基礎モデルを使用して一貫したセグメンテーションを適用した最初のものです。

要約(オリジナル)

To address the semantic inconsistency issue with SAM or other single-image segmentation models handling image sequences, we introduce BYOCL. This novel model outperforms SAM in extensive experiments, showcasing its Hierarchical prototype capabilities across CLIP and other representations. BYOCL significantly reduces time and space consumption by dividing inputs into smaller batches, achieving exponential time reduction compared to previous methods. Our approach leverages the SAM image encoder for feature extraction, followed by Intra-Batch and Inter-Batch clustering algorithms. Extensive experiments demonstrate that BYOCL far exceeds the previous state-of-the-art single image segmentation model. Our work is the first to apply consistent segmentation using foundation models without requiring training, utilizing plug-and-play modules for any latent space, making our method highly efficientModels are available at \href{https://github.com/cyt1202/BYOCL.git

arxiv情報

著者 Jiayue Dai,Yunya Wang,Yihan Fang,Yuetong Chen,Butian Xiong
発行日 2025-04-10 14:52:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | BYOCL: Build Your Own Consistent Latent with Hierarchical Representative Latent Clustering はコメントを受け付けていません

CADCrafter: Generating Computer-Aided Design Models from Unconstrained Images

要約

物理的な世界からCADデジタル双子を作成することは、製造、設計、シミュレーションに不可欠です。
ただし、現在の方法は、通常、労働集約的な後処理で費用のかかる3Dスキャンに依存しています。
ユーザーフレンドリーな設計プロセスを提供するために、すべてのエクスペリエンスのユーザーが簡単にキャプチャできる制約のない実世界のCAD画像からのリバースエンジニアリングの問題を調査します。
ただし、実際のCADデータの希少性は、そのようなモデルを直接トレーニングする際に課題をもたらします。
これらの課題に取り組むために、現実世界の画像でテストしながら合成テクステレスCADデータのみでトレーニングする画像からパラメトリックのCADモデル生成フレームワークであるCADCrafterを提案します。
画像とパラメトリックCADモデルの間の重要な表現の格差を橋渡しするために、多様な幾何学的特徴を正確にキャプチャするジオメトリエンコーダーを導入します。
さらに、幾何学的特徴のテクスチャ不変の特性は、実際のシナリオへの一般化を促進する可能性があります。
CADパラメーターシーケンスを明示的なCADモデルにコンパイルすることは非分化不可能なプロセスであるため、ネットワークトレーニングには本質的に明示的な幾何学的監督がありません。
幾何学的妥当性の制約を課すために、CADシーケンス品質に関する自動コードチェッカーフィードバックでモデルを微調整するために、直接優先最適化(DPO)を使用します。
さらに、メソッドを評価するために、マルチビュー画像と対応するCADコマンドシーケンスペアで構成される実際のデータセットを収集しました。
実験結果は、私たちのアプローチが本物の制約のないCAD画像を堅牢に処理し、目に見えない一般的なオブジェクトに一般化できることを示しています。

要約(オリジナル)

Creating CAD digital twins from the physical world is crucial for manufacturing, design, and simulation. However, current methods typically rely on costly 3D scanning with labor-intensive post-processing. To provide a user-friendly design process, we explore the problem of reverse engineering from unconstrained real-world CAD images that can be easily captured by users of all experiences. However, the scarcity of real-world CAD data poses challenges in directly training such models. To tackle these challenges, we propose CADCrafter, an image-to-parametric CAD model generation framework that trains solely on synthetic textureless CAD data while testing on real-world images. To bridge the significant representation disparity between images and parametric CAD models, we introduce a geometry encoder to accurately capture diverse geometric features. Moreover, the texture-invariant properties of the geometric features can also facilitate the generalization to real-world scenarios. Since compiling CAD parameter sequences into explicit CAD models is a non-differentiable process, the network training inherently lacks explicit geometric supervision. To impose geometric validity constraints, we employ direct preference optimization (DPO) to fine-tune our model with the automatic code checker feedback on CAD sequence quality. Furthermore, we collected a real-world dataset, comprised of multi-view images and corresponding CAD command sequence pairs, to evaluate our method. Experimental results demonstrate that our approach can robustly handle real unconstrained CAD images, and even generalize to unseen general objects.

arxiv情報

著者 Cheng Chen,Jiacheng Wei,Tianrun Chen,Chi Zhang,Xiaofeng Yang,Shangzhan Zhang,Bingchen Yang,Chuan-Sheng Foo,Guosheng Lin,Qixing Huang,Fayao Liu
発行日 2025-04-10 14:54:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | CADCrafter: Generating Computer-Aided Design Models from Unconstrained Images はコメントを受け付けていません

RendBEV: Semantic Novel View Synthesis for Self-Supervised Bird’s Eye View Segmentation

要約

Bird’s Eye View(BEV)セマンティックマップは最近、環境の有用な表現として多くの注目を集め、支援および自律的な運転タスクに取り組んでいます。
ただし、既存の作業のほとんどは、完全に監視されている設定、大規模な注釈付きデータセットのトレーニングネットワークに焦点を当てています。
この作業では、BEVセマンティックセグメンテーションネットワークの自己監視トレーニングの新しい方法であるRendBevを提示し、2Dセマンティックセグメンテーションモデルによって計算されたセマンティックの観点から監督を受けるための微分可能なボリュームレンダリングを活用します。
私たちの方法は、ゼロショットBEVセマンティックセグメンテーションを可能にし、すでにこの挑戦的な設定で競争力のある結果を提供しています。
その後、ラベル付きBEVグラウンドトゥルースで微調整するために事前に使用される場合、我々の方法は、低音符制度のパフォーマンスを大幅に向上させ、利用可能なすべてのラベルで微調整する際に新しい最新の最新を設定します。

要約(オリジナル)

Bird’s Eye View (BEV) semantic maps have recently garnered a lot of attention as a useful representation of the environment to tackle assisted and autonomous driving tasks. However, most of the existing work focuses on the fully supervised setting, training networks on large annotated datasets. In this work, we present RendBEV, a new method for the self-supervised training of BEV semantic segmentation networks, leveraging differentiable volumetric rendering to receive supervision from semantic perspective views computed by a 2D semantic segmentation model. Our method enables zero-shot BEV semantic segmentation, and already delivers competitive results in this challenging setting. When used as pretraining to then fine-tune on labeled BEV ground-truth, our method significantly boosts performance in low-annotation regimes, and sets a new state of the art when fine-tuning on all available labels.

arxiv情報

著者 Henrique Piñeiro Monteagudo,Leonardo Taccari,Aurel Pjetri,Francesco Sambo,Samuele Salti
発行日 2025-04-10 15:00:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | RendBEV: Semantic Novel View Synthesis for Self-Supervised Bird’s Eye View Segmentation はコメントを受け付けていません