Text-based Animatable 3D Avatars with Morphable Model Alignment

要約

テキストからの高品質でアニメーション可能な3Dヘッドアバターの生成は、ゲーム、映画、具体化された仮想アシスタントなどのコンテンツ作成アプリケーションに大きな可能性を秘めています。
現在のテキストから3Dから3Dの生成方法は、通常、スコア蒸留サンプリングを使用して3D無共和的な結果を生成するパラメトリックヘッドモデルと2D拡散モデルを2D拡散モデルと組み合わせます。
しかし、彼らは現実的な詳細を統合するのに苦労し、外観と運転パラメトリックモデルの間の不整合に苦しむため、不自然なアニメーションの結果が生じます。
これらの制限は、3Dアバター蒸留中の2D拡散予測のあいまいさに起因することを発見しました。具体的には次のとおりです。i)アバターの外観とジオメトリは、テキスト入力によって不十分であり、ii)予測とパラメトリックヘッドモデルの間のセマンティックアライメントは、パラメトリックモデルのみから情報を導入できないため、パラメトリックヘッドモデルだけでは不十分です。
この作業では、テキストベースの現実的なアニメーション可能な3DGSアバター生成を備えた新しいフレームワークAnimportrait3Dを提案し、これらの課題に対処するための2つの重要な戦略を導入します。
まず、前処理されたテキストから3Dモデルからの以前の情報を利用して、堅牢な外観、ジオメトリ、および形成可能なモデルに関係をリギングする3Dアバターを初期化することにより、外観と幾何学のあいまいさに取り組みます。
第二に、正確なアライメントを確保するために、形成可能なモデルのセマンティックおよび通常のマップに条件付けられたコントロールネットを使用して、動的式の最初の3Dアバターを改良します。
その結果、私たちの方法は、合成品質、アラインメント、アニメーションの忠実度の点で既存のアプローチよりも優れています。
私たちの実験は、提案された方法が、テキストベースのアニメーション可能な3Dヘッドアバター生成の最新技術を進めることを示しています。

要約(オリジナル)

The generation of high-quality, animatable 3D head avatars from text has enormous potential in content creation applications such as games, movies, and embodied virtual assistants. Current text-to-3D generation methods typically combine parametric head models with 2D diffusion models using score distillation sampling to produce 3D-consistent results. However, they struggle to synthesize realistic details and suffer from misalignments between the appearance and the driving parametric model, resulting in unnatural animation results. We discovered that these limitations stem from ambiguities in the 2D diffusion predictions during 3D avatar distillation, specifically: i) the avatar’s appearance and geometry is underconstrained by the text input, and ii) the semantic alignment between the predictions and the parametric head model is insufficient because the diffusion model alone cannot incorporate information from the parametric model. In this work, we propose a novel framework, AnimPortrait3D, for text-based realistic animatable 3DGS avatar generation with morphable model alignment, and introduce two key strategies to address these challenges. First, we tackle appearance and geometry ambiguities by utilizing prior information from a pretrained text-to-3D model to initialize a 3D avatar with robust appearance, geometry, and rigging relationships to the morphable model. Second, we refine the initial 3D avatar for dynamic expressions using a ControlNet that is conditioned on semantic and normal maps of the morphable model to ensure accurate alignment. As a result, our method outperforms existing approaches in terms of synthesis quality, alignment, and animation fidelity. Our experiments show that the proposed method advances the state of the art in text-based, animatable 3D head avatar generation.

arxiv情報

著者 Yiqian Wu,Malte Prinzler,Xiaogang Jin,Siyu Tang
発行日 2025-04-22 12:29:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Text-based Animatable 3D Avatars with Morphable Model Alignment はコメントを受け付けていません

Enhancing Features in Long-tailed Data Using Large Vision Model

要約

大規模な言語モデル(LLMS)や大規模な視覚言語モデル(LVLMS)などの言語ベースの基礎モデルは、長期にわたる認識で広く研究されています。
ただし、言語データの必要性は、すべての実用的なタスクには適用されません。
この研究では、言語情報なしでロングテールデータ機能を強化するために、大型ビジョンモデル(LVMS)またはVisual Foundationモデル(VFM)を使用して調査することを目指しています。
具体的には、LVMから機能を抽出し、ベースラインネットワークのマップと潜在スペースの機能でそれらを融合して、拡張機能を取得します。
さらに、潜在空間でいくつかのプロトタイプベースの損失を設計して、増強された特徴の可能性をさらに活用します。
実験セクションでは、Imagenet-LTとInaturalist2018の2つのベンチマークデータセットでアプローチを検証します。

要約(オリジナル)

Language-based foundation models, such as large language models (LLMs) or large vision-language models (LVLMs), have been widely studied in long-tailed recognition. However, the need for linguistic data is not applicable to all practical tasks. In this study, we aim to explore using large vision models (LVMs) or visual foundation models (VFMs) to enhance long-tailed data features without any language information. Specifically, we extract features from the LVM and fuse them with features in the baseline network’s map and latent space to obtain the augmented features. Moreover, we design several prototype-based losses in the latent space to further exploit the potential of the augmented features. In the experimental section, we validate our approach on two benchmark datasets: ImageNet-LT and iNaturalist2018.

arxiv情報

著者 Pengxiao Han,Changkun Ye,Jinguang Tong,Cuicui Jiang,Jie Hong,Li Fang,Xuesong Li
発行日 2025-04-22 12:31:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Enhancing Features in Long-tailed Data Using Large Vision Model はコメントを受け付けていません

DERD-Net: Learning Depth from Event-based Ray Densities

要約

イベントカメラは、マルチビューステレオ深度推定と、高速照明条件でぼやけない3Dエッジを検出する能力があるため、マルチビューステレオ深度推定と同時ローカリゼーションとマッピング(SLAM)の有望な手段を提供します。
ただし、従来のカメラ向けに設計された従来のディープラーニングフレームワークは、イベントデータの非同期の流れのような性質と格闘しています。
単眼セットアップとステレオセットアップの両方でイベントカメラを使用して、ピクセルごとの深さ推定のためのスケーラブルで柔軟で適応性のあるフレームワークを提案します。
3Dシーン構造は格差空間画像(DSI)にエンコードされており、既知のカメラポーズを介して空間に逆投げるイベントによって得られる光線の空間密度を表します。
私たちのニューラルネットワークは、3D畳み込みと再発構造を組み合わせてDSIのローカルサブリージョンを処理し、深さ予測のための貴重なパターンを認識します。
ローカル処理により、完全な並列化を伴う迅速な推論が可能になり、カメラの解像度に関係なく、一定の超低モデルの複雑さとメモリコストが保証されます。
標準ベンチマーク(MVSECおよびDSECデータセット)の実験は、前例のない有効性を示しています。
(ii)ステレオデータに適用すると、すべての最先端(SOTA)アプローチを強く上回り、平均絶対誤差を少なくとも42%削減します。
(iii)私たちの方法では、少なくとも30%の絶対誤差の中央値が減少する一方で、深さの完全性を3倍以上増加させることもできます。
イベントデータの驚くべきパフォーマンスと効果的な処理を考えると、私たちのフレームワークは、イベントベースの深度推定とSLAMに深い学習を使用するための標準的なアプローチになる強力な可能性を秘めています。
プロジェクトページ:https://github.com/tub-rip/derd-net

要約(オリジナル)

Event cameras offer a promising avenue for multi-view stereo depth estimation and Simultaneous Localization And Mapping (SLAM) due to their ability to detect blur-free 3D edges at high-speed and over broad illumination conditions. However, traditional deep learning frameworks designed for conventional cameras struggle with the asynchronous, stream-like nature of event data, as their architectures are optimized for discrete, image-like inputs. We propose a scalable, flexible and adaptable framework for pixel-wise depth estimation with event cameras in both monocular and stereo setups. The 3D scene structure is encoded into disparity space images (DSIs), representing spatial densities of rays obtained by back-projecting events into space via known camera poses. Our neural network processes local subregions of the DSIs combining 3D convolutions and a recurrent structure to recognize valuable patterns for depth prediction. Local processing enables fast inference with full parallelization and ensures constant ultra-low model complexity and memory costs, regardless of camera resolution. Experiments on standard benchmarks (MVSEC and DSEC datasets) demonstrate unprecedented effectiveness: (i) using purely monocular data, our method achieves comparable results to existing stereo methods; (ii) when applied to stereo data, it strongly outperforms all state-of-the-art (SOTA) approaches, reducing the mean absolute error by at least 42%; (iii) our method also allows for increases in depth completeness by more than 3-fold while still yielding a reduction in median absolute error of at least 30%. Given its remarkable performance and effective processing of event-data, our framework holds strong potential to become a standard approach for using deep learning for event-based depth estimation and SLAM. Project page: https://github.com/tub-rip/DERD-Net

arxiv情報

著者 Diego de Oliveira Hitzges,Suman Ghosh,Guillermo Gallego
発行日 2025-04-22 12:58:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO, eess.SP | DERD-Net: Learning Depth from Event-based Ray Densities はコメントを受け付けていません

MedNNS: Supernet-based Medical Task-Adaptive Neural Network Search

要約

ディープラーニング(DL)は、医療イメージングの分野で顕著な進歩を遂げました。
ただし、主に2つの重要な要因が原因で、DLモデルを医療タスクに適応させることは依然として重要な課題のままです。(1)さまざまなタスクが特殊なモデル設計を必要とするため、(2)モデルの収束速度と最終パフォーマンスに直接影響する重みの初期化が必要です。
Imagenetからの転送学習は広く採用されている戦略ですが、その有効性は、自然画像と医療画像の間の実質的な違いによって制約されます。
これらの課題に対処するために、医療イメージングアプリケーションの最初のニューラルネットワーク検索フレームワークである医療ニューラルネットワーク検索(MEDNNS)を紹介します。
MEDNNSは、それらがどの程度うまく機能するかに基づいてデータセットとモデルをエンコードするメタスペースを構築することにより、アーキテクチャの選択と重量の初期化を共同で最適化します。
スーパーネットワークベースのアプローチを使用してこのスペースを構築し、以前の最先端(SOTA)メソッドでモデル動物園のサイズを51倍拡大します。
さらに、ランクの損失とfre \ ‘echetインセプション距離(FID)損失をスペースの構築に導入して、モデル間およびデータ準間関係をキャプチャして、メタ空間でより正確な整合性を達成します。
複数のデータセットにわたる実験結果は、MEDNNがイメージネットの事前訓練を受けたDLモデルとSOTAニューラルアーキテクチャ検索(NAS)メソッドの両方を大幅に上回ることを示しており、データセット全体で1.7%の平均精度改善を達成しながら、大幅に速く収束します。
コードと処理されたメタスペースは、https://github.com/biomedia-mbzuai/mednnsで入手できます。

要約(オリジナル)

Deep learning (DL) has achieved remarkable progress in the field of medical imaging. However, adapting DL models to medical tasks remains a significant challenge, primarily due to two key factors: (1) architecture selection, as different tasks necessitate specialized model designs, and (2) weight initialization, which directly impacts the convergence speed and final performance of the models. Although transfer learning from ImageNet is a widely adopted strategy, its effectiveness is constrained by the substantial differences between natural and medical images. To address these challenges, we introduce Medical Neural Network Search (MedNNS), the first Neural Network Search framework for medical imaging applications. MedNNS jointly optimizes architecture selection and weight initialization by constructing a meta-space that encodes datasets and models based on how well they perform together. We build this space using a Supernetwork-based approach, expanding the model zoo size by 51x times over previous state-of-the-art (SOTA) methods. Moreover, we introduce rank loss and Fr\’echet Inception Distance (FID) loss into the construction of the space to capture inter-model and inter-dataset relationships, thereby achieving more accurate alignment in the meta-space. Experimental results across multiple datasets demonstrate that MedNNS significantly outperforms both ImageNet pre-trained DL models and SOTA Neural Architecture Search (NAS) methods, achieving an average accuracy improvement of 1.7% across datasets while converging substantially faster. The code and the processed meta-space is available at https://github.com/BioMedIA-MBZUAI/MedNNS.

arxiv情報

著者 Lotfi Abdelkrim Mecharbat,Ibrahim Elmakky,Martin Takac,Mohammed Yaqub
発行日 2025-04-22 13:04:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | MedNNS: Supernet-based Medical Task-Adaptive Neural Network Search はコメントを受け付けていません

PIDSR: Complementary Polarized Image Demosaicing and Super-Resolution

要約

偏光カメラは、単一ショットで異なる偏光子角を持つ複数の偏光画像をキャプチャでき、偏光ベースのダウンストリームタスクに利便性をもたらすことができます。
ただし、それらの直接出力は、カラー偏光フィルターアレイ(CPFA)の生画像であり、完全な解像度のフルカラー偏光画像を再構築するためにデモ装飾が必要です。
残念ながら、この必要なステップは、偏光の程度(DOP)や偏光角(AOP)などの偏光関連のパラメーターを作成するアーティファクトを導入します。
その上、ハードウェア設計によって制限されているため、偏光カメラの解像度は、従来のRGBカメラの解像度よりもはるかに低いことがよくあります。
既存の偏光画像デモザイシング(PID)メソッドは解像度を強化できないという点で制限されていますが、偏光画像スーパー解像度(PISR)メソッドは、デモザイシング結果から高解像度(HR)偏光画像を取得するように設計されていますが、DOPおよびAOPの誤った誤差を保持または増幅するように設計されています。
この論文では、PIDSRを提案します。PIDSRは、補完的な偏光画像デモサと超解像度を実行する共同フレームワークであり、CPFA RAW画像からより正確なDOPとAOPを使用して高品質のHR偏光画像を直接的に取得する能力を示しています。
実験は、PIDSRが合成データと実際のデータの両方で最先端のパフォーマンスを達成するだけでなく、下流のタスクを促進することを示しています。

要約(オリジナル)

Polarization cameras can capture multiple polarized images with different polarizer angles in a single shot, bringing convenience to polarization-based downstream tasks. However, their direct outputs are color-polarization filter array (CPFA) raw images, requiring demosaicing to reconstruct full-resolution, full-color polarized images; unfortunately, this necessary step introduces artifacts that make polarization-related parameters such as the degree of polarization (DoP) and angle of polarization (AoP) prone to error. Besides, limited by the hardware design, the resolution of a polarization camera is often much lower than that of a conventional RGB camera. Existing polarized image demosaicing (PID) methods are limited in that they cannot enhance resolution, while polarized image super-resolution (PISR) methods, though designed to obtain high-resolution (HR) polarized images from the demosaicing results, tend to retain or even amplify errors in the DoP and AoP introduced by demosaicing artifacts. In this paper, we propose PIDSR, a joint framework that performs complementary Polarized Image Demosaicing and Super-Resolution, showing the ability to robustly obtain high-quality HR polarized images with more accurate DoP and AoP from a CPFA raw image in a direct manner. Experiments show our PIDSR not only achieves state-of-the-art performance on both synthetic and real data, but also facilitates downstream tasks.

arxiv情報

著者 Shuangfan Zhou,Chu Zhou,Youwei Lyu,Heng Guo,Zhanyu Ma,Boxin Shi,Imari Sato
発行日 2025-04-22 13:13:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | PIDSR: Complementary Polarized Image Demosaicing and Super-Resolution はコメントを受け付けていません

Switch-a-View: View Selection Learned from Unlabeled In-the-wild Videos

要約

ハウツービデオを作成するときに、各タイムポイントで表示する視点を自動的に選択することを学ぶモデルであるSwitch-A-Viewを紹介します。
私たちのアプローチの重要な洞察は、そのようなモデルを、無明であるが人間編集されたビデオサンプルからどのようにトレーニングするかです。
主な視点(エゴセントリックまたはエクソセントリック)のトレーニングビデオに擬似ラベルがセグメントを作成する口実のタスクを提起し、一方ではハウツービデオで視覚コンテンツと話し言葉の間のパターンを発見します。
この予測因子を武装して、私たちのモデルは、そのような設定に限られたラベルが付いている場合でも、どの視点を表示するかを調整するための新しいマルチビュービデオ設定に適用できます。
Howto100MとEgo-Exo4Dのさまざまな現実世界のビデオに関するアイデアを示し、その利点を厳密に検証します。
プロジェクト:https://vision.cs.utexas.edu/projects/switch_a_view/。

要約(オリジナル)

We introduce SWITCH-A-VIEW, a model that learns to automatically select the viewpoint to display at each timepoint when creating a how-to video. The key insight of our approach is how to train such a model from unlabeled — but human-edited — video samples. We pose a pretext task that pseudo-labels segments in the training videos for their primary viewpoint (egocentric or exocentric), and then discovers the patterns between the visual and spoken content in a how-to video on the one hand and its view-switch moments on the other hand. Armed with this predictor, our model can be applied to new multi-view video settings for orchestrating which viewpoint should be displayed when, even when such settings come with limited labels. We demonstrate our idea on a variety of real-world videos from HowTo100M and Ego-Exo4D, and rigorously validate its advantages. Project: https://vision.cs.utexas.edu/projects/switch_a_view/.

arxiv情報

著者 Sagnik Majumder,Tushar Nagarajan,Ziad Al-Halah,Kristen Grauman
発行日 2025-04-22 13:23:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Switch-a-View: View Selection Learned from Unlabeled In-the-wild Videos はコメントを受け付けていません

Integrating Non-Linear Radon Transformation for Diabetic Retinopathy Grading

要約

糖尿病性網膜症は、患者の視力と全体的な健康に重大な脅威をもたらす深刻な眼の合併症です。
視力喪失を防ぐためには、早期の検出と正確なグレーディングが不可欠です。
現在の自動格付け方法は、網膜の眼底画像に適用される深い学習に大きく依存していますが、これらの画像の病変の複雑で不規則なパターンは、形状と分布が異なるため、微妙な変化をキャプチャすることが困難になります。
この研究では、糖尿病性網膜症の検出と等級付けを強化するために、非線形のラデックス変換シノグラム画像を従来の眼底画像と統合する多代語の深い学習フレームワークであるRadfuseを紹介します。
ラドン変換の最適化された非線形拡張であるRadex変換は、複雑な網膜病変パターンをキャプチャするシノグラム表現を生成します。
LadFuseは、空間情報と変換されたドメイン情報の両方を活用することにより、深い学習モデルで利用可能な機能セットを豊かにし、重大度レベルの区別を改善します。
Aptos-2019とDDRの2つのベンチマークデータセットで、3つの畳み込みニューラルネットワーク(CNNS)を使用して、ResNext-50、MobileNETV2、およびVGG19を使用して、広範な実験を実施しました。
Radfuseは、3つのCNNアーキテクチャすべてにわたってFundus-Imageのみのモデルに対して大幅な改善を示し、両方のデータセットで最先端の方法を上回った。
5つの段階で重症度のグレーディングの場合、Radfuseは93.24%の2次重量カッパ、87.07%の精度、F1スコア87.17%を達成しました。
健康と糖尿病の網膜症の症例の間のバイナリ分類では、この方法は99.09%の精度、98.58%の精度、99.6%のリコールに達し、以前に確立されたモデルを上回りました。
これらの結果は、複雑な非線形特徴をキャプチャするRadfuseの能力を示しており、糖尿病性網膜症の分類を進め、医療画像分析における高度な数学的変換の統合を促進します。

要約(オリジナル)

Diabetic retinopathy is a serious ocular complication that poses a significant threat to patients’ vision and overall health. Early detection and accurate grading are essential to prevent vision loss. Current automatic grading methods rely heavily on deep learning applied to retinal fundus images, but the complex, irregular patterns of lesions in these images, which vary in shape and distribution, make it difficult to capture subtle changes. This study introduces RadFuse, a multi-representation deep learning framework that integrates non-linear RadEx-transformed sinogram images with traditional fundus images to enhance diabetic retinopathy detection and grading. Our RadEx transformation, an optimized non-linear extension of the Radon transform, generates sinogram representations to capture complex retinal lesion patterns. By leveraging both spatial and transformed domain information, RadFuse enriches the feature set available to deep learning models, improving the differentiation of severity levels. We conducted extensive experiments on two benchmark datasets, APTOS-2019 and DDR, using three convolutional neural networks (CNNs): ResNeXt-50, MobileNetV2, and VGG19. RadFuse showed significant improvements over fundus-image-only models across all three CNN architectures and outperformed state-of-the-art methods on both datasets. For severity grading across five stages, RadFuse achieved a quadratic weighted kappa of 93.24%, an accuracy of 87.07%, and an F1-score of 87.17%. In binary classification between healthy and diabetic retinopathy cases, the method reached an accuracy of 99.09%, precision of 98.58%, and recall of 99.6%, surpassing previously established models. These results demonstrate RadFuse’s capacity to capture complex non-linear features, advancing diabetic retinopathy classification and promoting the integration of advanced mathematical transforms in medical image analysis.

arxiv情報

著者 Farida Mohsen,Samir Belhaouari,Zubair Shah
発行日 2025-04-22 13:27:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Integrating Non-Linear Radon Transformation for Diabetic Retinopathy Grading はコメントを受け付けていません

Towards Robust Infrared Small Target Detection: A Feature-Enhanced and Sensitivity-Tunable Framework

要約

最近、単一フレーム赤外線小ターゲット(SIRST)検出技術が広範囲にわたる注目を集めています。
ただし、赤外線の小さなターゲットにおける本質的な特徴が不足しているため、複雑な背景からの小さなターゲットの正確なセグメンテーションは依然として重要な課題です。
ネットワークアーキテクチャの改善に焦点を当てたほとんどの既存の深い学習ベースの方法とは異なり、既存のSIRST検出ネットワークと互換性があり、検出パフォーマンスをさらに強化する機能を強化し、感度調整可能な(FEST)フレームワークを提案します。
フェストフレームワークは、機能の強化とターゲット信頼規制の2つの側面からモデルの堅牢性を向上させます。
特徴の強化のために、一方では、マルチスケールの融合戦略を採用しています。これにより、マルチサイズのターゲットのマルチスケール機能に対するモデルの認識と適応性が効果的に改善できます。
一方、タスク特性の分析に基づいて、エッジエンハンスメントの難易度マイニング(EEDM)損失を構築します。これにより、トレーニング中にターゲット領域とエッジ機能に挑戦することに継続的に集中するようにネットワークを導くのに役立ちます。
ターゲットの信頼規制のために、ネットワーク後処理のための調整可能な感度(AS)戦略を設計します。
この戦略は、複雑なシナリオでのネットワークの適応性を向上させるだけでなく、セグメンテーションの精度を維持しながら、赤外線の小さなターゲットの検出率を大幅に改善します。
広範な実験結果は、私たちのフェストフレームワークが既存のSIRST検出ネットワークのパフォーマンスを大幅に向上させることができることを示しています。
特に、Festフレームワークを装備したマルチスケールの方向性ネットワーク(MSDA-NET)は、PRCV 2024幅広いエリア赤外線小ターゲット検出競争で最優秀賞を受賞しました。

要約(オリジナル)

Recently, single-frame infrared small target (SIRST) detection technology has attracted wide-spread attention. However, due to the intrinsic feature scarcity in infrared small targets, precise segmentation of small targets from complex backgrounds remains a significant challenge. Different from most existing deep learning-based methods that focus on improving network architectures, we propose a feature-enhanced and sensitivity-tunable (FEST) framework, which is compatible with existing SIRST detection networks and further enhances their detection performance. The FEST framework improves the model’s robustness from two aspects: feature enhancement and target confidence regulation. For feature enhancement, on the one hand, we adopt a multi-scale fusion strategy, which can effectively improve the model’s perception and adaptability to multi-scale features of multi-size targets. On the other hand, we construct an edge enhancement difficulty mining (EEDM) loss based on the analysis of the task characteristics, which helps guide the network to continuously focus on challenging target regions and edge features during training. For target confidence regulation, we design an adjustable sensitivity (AS) strategy for network post-processing. This strategy not only enhances the adaptability of the network in complex scenarios, but also significantly improves the detection rate of infrared small targets while maintaining segmentation accuracy. Extensive experimental results show that our FEST framework can significantly enhance the performance of existing SIRST detection networks. Notably, the multi-scale direction-aware network (MSDA-Net) equipped with the FEST framework won the first prize in the PRCV 2024 wide-area infrared small target detection competition.

arxiv情報

著者 Jinmiao Zhao,Zelin Shi,Chuang Yu,Yunpeng Liu,Yimian Dai
発行日 2025-04-22 13:28:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Towards Robust Infrared Small Target Detection: A Feature-Enhanced and Sensitivity-Tunable Framework はコメントを受け付けていません

MS-Occ: Multi-Stage LiDAR-Camera Fusion for 3D Semantic Occupancy Prediction

要約

正確な3Dセマンティック占有率の認識は、多様で不規則なオブジェクトを備えた複雑な環境での自律運転に不可欠です。
視覚中心の方法は幾何学的な不正確さに悩まされていますが、LIDARベースのアプローチには豊富なセマンティック情報がしばしば欠けています。
これらの制限に対処するために、中期融合と後期融合を含む新しいマルチステージLidar-Camera融合フレームワークであるMS-OCCが提案され、Lidarの幾何学的忠実度と階層的なクロスモーダル融合によるカメラベースのセマンティックリッチネスを統合します。
このフレームワークは、2つの重要な段階でイノベーションを導入します。(1)中間段階の特徴の融合で、ガウス-GEOモジュールはガウスカーネルのレンダリングをレバレッジして、密集した幾何学的前症で2D画像機能を強化し、セマンティックアウェアモジュール豊富なライダーボクセルを介して、セマンティックモジュール豊富なライダーボクセルを備えた2D画像機能を強化します。
(2)後期ボクセル融合では、適応融合(AF)モジュールはモダリティ全体でボクセル機能を動的にバランスさせますが、高分格化信頼性ボクセル融合(HCCVF)モジュールは、自己触媒ベースの洗練を使用してセマンティックな矛盾を解決します。
ヌスセン閉鎖ベンチマークの実験では、MS-OCCが32.1%の結合(IOU)と25.3%の平均IOU(MIOU)の交差点を達成し、最先端を +0.7%IOUおよび +2.4%MIOUで上回ることが示されています。
アブレーション研究は、各モジュールの貢献度をさらに検証し、小型認知の知覚を大幅に改善し、安全性が批判的な自律運転シナリオのMS-OCCの実用的な価値を示しています。

要約(オリジナル)

Accurate 3D semantic occupancy perception is essential for autonomous driving in complex environments with diverse and irregular objects. While vision-centric methods suffer from geometric inaccuracies, LiDAR-based approaches often lack rich semantic information. To address these limitations, MS-Occ, a novel multi-stage LiDAR-camera fusion framework which includes middle-stage fusion and late-stage fusion, is proposed, integrating LiDAR’s geometric fidelity with camera-based semantic richness via hierarchical cross-modal fusion. The framework introduces innovations at two critical stages: (1) In the middle-stage feature fusion, the Gaussian-Geo module leverages Gaussian kernel rendering on sparse LiDAR depth maps to enhance 2D image features with dense geometric priors, and the Semantic-Aware module enriches LiDAR voxels with semantic context via deformable cross-attention; (2) In the late-stage voxel fusion, the Adaptive Fusion (AF) module dynamically balances voxel features across modalities, while the High Classification Confidence Voxel Fusion (HCCVF) module resolves semantic inconsistencies using self-attention-based refinement. Experiments on the nuScenes-OpenOccupancy benchmark show that MS-Occ achieves an Intersection over Union (IoU) of 32.1% and a mean IoU (mIoU) of 25.3%, surpassing the state-of-the-art by +0.7% IoU and +2.4% mIoU. Ablation studies further validate the contribution of each module, with substantial improvements in small-object perception, demonstrating the practical value of MS-Occ for safety-critical autonomous driving scenarios.

arxiv情報

著者 Zhiqiang Wei,Lianqing Zheng,Jianan Liu,Tao Huang,Qing-Long Han,Wenwen Zhang,Fengdeng Zhang
発行日 2025-04-22 13:33:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | MS-Occ: Multi-Stage LiDAR-Camera Fusion for 3D Semantic Occupancy Prediction はコメントを受け付けていません

RaSCL: Radar to Satellite Crossview Localization

要約

GNSSは信頼できず、不正確で、多くのリアルタイムの自律型フィールドアプリケーションでは不十分です。
この作業では、オーバーヘッドRGB画像で地上にイメージングレーダーを登録する方法を含むGNSSフリーグローバルローカリゼーションソリューションを提示し、臭気とグローバルなポーズからの相対的なポーズの共同最適化を備えています。
以前の作品では、地上センサーとオーバーヘッド画像のさまざまな組み合わせ、およびさまざまな特徴抽出とマッチング方法を使用していました。
これらには、オーバーヘッド画像から特徴を抽出するためのさまざまな手作りの深い学習ベースの方法が含まれます。
私たちの作品は、グランドレーダーと単一のジオリファレンスされた初期推測のみを使用して、オーバーヘッド画像に対する効果的なグローバルローカリゼーションのために、RGBオーバーヘッド画像から重要な機能を抽出することに関する洞察を示しています。
私たちは、無人の表面容器(USV)や都市および郊外の運転データセットを含む、多様な地理的条件やロボットプラットフォームのデータセットで評価を評価することで、その方法を動機付けます。

要約(オリジナル)

GNSS is unreliable, inaccurate, and insufficient in many real-time autonomous field applications. In this work, we present a GNSS-free global localization solution that contains a method of registering imaging radar on the ground with overhead RGB imagery, with joint optimization of relative poses from odometry and global poses from our overhead registration. Previous works have used various combinations of ground sensors and overhead imagery, and different feature extraction and matching methods. These include various handcrafted and deep-learning-based methods for extracting features from overhead imagery. Our work presents insights on extracting essential features from RGB overhead images for effective global localization against overhead imagery using only ground radar and a single georeferenced initial guess. We motivate our method by evaluating it on datasets in diverse geographic conditions and robotic platforms, including on an Unmanned Surface Vessel (USV) as well as urban and suburban driving datasets.

arxiv情報

著者 Blerim Abdullai,Tony Wang,Xinyuan Qiao,Florian Shkurti,Timothy D. Barfoot
発行日 2025-04-22 13:41:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | RaSCL: Radar to Satellite Crossview Localization はコメントを受け付けていません