APR-Transformer: Initial Pose Estimation for Localization in Complex Environments through Absolute Pose Regression

要約

正確な初期化は、特にロボット工学、自律運転、コンピュータービジョンのコンテキストで、ローカリゼーションアルゴリズムのパフォーマンスにおいて重要な役割を果たします。
局所化の精度が低いことは、多くの場合、GPS信号が主に初期化に依存しているGNSSによる環境で特に顕著である不正確な初期ポーズの結果です。
ポーズ回帰のために深いニューラルネットワークを活用する最近の進歩により、特に複雑な空間的関係と方向の推定において、精度と堅牢性の両方が大幅に改善されました。
この論文では、画像またはLIDARのデータを使用して絶対ポーズ(3D位置と3D方向)を予測する最先端の方法に触発されたモデルアーキテクチャであるAPRトランスフォーマーを紹介します。
提案された方法は、レーダーオックスフォードロボットカーやディープロックデータセットなどの確立されたベンチマークデータセットで最先端のパフォーマンスを達成することを実証します。
さらに、実験を拡張して、カスタムコンプレックスのAPR-Beintelliデータセットを含めます。
さらに、自律型テスト車両にモデルをリアルタイムで展開することにより、GNSSによる環境でのアプローチの信頼性を検証します。
これは、アプローチの実用的な実現可能性と有効性を示しています。
ソースコードは、https://github.com/gt-arc/apr-transformerで入手できます。

要約(オリジナル)

Precise initialization plays a critical role in the performance of localization algorithms, especially in the context of robotics, autonomous driving, and computer vision. Poor localization accuracy is often a consequence of inaccurate initial poses, particularly noticeable in GNSS-denied environments where GPS signals are primarily relied upon for initialization. Recent advances in leveraging deep neural networks for pose regression have led to significant improvements in both accuracy and robustness, especially in estimating complex spatial relationships and orientations. In this paper, we introduce APR-Transformer, a model architecture inspired by state-of-the-art methods, which predicts absolute pose (3D position and 3D orientation) using either image or LiDAR data. We demonstrate that our proposed method achieves state-of-the-art performance on established benchmark datasets such as the Radar Oxford Robot-Car and DeepLoc datasets. Furthermore, we extend our experiments to include our custom complex APR-BeIntelli dataset. Additionally, we validate the reliability of our approach in GNSS-denied environments by deploying the model in real-time on an autonomous test vehicle. This showcases the practical feasibility and effectiveness of our approach. The source code is available at:https://github.com/GT-ARC/APR-Transformer.

arxiv情報

著者 Srinivas Ravuri,Yuan Xu,Martin Ludwig Zehetner,Ketan Motlag,Sahin Albayrak
発行日 2025-05-14 13:06:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | APR-Transformer: Initial Pose Estimation for Localization in Complex Environments through Absolute Pose Regression はコメントを受け付けていません

Marigold: Affordable Adaptation of Diffusion-Based Image Generators for Image Analysis

要約

過去10年間のコンピュータービジョンにおける深い学習の成功は、大きなラベルのあるデータセットと強力な前提型モデルにかかっています。
データスカース設定では、これらの事前に守られたモデルの品質が効果的な転送学習に不可欠になります。
画像の分類と自己科学の学習は、伝統的にCNNおよび変圧器ベースのアーキテクチャを前提とする主要な方法でした。
最近、テキストから画像への生成モデル、特に潜在空間で拡散を除去するものを使用しているモデルの上昇は、大規模なキャプション付き画像データセットで訓練された新しいクラスの基礎モデルを導入しました。
これらのモデルの目に見えないコンテンツの現実的な画像を生成する能力は、視覚的な世界を深く理解していることを示唆しています。
この作業では、条件付き生成モデルのファミリーであるマリーゴールドと、安定した拡散のような前処理された潜在的拡散モデルから知識を抽出し、単眼の深さ推定、表面正常性の予測、内在性recomepositionなどの高密度の画像分析タスクに適応する微調整プロトコルを提示します。
マリーゴールドは、事前に訓練された潜在的拡散モデルのアーキテクチャの最小限の変更を必要とし、数日間にわたって単一のGPUで小さな合成データセットを備えた列車を必要とし、最先端のゼロショット一般化を実証します。
プロジェクトページ:https://marigoldcomputervision.github.io

要約(オリジナル)

The success of deep learning in computer vision over the past decade has hinged on large labeled datasets and strong pretrained models. In data-scarce settings, the quality of these pretrained models becomes crucial for effective transfer learning. Image classification and self-supervised learning have traditionally been the primary methods for pretraining CNNs and transformer-based architectures. Recently, the rise of text-to-image generative models, particularly those using denoising diffusion in a latent space, has introduced a new class of foundational models trained on massive, captioned image datasets. These models’ ability to generate realistic images of unseen content suggests they possess a deep understanding of the visual world. In this work, we present Marigold, a family of conditional generative models and a fine-tuning protocol that extracts the knowledge from pretrained latent diffusion models like Stable Diffusion and adapts them for dense image analysis tasks, including monocular depth estimation, surface normals prediction, and intrinsic decomposition. Marigold requires minimal modification of the pre-trained latent diffusion model’s architecture, trains with small synthetic datasets on a single GPU over a few days, and demonstrates state-of-the-art zero-shot generalization. Project page: https://marigoldcomputervision.github.io

arxiv情報

著者 Bingxin Ke,Kevin Qu,Tianfu Wang,Nando Metzger,Shengyu Huang,Bo Li,Anton Obukhov,Konrad Schindler
発行日 2025-05-14 13:07:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Marigold: Affordable Adaptation of Diffusion-Based Image Generators for Image Analysis はコメントを受け付けていません

RobustSpring: Benchmarking Robustness to Image Corruptions for Optical Flow, Scene Flow and Stereo

要約

光学フロー、シーンフロー、およびステレオビジョンアルゴリズムの標準ベンチマークは、一般に、騒音や雨などの腐敗を妨げるのではなく、モデルの精度に焦点を当てています。
したがって、このような現実世界の摂動に対するモデルの回復力は、ほとんど定量化されていません。
これに対処するために、光学フロー、シーンフロー、ステレオモデルの腐敗を画像化するための堅牢性を評価するための包括的なデータセットとベンチマークであるRobustSpringを提示します。
RobustSpringは、騒音、ぼやけ、色の変化、品質の劣化、および天候の歪みを含む20の異なる画像の腐敗を、高解像度のスプリングデータセットに時間、ステレオ、深度一貫性のある方法で適用し、挑戦的な条件を反映した20,000の破損した画像のスイートを作成します。
RobustSpringは、新しい腐敗の堅牢性メトリックを介してモデルの堅牢性の比較を可能にします。
スプリングベンチマークとの統合により、公開された2軸評価の精度と堅牢性の両方が可能になります。
初期モデルのキュレーションされた選択をベンチマークし、正確なモデルは必ずしも堅牢ではなく、堅牢性は腐敗の種類によって大きく異なることを観察します。
RobustSpringは、精度と回復力を組み合わせたモデルを育成するために、堅牢性を一流の市民として扱う新しいコンピュータービジョンベンチマークです。
https://spring-benchmark.orgで入手できます。

要約(オリジナル)

Standard benchmarks for optical flow, scene flow, and stereo vision algorithms generally focus on model accuracy rather than robustness to image corruptions like noise or rain. Hence, the resilience of models to such real-world perturbations is largely unquantified. To address this, we present RobustSpring, a comprehensive dataset and benchmark for evaluating robustness to image corruptions for optical flow, scene flow, and stereo models. RobustSpring applies 20 different image corruptions, including noise, blur, color changes, quality degradations, and weather distortions, in a time-, stereo-, and depth-consistent manner to the high-resolution Spring dataset, creating a suite of 20,000 corrupted images that reflect challenging conditions. RobustSpring enables comparisons of model robustness via a new corruption robustness metric. Integration with the Spring benchmark enables public two-axis evaluations of both accuracy and robustness. We benchmark a curated selection of initial models, observing that accurate models are not necessarily robust and that robustness varies widely by corruption type. RobustSpring is a new computer vision benchmark that treats robustness as a first-class citizen to foster models that combine accuracy with resilience. It will be available at https://spring-benchmark.org.

arxiv情報

著者 Jenny Schmalfuss,Victor Oei,Lukas Mehl,Madlen Bartsch,Shashank Agnihotri,Margret Keuper,Andrés Bruhn
発行日 2025-05-14 13:21:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | RobustSpring: Benchmarking Robustness to Image Corruptions for Optical Flow, Scene Flow and Stereo はコメントを受け付けていません

MAKE: Multi-Aspect Knowledge-Enhanced Vision-Language Pretraining for Zero-shot Dermatological Assessment

要約

皮膚診断は、視覚的特徴を特殊な臨床知識と統合する必要がある複雑なマルチモーダルチャレンジを表しています。
Vision-Language Pretraining(VLP)は高度な医療AIを持っていますが、皮膚科におけるその有効性は、テキストの長さの制約と構造化されたテキストの欠如によって制限されています。
このペーパーでは、ゼロショット皮膚科目のタスクのためのマルチアスペクトの知識強化視覚障害前削除フレームワークであるMakeを紹介します。
包括的な皮膚科学的説明には標準テキストの制約を超える複数の知識の側面が必要であることを認識して、我々のフレームワークは次のように紹介します。
事前に臨床的意義に基づいて、さまざまなサブキャプションに優先順位を付けます。
教育リソースから収集された403,563の皮膚画像テキストペアを事前に削除することにより、ゼロショット皮膚疾患分類、概念注釈、およびクロスモーダル検索タスク全体で8つのデータセットで最先端のVLPモデルを大幅に上回ります。
私たちのコードは、https://github.com/siyuanyan1/makeで公開されます。

要約(オリジナル)

Dermatological diagnosis represents a complex multimodal challenge that requires integrating visual features with specialized clinical knowledge. While vision-language pretraining (VLP) has advanced medical AI, its effectiveness in dermatology is limited by text length constraints and the lack of structured texts. In this paper, we introduce MAKE, a Multi-Aspect Knowledge-Enhanced vision-language pretraining framework for zero-shot dermatological tasks. Recognizing that comprehensive dermatological descriptions require multiple knowledge aspects that exceed standard text constraints, our framework introduces: (1) a multi-aspect contrastive learning strategy that decomposes clinical narratives into knowledge-enhanced sub-texts through large language models, (2) a fine-grained alignment mechanism that connects subcaptions with diagnostically relevant image features, and (3) a diagnosis-guided weighting scheme that adaptively prioritizes different sub-captions based on clinical significance prior. Through pretraining on 403,563 dermatological image-text pairs collected from education resources, MAKE significantly outperforms state-of-the-art VLP models on eight datasets across zero-shot skin disease classification, concept annotation, and cross-modal retrieval tasks. Our code will be made publicly available at https: //github.com/SiyuanYan1/MAKE.

arxiv情報

著者 Siyuan Yan,Xieji Li,Ming Hu,Yiwen Jiang,Zhen Yu,Zongyuan Ge
発行日 2025-05-14 13:24:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | MAKE: Multi-Aspect Knowledge-Enhanced Vision-Language Pretraining for Zero-shot Dermatological Assessment はコメントを受け付けていません

Gradient Attention Map Based Verification of Deep Convolutional Neural Networks with Application to X-ray Image Datasets

要約

ディープラーニングモデルは、歯科矯正や骨格の成熟度評価など、医療イメージングに大きな可能性があります。
ただし、トレーニングセットとは異なるデータにモデルを適用すると、患者のケアに影響を与える可能性のある信頼できない予測につながる可能性があります。
これに対処するために、複数の補完戦略を通じてモデルの適合性を評価する包括的な検証フレームワークを提案します。
まず、Gradient注意マップ(GAM)ベースのアプローチを導入し、Grad-CAMを使用して注意パターンを分析し、IOU、Diceの類似性、SSIM、Cosineの類似性、ピアソン相関、KL分岐、ワッサースタイン距離などの類似性メトリックを介して比較します。
第二に、検証を初期の畳み込み機能マップに拡張し、注意だけで見逃された構造的な誤整合をキャプチャします。
最後に、追加のごみクラスを分類モデルに組み込み、分散除外入力を明示的に拒否します。
実験結果は、これらの結合された方法が不適切なモデルと入力を効果的に識別し、医療イメージングにおける深い学習のより安全で信頼できる展開を促進することを示しています。

要約(オリジナル)

Deep learning models have great potential in medical imaging, including orthodontics and skeletal maturity assessment. However, applying a model to data different from its training set can lead to unreliable predictions that may impact patient care. To address this, we propose a comprehensive verification framework that evaluates model suitability through multiple complementary strategies. First, we introduce a Gradient Attention Map (GAM)-based approach that analyzes attention patterns using Grad-CAM and compares them via similarity metrics such as IoU, Dice Similarity, SSIM, Cosine Similarity, Pearson Correlation, KL Divergence, and Wasserstein Distance. Second, we extend verification to early convolutional feature maps, capturing structural mis-alignments missed by attention alone. Finally, we incorporate an additional garbage class into the classification model to explicitly reject out-of-distribution inputs. Experimental results demonstrate that these combined methods effectively identify unsuitable models and inputs, promoting safer and more reliable deployment of deep learning in medical imaging.

arxiv情報

著者 Omid Halimi Milani,Amanda Nikho,Lauren Mills,Marouane Tliba,Ahmet Enis Cetin,Mohammed H. Elnagar
発行日 2025-05-14 13:30:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, eess.IV | Gradient Attention Map Based Verification of Deep Convolutional Neural Networks with Application to X-ray Image Datasets はコメントを受け付けていません

Text-driven Motion Generation: Overview, Challenges and Directions

要約

テキスト駆動型のモーションジェネレーションは、自然言語から直接人間の動きを作成するための強力で直感的な方法を提供します。
事前定義されたモーション入力の必要性を削除することにより、アニメーション文字を制御するための柔軟でアクセス可能なアプローチを提供します。
これにより、バーチャルリアリティ、ゲーム、ヒューマンコンピューターの相互作用、ロボット工学などの分野で特に役立ちます。
このレビューでは、最初にモーション合成に関する従来の視点を再検討します。モデルは、しばしばアクションラベルを条件付けられた観測された初期シーケンスから将来のポーズを予測することに焦点を合わせました。
次に、最新のテキストからモーションの生成アプローチに関する包括的で構造化された調査を提供し、2つの補完的な観点から分類します。
(ii)モーション表現、離散および連続運動生成戦略を区別する。
さらに、この分野で進行状況を形作った最も広く使用されているデータセット、評価方法、および最近のベンチマークを探ります。
この調査により、この分野が現在の場所を把握し、その重要な課題と制限に注意を向け、将来の探求のための有望な方向性を強調することを目指しています。
この作品が、言語主導の人間の動きの統合の境界を押し広げるために働く研究者と実践者に貴重な出発点を提供することを願っています。

要約(オリジナル)

Text-driven motion generation offers a powerful and intuitive way to create human movements directly from natural language. By removing the need for predefined motion inputs, it provides a flexible and accessible approach to controlling animated characters. This makes it especially useful in areas like virtual reality, gaming, human-computer interaction, and robotics. In this review, we first revisit the traditional perspective on motion synthesis, where models focused on predicting future poses from observed initial sequences, often conditioned on action labels. We then provide a comprehensive and structured survey of modern text-to-motion generation approaches, categorizing them from two complementary perspectives: (i) architectural, dividing methods into VAE-based, diffusion-based, and hybrid models; and (ii) motion representation, distinguishing between discrete and continuous motion generation strategies. In addition, we explore the most widely used datasets, evaluation methods, and recent benchmarks that have shaped progress in this area. With this survey, we aim to capture where the field currently stands, bring attention to its key challenges and limitations, and highlight promising directions for future exploration. We hope this work offers a valuable starting point for researchers and practitioners working to push the boundaries of language-driven human motion synthesis.

arxiv情報

著者 Ali Rida Sahili,Najett Neji,Hedi Tabia
発行日 2025-05-14 13:33:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Text-driven Motion Generation: Overview, Challenges and Directions はコメントを受け付けていません

Examining Deployment and Refinement of the VIOLA-AI Intracranial Hemorrhage Model Using an Interactive NeoMedSys Platform

要約

背景:放射線学におけるAIツールの臨床展開には、多くの課題と機会があります。
現在の研究では、AIモデルの効率的な展開と改良性を可能にするNeomedsysと呼ばれる放射線ソフトウェアプラットフォームについて説明しています。
実際の臨床環境で3か月間Neomedsysを実行することの実現可能性と有効性を評価し、頭蓋内出血(ICH)検出のために設計された社内開発AIモデル(Viola-AI)の改善に焦点を当てました。
方法:NeomedSysは、Webベースの医療画像視聴者、注釈システム、および病院全体の放射線情報システムを使用してAIモデルを展開、テスト、および最適化するためのツールを統合します。
外傷性脳損傷(TBI)の疑いがあるノルウェー(SITE-1)または脳卒中の疑いがある患者(SITE-2)の患者に提示する患者の臨床症例を使用して、実用的な調査を展開しました。
Viola-AIが新しいデータに遭遇し、事前に計画されたモデル再訓練を受けたため、ICH分類パフォーマンスを評価しました。
パフォーマンスメトリックには、感度、特異性、精度、および受信機動作特性曲線(AUC)の下の領域が含まれます。
結果:NeomedsysはAIモデルの反復改善を促進し、診断の精度を大幅に向上させました。
自動化されたブリード検出とセグメンテーションは、ヴィオラAIの再訓練を促進するために、ほぼリアルタイムでレビューされました。
反復改良プロセスは、分類感度の著しい改善をもたらし、90.3%(79.2%から)、および89.3%(80.7%から)に達した特異性に上昇しました。
サンプル全体のブリード検出ROC分析により、0.949(0.873から)の高い面積(AUC)が示されました。
モデルの改良段階は、顕著な利益に関連しており、リアルタイムの放射線科医のフィードバックの価値を強調しています。

要約(オリジナル)

Background: There are many challenges and opportunities in the clinical deployment of AI tools in radiology. The current study describes a radiology software platform called NeoMedSys that can enable efficient deployment and refinements of AI models. We evaluated the feasibility and effectiveness of running NeoMedSys for three months in real-world clinical settings and focused on improvement performance of an in-house developed AI model (VIOLA-AI) designed for intracranial hemorrhage (ICH) detection. Methods: NeoMedSys integrates tools for deploying, testing, and optimizing AI models with a web-based medical image viewer, annotation system, and hospital-wide radiology information systems. A pragmatic investigation was deployed using clinical cases of patients presenting to the largest Emergency Department in Norway (site-1) with suspected traumatic brain injury (TBI) or patients with suspected stroke (site-2). We assessed ICH classification performance as VIOLA-AI encountered new data and underwent pre-planned model retraining. Performance metrics included sensitivity, specificity, accuracy, and the area under the receiver operating characteristic curve (AUC). Results: NeoMedSys facilitated iterative improvements in the AI model, significantly enhancing its diagnostic accuracy. Automated bleed detection and segmentation were reviewed in near real-time to facilitate re-training VIOLA-AI. The iterative refinement process yielded a marked improvement in classification sensitivity, rising to 90.3% (from 79.2%), and specificity that reached 89.3% (from 80.7%). The bleed detection ROC analysis for the entire sample demonstrated a high area-under-the-curve (AUC) of 0.949 (from 0.873). Model refinement stages were associated with notable gains, highlighting the value of real-time radiologist feedback.

arxiv情報

著者 Qinghui Liu,Jon Nesvold,Hanna Raaum,Elakkyen Murugesu,Martin Røvang,Bradley J Maclntosh,Atle Bjørnerud,Karoline Skogen
発行日 2025-05-14 13:33:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Examining Deployment and Refinement of the VIOLA-AI Intracranial Hemorrhage Model Using an Interactive NeoMedSys Platform はコメントを受け付けていません

FedSaaS: Class-Consistency Federated Semantic Segmentation via Global Prototype Supervision and Local Adversarial Harmonization

要約

フェデレーションセマンティックセグメンテーションにより、データプライバシーを維持しながら、共同学習を通じて画像のピクセルレベルの分類が可能になります。
ただし、既存の研究では、一般に、異種の問題、特にドメインシフトに対処する際に、セマンティックスペース内の細かいクラスの関係を見落としています。
この監視は、クラスの表現間の曖昧さをもたらします。
この課題を克服するために、Fedsaasと呼ばれるクラスの一貫性を打つ新しいフェデレーションセグメンテーションフレームワークを提案します。
具体的には、ローカルレベルとグローバルレベルのクラス表現の両方の基準としてクラスの模範を紹介します。
サーバー側では、アップロードされたクラスの模範は、クライアントのグローバルブランチを監督し、グローバルレベルの表現との整合を確保するクラスのプロトタイプをモデル化するように活用されます。
クライアント側では、グローバルおよびローカルブランチの貢献を調和させるための敵対的なメカニズムを組み込み、一貫した出力につながります。
さらに、同じセマンティックスペースの2レベルの表現間の一貫性を実施するために、両側でマルチレベルの対照損失が採用されています。
いくつかの運転シーンセグメンテーションデータセットでの広範な実験は、当社のフレームワークが最先端の方法を上回り、平均セグメンテーションの精度を大幅に改善し、クラスコンシスタンシー表現の問題に効果的に対処することを示しています。

要約(オリジナル)

Federated semantic segmentation enables pixel-level classification in images through collaborative learning while maintaining data privacy. However, existing research commonly overlooks the fine-grained class relationships within the semantic space when addressing heterogeneous problems, particularly domain shift. This oversight results in ambiguities between class representation. To overcome this challenge, we propose a novel federated segmentation framework that strikes class consistency, termed FedSaaS. Specifically, we introduce class exemplars as a criterion for both local- and global-level class representations. On the server side, the uploaded class exemplars are leveraged to model class prototypes, which supervise global branch of clients, ensuring alignment with global-level representation. On the client side, we incorporate an adversarial mechanism to harmonize contributions of global and local branches, leading to consistent output. Moreover, multilevel contrastive losses are employed on both sides to enforce consistency between two-level representations in the same semantic space. Extensive experiments on several driving scene segmentation datasets demonstrate that our framework outperforms state-of-the-art methods, significantly improving average segmentation accuracy and effectively addressing the class-consistency representation problem.

arxiv情報

著者 Xiaoyang Yu,Xiaoming Wu,Xin Wang,Dongrun Li,Ming Yang,Peng Cheng
発行日 2025-05-14 13:38:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | FedSaaS: Class-Consistency Federated Semantic Segmentation via Global Prototype Supervision and Local Adversarial Harmonization はコメントを受け付けていません

Efficient approximation of Earth Mover’s Distance Based on Nearest Neighbor Search

要約

Earth Moverの距離(EMD)は、コンピュータービジョンと他の多くのアプリケーションドメインで使用される2つの分布の間の重要な類似性尺度です。
ただし、その正確な計算は計算的かつメモリ集約的であり、大規模な問題に対するスケーラビリティと適用性を妨げます。
計算コストを削減するために、さまざまな近似EMDアルゴリズムが提案されていますが、それらはより低い精度に苦しんでおり、追加のメモリ使用法または手動パラメーターチューニングが必要になる場合があります。
この論文では、高精度、低時間の複雑さ、および高いメモリ効率を達成するために、最近隣接検索(NNS)を使用してEMDを近似する新しいアプローチNNS-EMDを提示します。
NNS操作は、各NNS反復で比較されるデータポイントの数を減らし、並列処理の機会を提供します。
さらに、GPU上のベクトル化を介してNNS-EMDを加速します。これは、大規模なデータセットにとって特に有益です。
NNS-EMDを、画像分類および検索タスクに関する正確なEMDおよび最先端の近似EMDアルゴリズムの両方と比較します。
また、NNS-EMDを適用して、トランスポートマッピングを計算し、画像間の色の伝達を実現します。
NNS-EMDは、正確なEMD実装よりも44倍から135倍高速になり、既存の近似EMDメソッドよりも優れた精度、スピードアップ、およびメモリ効率を達成できます。

要約(オリジナル)

Earth Mover’s Distance (EMD) is an important similarity measure between two distributions, used in computer vision and many other application domains. However, its exact calculation is computationally and memory intensive, which hinders its scalability and applicability for large-scale problems. Various approximate EMD algorithms have been proposed to reduce computational costs, but they suffer lower accuracy and may require additional memory usage or manual parameter tuning. In this paper, we present a novel approach, NNS-EMD, to approximate EMD using Nearest Neighbor Search (NNS), in order to achieve high accuracy, low time complexity, and high memory efficiency. The NNS operation reduces the number of data points compared in each NNS iteration and offers opportunities for parallel processing. We further accelerate NNS-EMD via vectorization on GPU, which is especially beneficial for large datasets. We compare NNS-EMD with both the exact EMD and state-of-the-art approximate EMD algorithms on image classification and retrieval tasks. We also apply NNS-EMD to calculate transport mapping and realize color transfer between images. NNS-EMD can be 44x to 135x faster than the exact EMD implementation, and achieves superior accuracy, speedup, and memory efficiency over existing approximate EMD methods.

arxiv情報

著者 Guangyu Meng,Ruyu Zhou,Liu Liu,Peixian Liang,Fang Liu,Danny Chen,Michael Niemier,X. Sharon Hu
発行日 2025-05-14 13:38:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Efficient approximation of Earth Mover’s Distance Based on Nearest Neighbor Search はコメントを受け付けていません

UMotion: Uncertainty-driven Human Motion Estimation from Inertial and Ultra-wideband Units

要約

スパースウェアラブル慣性測定ユニット(IMUS)は、3Dヒトの動きを推定するために人気を博しています。
ただし、あいまいさ、データドリフト、多様な身体への限定的な適応性などの課題は持続します。
これらの問題に対処するために、IMUを備えた6つの統合された身体装飾ウルトラワイドバンド(UWB)距離センサーによってサポートされている、3Dの人間の形状とポーズ推定のための不確実なオンラインの融合推定フレームワークであるUMotionを提案します。
UWBセンサーは、ノード間距離を測定して空間的関係を推測し、人体測定データと組み合わせると、ポーズのあいまいさと体の形状の変動を解決するのを支援します。
残念ながら、IMUSはドリフトする傾向があり、UWBセンサーはボディオクロシオンの影響を受けます。
その結果、センサーデータから不確実性を融合し、個々の体型に基づいて人間の動きを推定する緊密に結合されていないカルマンフィルター(UKF)フレームワークを開発します。
UKFは、IMUおよびUWB測定をリアルタイムの不確実な人間の動きの制約と整列させることにより、IMUおよびUWB測定を繰り返し洗練し、それぞれに最適な推定値を生成します。
合成データセットと現実世界の両方のデータセットでの実験は、センサーデータを安定化するにおけるUMotionの有効性と、ポーズの精度の最先端の改善を示しています。

要約(オリジナル)

Sparse wearable inertial measurement units (IMUs) have gained popularity for estimating 3D human motion. However, challenges such as pose ambiguity, data drift, and limited adaptability to diverse bodies persist. To address these issues, we propose UMotion, an uncertainty-driven, online fusing-all state estimation framework for 3D human shape and pose estimation, supported by six integrated, body-worn ultra-wideband (UWB) distance sensors with IMUs. UWB sensors measure inter-node distances to infer spatial relationships, aiding in resolving pose ambiguities and body shape variations when combined with anthropometric data. Unfortunately, IMUs are prone to drift, and UWB sensors are affected by body occlusions. Consequently, we develop a tightly coupled Unscented Kalman Filter (UKF) framework that fuses uncertainties from sensor data and estimated human motion based on individual body shape. The UKF iteratively refines IMU and UWB measurements by aligning them with uncertain human motion constraints in real-time, producing optimal estimates for each. Experiments on both synthetic and real-world datasets demonstrate the effectiveness of UMotion in stabilizing sensor data and the improvement over state of the art in pose accuracy.

arxiv情報

著者 Huakun Liu,Hiroki Ota,Xin Wei,Yutaro Hirao,Monica Perusquia-Hernandez,Hideaki Uchiyama,Kiyoshi Kiyokawa
発行日 2025-05-14 13:48:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.GR | UMotion: Uncertainty-driven Human Motion Estimation from Inertial and Ultra-wideband Units はコメントを受け付けていません