Joint Reconstruction of Spatially-Coherent and Realistic Clothed Humans and Objects from a Single Image

要約

人間の形学習における最近の進歩は、シングルビュー画像からの正確な人間の再構築を達成することに焦点を合わせてきました。
しかし、現実の世界では、人間は他のオブジェクトと空間を共有しています。
人間と物との画像の再構築は、閉塞と3D空間的認識の欠如のために挑戦的であり、再建の深さのあいまいさにつながります。
単眼のヒトオブジェクトの再構築における既存の方法は、テンプレートベースの性質のために、衣服を着た人体と物体表面の複雑な詳細をキャプチャできません。
この論文では、ヒトオブジェクトの閉塞に対処しながら、シングルビュー画像から空間的にコヒーレントな方法で服を着た人間とオブジェクトを共同で再構築します。
新しい注意ベースのニューラル暗黙モデルが提案されています。画像ピクセルアライメントをレバレッジして高品質の詳細を取得し、3D空間認識を可能にするためにヒトオブジェクトのポーズから抽出されたセマンティック機能を組み込みます。
生成拡散モデルは、ヒトオブジェクトの閉塞を処理するために使用されます。
トレーニングと評価のために、閉塞中の3Dヒトスキャンと多様なオブジェクトのレンダリングされたシーンを備えた合成データセットを導入します。
合成データセットと実際のデータセットの両方での広範な評価は、競争力のある方法よりも提案されている人間とオブジェクトの再構成の優れた品質を示しています。

要約(オリジナル)

Recent advances in human shape learning have focused on achieving accurate human reconstruction from single-view images. However, in the real world, humans share space with other objects. Reconstructing images with humans and objects is challenging due to the occlusions and lack of 3D spatial awareness, which leads to depth ambiguity in the reconstruction. Existing methods in monocular human-object reconstruction fail to capture intricate details of clothed human bodies and object surfaces due to their template-based nature. In this paper, we jointly reconstruct clothed humans and objects in a spatially coherent manner from single-view images, while addressing human-object occlusions. A novel attention-based neural implicit model is proposed that leverages image pixel alignment to retrieve high-quality details, and incorporates semantic features extracted from the human-object pose to enable 3D spatial awareness. A generative diffusion model is used to handle human-object occlusions. For training and evaluation, we introduce a synthetic dataset with rendered scenes of inter-occluded 3D human scans and diverse objects. Extensive evaluation on both synthetic and real datasets demonstrates the superior quality of proposed human-object reconstructions over competitive methods.

arxiv情報

著者 Ayushi Dutta,Marco Pesavento,Marco Volino,Adrian Hilton,Armin Mustafa
発行日 2025-02-25 12:26:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Joint Reconstruction of Spatially-Coherent and Realistic Clothed Humans and Objects from a Single Image はコメントを受け付けていません

CausalDiff: Causality-Inspired Disentanglement via Diffusion Model for Adversarial Defense

要約

神経分類器を敵対的攻撃から守るための継続的な努力にもかかわらず、それらは、特に目に見えない攻撃に対して脆弱なままです。
対照的に、私たちは本質的な要因に基づいて判断を下すため、人間は微妙な操作によってだまされることは困難です。
この観察に触発されて、私たちはレーベル生成を本質的にラベルと音響的要因でモデル化し、データ生成を支援するためにラベルなしの因果要因を組み込みます。
敵対的な例については、摂動を非呼吸因子として区別し、ラベルの因果要因に基づいてのみ予測を行うことを目指しています。
具体的には、条件付きデータ生成に拡散モデルを適応させるカジュアルな拡散モデル(Causaldiff)を提案し、新しいカジュアルな情報ボトルネックの目的に向けて学習することにより、2種類のカジュアルな要因を解き放つことを提案します。
経験的に、Causaldiffは、さまざまな目に見えない攻撃で最先端の防衛方法を大幅に上回っており、CIFAR-10で86.39%(+4.01%)の平均堅牢性を達成し、CIFAR-100で56.25%(+3.13%)、およびCIFAR-100で達成しました。
GTSRBの82.62%(+4.93%)(ドイツの交通標識認識ベンチマーク)。
このコードは、https://github.com/cas-aisafetybasicresearchgroup/causaldiffで入手できます。

要約(オリジナル)

Despite ongoing efforts to defend neural classifiers from adversarial attacks, they remain vulnerable, especially to unseen attacks. In contrast, humans are difficult to be cheated by subtle manipulations, since we make judgments only based on essential factors. Inspired by this observation, we attempt to model label generation with essential label-causative factors and incorporate label-non-causative factors to assist data generation. For an adversarial example, we aim to discriminate the perturbations as non-causative factors and make predictions only based on the label-causative factors. Concretely, we propose a casual diffusion model (CausalDiff) that adapts diffusion models for conditional data generation and disentangles the two types of casual factors by learning towards a novel casual information bottleneck objective. Empirically, CausalDiff has significantly outperformed state-of-the-art defense methods on various unseen attacks, achieving an average robustness of 86.39% (+4.01%) on CIFAR-10, 56.25% (+3.13%) on CIFAR-100, and 82.62% (+4.93%) on GTSRB (German Traffic Sign Recognition Benchmark). The code is available at https://github.com/CAS-AISafetyBasicResearchGroup/CausalDiff.

arxiv情報

著者 Mingkun Zhang,Keping Bi,Wei Chen,Quanrun Chen,Jiafeng Guo,Xueqi Cheng
発行日 2025-02-25 12:32:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | CausalDiff: Causality-Inspired Disentanglement via Diffusion Model for Adversarial Defense はコメントを受け付けていません

CheXalign: Preference fine-tuning in chest X-ray interpretation models without human feedback

要約

放射線科医は、医療画像を実用的な報告に変換する上で重要な役割を果たします。
ただし、フィールドは人員配置の不足とワークロードの増加に直面しています。
Vision-Language Models(VLMS)を使用した自動化されたアプローチは、アシスタントとしての可能性を示していますが、非常に高い精度が必要です。
放射線学のほとんどの現在のVLMは、監視された微調整のみに依存しています。
一方、トレーニング後のパイプラインでの追加の優先微調整は、一般的なドメインで標準的な慣行となっています。
放射線学の課題は、大規模に放射線科医のフィードバックを得るための法外なコストにあります。
この課題に対処するために、胸部X線放射線レポートの生成(RRG)に焦点を当てて、優先フィードバックのための自動パイプラインを提案します。
具体的には、この方法では、画像のペアと放射線科医が作成した参照レポートを含む公的に利用可能なデータセットを参照ベースのメトリックまたは審査員とともに活用して、追加の放射線科医のフィードバックの必要性を排除します。
この設定での長さの活用を介して過剰な最適化の報酬を調査し、グリーンスコアの長さ制御バージョンを導入します。
当社の最高のパフォーマンスのセットアップは、RRGタスクのMIMIC-CXRデータセットで最先端のChexbertスコアを達成し、平均して6つの追加の画像認識と推論タスクにわたって堅牢なパフォーマンスを維持します。

要約(オリジナル)

Radiologists play a crucial role in translating medical images into actionable reports. However, the field faces staffing shortages and increasing workloads. While automated approaches using vision-language models (VLMs) show promise as assistants, they require exceptionally high accuracy. Most current VLMs in radiology rely solely on supervised fine-tuning. Meanwhile, additional preference fine-tuning in the post-training pipeline has become standard practice in the general domain. The challenge in radiology lies in the prohibitive cost of obtaining radiologist feedback at scale. To address this challenge, we propose an automated pipeline for preference feedback, focusing on chest X-ray radiology report generation (RRG). Specifically, our method leverages publicly available datasets containing pairs of images and radiologist-written reference reports with reference-based metrics, or Judges, eliminating the need for additional radiologist feedback. We investigate reward overoptimization via length exploitation in this setting and introduce a length-controlled version of the GREEN score. Our best-performing setup achieves state-of-the-art CheXbert scores on the MIMIC-CXR dataset for the RRG task while on average maintaining robust performance across six additional image perception and reasoning tasks.

arxiv情報

著者 Dennis Hein,Zhihong Chen,Sophie Ostmeier,Justin Xu,Maya Varma,Eduardo Pontes Reis,Arne Edward Michalson,Christian Bluethgen,Hyun Joo Shin,Curtis Langlotz,Akshay S Chaudhari
発行日 2025-02-25 12:35:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | CheXalign: Preference fine-tuning in chest X-ray interpretation models without human feedback はコメントを受け付けていません

Monitoring snow avalanches from SAR data with deep learning

要約

雪の雪崩は、特に山岳地帯での人間の生活とインフラストラクチャに重大なリスクをもたらし、効果的な監視が重要になります。
フィールド観測などの従来の監視方法は、アクセシビリティ、気象条件、コストによって制限されます。
衛星媒介合成開口レーダー(SAR)データは、すべての気象条件や遠隔地でデータをキャプチャできるため、大規模な雪崩検出のための重要なツールとなっています。
ただし、従来の処理方法は、雪崩の複雑さと変動に苦しんでいます。
この章では、SARデータから雪の雪崩を検出およびセグメント化するための深い学習の適用をレビューします。
SAR画像のバイナリ分類に焦点を当てた初期の取り組みは、最近の進歩によりピクセルレベルのセグメンテーションを可能にし、より高い精度と空間分解能を提供しました。
Sentinel-1 SARデータを使用したケーススタディは、雪崩セグメンテーションのための深い学習モデルの有効性を示しており、従来の方法よりも優れた結果を達成しています。
また、この作業の拡張機能を提示し、4,500を超える注釈付きSAR画像の拡張データセットで最近の最先端のセグメンテーションアーキテクチャをテストします。
テストされたものの中で最良のパフォーマンスモデルは、ノルウェー全体で大規模な雪崩検出に適用され、いくつかの冬の季節にわたって重要な空間的および時間的パターンを明らかにしました。

要約(オリジナル)

Snow avalanches present significant risks to human life and infrastructure, particularly in mountainous regions, making effective monitoring crucial. Traditional monitoring methods, such as field observations, are limited by accessibility, weather conditions, and cost. Satellite-borne Synthetic Aperture Radar (SAR) data has become an important tool for large-scale avalanche detection, as it can capture data in all weather conditions and across remote areas. However, traditional processing methods struggle with the complexity and variability of avalanches. This chapter reviews the application of deep learning for detecting and segmenting snow avalanches from SAR data. Early efforts focused on the binary classification of SAR images, while recent advances have enabled pixel-level segmentation, providing greater accuracy and spatial resolution. A case study using Sentinel-1 SAR data demonstrates the effectiveness of deep learning models for avalanche segmentation, achieving superior results over traditional methods. We also present an extension of this work, testing recent state-of-the-art segmentation architectures on an expanded dataset of over 4,500 annotated SAR images. The best-performing model among those tested was applied for large-scale avalanche detection across the whole of Norway, revealing important spatial and temporal patterns over several winter seasons.

arxiv情報

著者 Filippo Maria Bianchi,Jakob Grahn
発行日 2025-02-25 12:41:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, eess.IV | Monitoring snow avalanches from SAR data with deep learning はコメントを受け付けていません

SPDGAN: A Generative Adversarial Network based on SPD Manifold Learning for Automatic Image Colorization

要約

このペーパーでは、グレースケールの画像を色付けされた画像に変換する自動色の問題に対処します。
最近のディープラーニングアプローチは、グレースケールの画像を自動的に色付けすることができます。
ただし、異なる色のスタイルを含むさまざまなシーンに関しては、色の特性を正確にキャプチャすることは困難です。
この作業では、色付けの結果の品質を改善する生成的敵対的ネットワーク(SPDGAN)を使用した対称陽性の明確な(SPD)マニホールド学習に基づく完全に自動カラー化アプローチを提案します。
SPDGANモデルは、2つの判別器とジェネレーターの間に敵対的なゲームを確立します。
後者は、変更がほとんどないResnetアーキテクチャに基づいています。
その目標は、残留接続を介してレイヤー全体で色情報を失うことなく、偽の色付き画像を生成することです。
次に、異なるドメインから2つの判別器を使用します。
最初のものは画像ピクセルドメインに充てられ、2番目のものは色の不整合を回避するのに役立つRiemannマニホールドドメインに捧げられます。
Places365およびCOCO積みのデータベースで広範な実験が行われ、SPDGANの各コンポーネントの効果をテストします。
さらに、最先端の方法との定量的および定性的比較は、視覚的にアーティファクトを少なくし、PSNR、SSIM、およびFID値の良好な結果を備えたより現実的な色付けされた画像を達成することにより、モデルの有効性を示しています。

要約(オリジナル)

This paper addresses the automatic colorization problem, which converts a gray-scale image to a colorized one. Recent deep-learning approaches can colorize automatically grayscale images. However, when it comes to different scenes which contain distinct color styles, it is difficult to accurately capture the color characteristics. In this work, we propose a fully automatic colorization approach based on Symmetric Positive Definite (SPD) Manifold Learning with a generative adversarial network (SPDGAN) that improves the quality of the colorization results. Our SPDGAN model establishes an adversarial game between two discriminators and a generator. The latter is based on ResNet architecture with few alterations. Its goal is to generate fake colorized images without losing color information across layers through residual connections. Then, we employ two discriminators from different domains. The first one is devoted to the image pixel domain, while the second one is to the Riemann manifold domain which helps to avoid color misalignment. Extensive experiments are conducted on the Places365 and COCO-stuff databases to test the effect of each component of our SPDGAN. In addition, quantitative and qualitative comparisons with state-of-the-art methods demonstrate the effectiveness of our model by achieving more realistic colorized images with less artifacts visually, and good results of PSNR, SSIM, and FID values.

arxiv情報

著者 Youssef Mourchid,Marc Donias,Yannick Berthoumieu,Mohamed Najim
発行日 2025-02-25 12:42:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | SPDGAN: A Generative Adversarial Network based on SPD Manifold Learning for Automatic Image Colorization はコメントを受け付けていません

Machine Learning and Feature Ranking for Impact Fall Detection Event Using Multisensor Data

要約

個人、特に高齢者の間の転倒は、重傷や合併症につながる可能性があります。
秋のイベント内の衝撃モーメントを検出することは、タイムリーな支援を提供し、マイナスの結果を最小限に抑えるために重要です。
この作業では、徹底的な前処理技術をマルチセンサーデータセットに適用することにより、この課題に対処することを目指しています。目標は、ノイズを排除し、データの品質を向上させることです。
さらに、機能選択プロセスを採用して、マルチセンサーのアップフォールデータセットから派生した最も関連性の高い機能を特定し、機械学習モデルのパフォーマンスと効率を高めます。
次に、複数のセンサーから得られたデータ情報を使用して、衝撃モーメントを検出する際に、さまざまな機械学習モデルの効率を評価します。
広範な実験を通じて、さまざまな評価メトリックを使用してアプローチの精度を評価します。
私たちの結果は、衝撃検出における高精度率を達成し、転倒検出タスクのマルチセンサーデータを活用する力を示しています。
これは、転倒検出システムを強化し、転倒の危険にさらされている個人の全体的な安全性と幸福を改善するためのアプローチの可能性を強調しています。

要約(オリジナル)

Falls among individuals, especially the elderly population, can lead to serious injuries and complications. Detecting impact moments within a fall event is crucial for providing timely assistance and minimizing the negative consequences. In this work, we aim to address this challenge by applying thorough preprocessing techniques to the multisensor dataset, the goal is to eliminate noise and improve data quality. Furthermore, we employ a feature selection process to identify the most relevant features derived from the multisensor UP-FALL dataset, which in turn will enhance the performance and efficiency of machine learning models. We then evaluate the efficiency of various machine learning models in detecting the impact moment using the resulting data information from multiple sensors. Through extensive experimentation, we assess the accuracy of our approach using various evaluation metrics. Our results achieve high accuracy rates in impact detection, showcasing the power of leveraging multisensor data for fall detection tasks. This highlights the potential of our approach to enhance fall detection systems and improve the overall safety and well-being of individuals at risk of falls.

arxiv情報

著者 Tresor Y. Koffi,Youssef Mourchid,Mohammed Hindawi,Yohan Dupuis
発行日 2025-02-25 13:05:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, eess.SP | Machine Learning and Feature Ranking for Impact Fall Detection Event Using Multisensor Data はコメントを受け付けていません

Sewer Image Super-Resolution with Depth Priors and Its Lightweight Network

要約

クイックビュー(QV)手法は、下水道システム内の欠陥を検出するための主要な方法として機能します。
ただし、QVの有効性は、そのハードウェアの視覚範囲が限られているため、下水道ネットワークの遠い部分の最適ではない画質をもたらします。
画像の超解像度は、画質を向上させる効果的な方法であり、さまざまなシーンで適用されています。
ただし、下水道画像の超解像度に関する研究は、かなり未開拓のままです。
これに応じて、この研究では、QV画像内に存在する固有の深さ関係を活用し、DSRNETとして示される新しい深度誘導ベースのスーパー解像度フレームワークを導入します。
深度抽出モジュールと深度情報マッチングモジュール(DMM)の2つのコアコンポーネントで構成されています。
DSRNETは、低解像度画像の隣接するフレームを参照画像として使用し、相関に基づいてテクスチャ情報を回復するのに役立ちます。
これらのモジュールを組み合わせることにより、深度プライアーの統合により、視覚品質とパフォーマンスの両方のベンチマークが大幅に向上します。
その上、計算効率とコンパクトさを追求するために、注意メカニズムに基づく超解像度の知識蒸留モデルが導入されます。
このメカニズムは、より複雑な教師モデルと合理化された学生モデルの間の特徴の類似性の獲得を促進し、後者はDSRNETの軽量バージョンです。
実験結果は、DSRNETが他の方法と比較してPSNRおよびSSIMを大幅に改善することを示しています。
この研究では、パイプデータセットと下水道MLデータセットの下水道欠陥セマンティックセグメンテーション、オブジェクト検出、および分類に関する実験も実施しています。
実験は、この方法がこれらのタスクで低解像度下水道画像のパフォーマンスを改善できることを示しています。

要約(オリジナル)

The Quick-view (QV) technique serves as a primary method for detecting defects within sewerage systems. However, the effectiveness of QV is impeded by the limited visual range of its hardware, resulting in suboptimal image quality for distant portions of the sewer network. Image super-resolution is an effective way to improve image quality and has been applied in a variety of scenes. However, research on super-resolution for sewer images remains considerably unexplored. In response, this study leverages the inherent depth relationships present within QV images and introduces a novel Depth-guided, Reference-based Super-Resolution framework denoted as DSRNet. It comprises two core components: a depth extraction module and a depth information matching module (DMM). DSRNet utilizes the adjacent frames of the low-resolution image as reference images and helps them recover texture information based on the correlation. By combining these modules, the integration of depth priors significantly enhances both visual quality and performance benchmarks. Besides, in pursuit of computational efficiency and compactness, a super-resolution knowledge distillation model based on an attention mechanism is introduced. This mechanism facilitates the acquisition of feature similarity between a more complex teacher model and a streamlined student model, with the latter being a lightweight version of DSRNet. Experimental results demonstrate that DSRNet significantly improves PSNR and SSIM compared with other methods. This study also conducts experiments on sewer defect semantic segmentation, object detection, and classification on the Pipe dataset and Sewer-ML dataset. Experiments show that the method can improve the performance of low-resolution sewer images in these tasks.

arxiv情報

著者 Gang Pan,Chen Wang,Zhijie Sui,Shuai Guo,Yaozhi Lv,Honglie Li,Di Sun,Zixia Xia
発行日 2025-02-25 13:06:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | Sewer Image Super-Resolution with Depth Priors and Its Lightweight Network はコメントを受け付けていません

CLIPure: Purification in Latent Space via CLIP for Adversarially Robust Zero-Shot Classification

要約

この論文では、敵対的に堅牢なゼロショット画像分類子を構築することを目指しています。
私たちは、画像をテキストプロンプト「a 」と一致させることでゼロショット分類を実行できるビジョン言語の事前訓練を受けたエンコーダーモデルであるClipの作業を接地します。
浄化は、特定の攻撃タイプに関する敵対的なトレーニングを必要とせず、したがって、予見された攻撃に対処できるため、私たちが選択する道です。
次に、双方向の確率的微分方程式(SDE)を介して、逆境サンプルを除去する精製プロセスと摂動を良性サンプルに追加する攻撃プロセスの間のKLの発散として精製リスクを定式化します。
最終的な結果は、クリップのマルチモーダル潜在スペースの浄化を探求するように促します。
クリピアアプローチの2つのバリエーションを提案します。Imagesの潜在性モジュールを使用して画像の潜在性ベクトルの可能性をモデル化するClipure-diff(クリップの潜在ベクトルの生成プロセスのモデリング)と、尤度をモデル化するクリップアコス
画像の埋め込みと「Aの写真」の間のコサインの類似性。
私たちが知る限り、クリプレットはマルチモーダル潜在スペースの最初の精製方法であり、クリプレットCOSは生成モデルに基づいていない最初の精製方法であり、防御効率を大幅に改善します。
CIFAR-10、Imagenet、および13のデータセットで、ゼロショット分類の堅牢性の評価に使用された以前のクリップベースの防御方法について、広範な実験を実施しました。
結果は、クリピアがSOTAの堅牢性を大きなマージン、たとえばCIFAR10で71.7%から91.1%、ImagENETで59.6%から72.6%、前のSOTAにわたる13のデータセットで平均堅牢性の108%の相対的な改善を大きなマージンで高めることを示しています。
このコードは、https://github.com/tmlresearchgroup-cas/clipureで入手できます。

要約(オリジナル)

In this paper, we aim to build an adversarially robust zero-shot image classifier. We ground our work on CLIP, a vision-language pre-trained encoder model that can perform zero-shot classification by matching an image with text prompts “a photo of a .”. Purification is the path we choose since it does not require adversarial training on specific attack types and thus can cope with any foreseen attacks. We then formulate purification risk as the KL divergence between the joint distributions of the purification process of denoising the adversarial samples and the attack process of adding perturbations to benign samples, through bidirectional Stochastic Differential Equations (SDEs). The final derived results inspire us to explore purification in the multi-modal latent space of CLIP. We propose two variants for our CLIPure approach: CLIPure-Diff which models the likelihood of images’ latent vectors with the DiffusionPrior module in DaLLE-2 (modeling the generation process of CLIP’s latent vectors), and CLIPure-Cos which models the likelihood with the cosine similarity between the embeddings of an image and “a photo of a.”. As far as we know, CLIPure is the first purification method in multi-modal latent space and CLIPure-Cos is the first purification method that is not based on generative models, which substantially improves defense efficiency. We conducted extensive experiments on CIFAR-10, ImageNet, and 13 datasets that previous CLIP-based defense methods used for evaluating zero-shot classification robustness. Results show that CLIPure boosts the SOTA robustness by a large margin, e.g., from 71.7% to 91.1% on CIFAR10, from 59.6% to 72.6% on ImageNet, and 108% relative improvements of average robustness on the 13 datasets over previous SOTA. The code is available at https://github.com/TMLResearchGroup-CAS/CLIPure.

arxiv情報

著者 Mingkun Zhang,Keping Bi,Wei Chen,Jiafeng Guo,Xueqi Cheng
発行日 2025-02-25 13:09:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | CLIPure: Purification in Latent Space via CLIP for Adversarially Robust Zero-Shot Classification はコメントを受け付けていません

MR-STGN: Multi-Residual Spatio Temporal Graph Network Using Attention Fusion for Patient Action Assessment

要約

患者の行動の正確な評価は、疾患の進行の監視と治療の有効性に大きく貢献するため、医療において重要な役割を果たします。
ただし、患者の行動を評価するための従来のアプローチは、多くの場合、主観的で時間がかかる手動での観察とスコアリングに依存しています。
このホワイトペーパーでは、角度3Dスケルトンと位置的3Dスケルトンの両方を組み込んだ多residual Spatio時間グラフネットワーク(MR-STGN)を使用して、患者のアクション評価のための自動化されたアプローチを提案します。
MR-STGNは、患者の作用の時空間的ダイナミクスをキャプチャするように特別に設計されています。
これは、複数の残差レイヤーからの情報を統合し、各レイヤーが異なるレベルの抽象化で特徴を抽出することにより、これを達成します。
さらに、注意融合メカニズムをネットワークに統合し、さまざまな機能の適応重みを促進します。
これにより、モデルは患者の動きの最も適切な側面に集中する権限を与え、注意を必要とする特定の身体部分または動きに関する正確な指示を提供します。
アブレーション研究は、提案されたモデル内の個々のコンポーネントの影響を分析するために実施されます。
UI-PRMDデータセットでモデルを評価し、リアルタイムの患者アクションスコアを正確に予測し、最先端の方法を上回るパフォーマンスを実証します。

要約(オリジナル)

Accurate assessment of patient actions plays a crucial role in healthcare as it contributes significantly to disease progression monitoring and treatment effectiveness. However, traditional approaches to assess patient actions often rely on manual observation and scoring, which are subjective and time-consuming. In this paper, we propose an automated approach for patient action assessment using a Multi-Residual Spatio Temporal Graph Network (MR-STGN) that incorporates both angular and positional 3D skeletons. The MR-STGN is specifically designed to capture the spatio-temporal dynamics of patient actions. It achieves this by integrating information from multiple residual layers, with each layer extracting features at distinct levels of abstraction. Furthermore, we integrate an attention fusion mechanism into the network, which facilitates the adaptive weighting of various features. This empowers the model to concentrate on the most pertinent aspects of the patient’s movements, offering precise instructions regarding specific body parts or movements that require attention. Ablation studies are conducted to analyze the impact of individual components within the proposed model. We evaluate our model on the UI-PRMD dataset demonstrating its performance in accurately predicting real-time patient action scores, surpassing state-of-the-art methods.

arxiv情報

著者 Youssef Mourchid,Rim Slama
発行日 2025-02-25 13:16:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | MR-STGN: Multi-Residual Spatio Temporal Graph Network Using Attention Fusion for Patient Action Assessment はコメントを受け付けていません

VesselSAM: Leveraging SAM for Aortic Vessel Segmentation with LoRA and Atrous Attention

要約

医療画像のセグメンテーションは、臨床診断と治療計画、特に船舶のような複雑な解剖学的構造のために重要です。
この作業では、大動脈容器セグメンテーション向けに特別に設計されたセグメンテーションAnything Model(SAM)の修正バージョンであるVesselsamを提案します。
Vesselsamには、耳障りな注意と低ランク適応(LORA)を組み合わせた新しいモジュールであるAtrousloraが組み込まれており、セグメンテーションパフォーマンスを改善します。
Artousの注意により、モデルはマルチスケールのコンテキスト情報をキャプチャし、細かい地元の詳細とより広範なグローバルコンテキストの両方を維持できます。
同時に、Loraは、Frozen SAMイメージエンコーダーの効率的な微調整を促進し、トレーニング可能なパラメーターの数を減らし、計算効率を確保します。
大動脈容器ツリー(AVT)データセットとタイプb-b-b-bertの大動脈解剖(TBAD)データセットの2つの挑戦的なデータセットでVesselsamを評価します。
Vesselsamは、複数の医療センターで93.50 \%、93.25 \%、93.02 \%、および93.26 \%のDSCスコアで最先端のパフォーマンスを達成しています。
我々の結果は、Vesselsamが高いセグメンテーションの精度を提供し、既存の大規模モデルと比較して計算オーバーヘッドを大幅に削減することを示しています。
この開発は、臨床環境でのAIベースの大動脈血管セグメンテーションの強化への道を開きます。
コードとモデルはhttps://github.com/adnan-cas/atrousloraでリリースされます。

要約(オリジナル)

Medical image segmentation is crucial for clinical diagnosis and treatment planning, particularly for complex anatomical structures like vessels. In this work, we propose VesselSAM, a modified version of the Segmentation Anything Model (SAM), specifically designed for aortic vessel segmentation. VesselSAM incorporates AtrousLoRA, a novel module that combines Atrous Attention with Low-Rank Adaptation (LoRA), to improve segmentation performance. Atrous Attention enables the model to capture multi-scale contextual information, preserving both fine local details and broader global context. At the same time, LoRA facilitates efficient fine-tuning of the frozen SAM image encoder, reducing the number of trainable parameters and ensuring computational efficiency. We evaluate VesselSAM on two challenging datasets: the Aortic Vessel Tree (AVT) dataset and the Type-B Aortic Dissection (TBAD) dataset. VesselSAM achieves state-of-the-art performance with DSC scores of 93.50\%, 93.25\%, 93.02\%, and 93.26\% across multiple medical centers. Our results demonstrate that VesselSAM delivers high segmentation accuracy while significantly reducing computational overhead compared to existing large-scale models. This development paves the way for enhanced AI-based aortic vessel segmentation in clinical environments. The code and models will be released at https://github.com/Adnan-CAS/AtrousLora.

arxiv情報

著者 Adnan Iltaf,Rayan Merghani Ahmed,Bin Li,Shoujun Zhou
発行日 2025-02-25 13:26:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, eess.IV | VesselSAM: Leveraging SAM for Aortic Vessel Segmentation with LoRA and Atrous Attention はコメントを受け付けていません