Deep learning and classical computer vision techniques in medical image analysis: Case studies on brain MRI tissue segmentation, lung CT COPD registration, and skin lesion classification

要約

医療イメージングは​​、疾患の診断、治療計画、および監視において極めて重要な役割を果たす多様なタスクとモダリティにまたがっています。
この研究では、複数のイメージングモダリティにわたるセグメンテーション、登録、および分類タスクを体系的に評価した最初の新しい探索を提示します。
脳のMRI組織のセグメンテーション、肺CT画像登録、およびデルモスコピック画像からの皮膚病変の分類に対処する際に、古典学習と深部学習(DL)の両方のアプローチを統合すると、これらの方法論の補完的な強度が多様なアプリケーションにおける補完的な強みを示します。
脳組織のセグメンテーションの場合、3D DLモデルは2Dベースのモデルとパッチベースのモデル、特に0.9397のサイコロを達成し、ResNet34バックボーンに3D U-Netモデルを達成し、DICE 0.8946で競合結果を提供しました。
Multi-Atlasメソッドは、DLメソッドが実行不可能な場合に堅牢な代替案を提供し、平均サイコロは0.7267を達成しました。
肺CT登録では、古典的なElastixベースのメソッドがDLモデルを上回り、6.68 mmの最小ターゲット登録エラー(TRE)を達成し、パラメーターチューニングの有効性を強調しました。
HighResnetは、7.40 mmのTREでDLモデルの間で最も優れたパフォーマンスを発揮しました。
皮膚病変の分類では、InceptionResnetv2やResNet50などのDLモデルのアンサンブルが優れており、それぞれ最大90.44%、およびそれぞれバイナリおよびマルチクラス分類の93.62%の精度を達成しました。
また、1VS-ALLメソッドを採用して、DLは94.64%(MEL対その他)、95.35%(BCC対その他)、96.93%(SCC対その他)の精度を達成しましたが、MLモデルは、手作りされた特徴であるClass for Class cursis on smbals cursity on curcis on curcis on curcis on curcis for curcis for curcis on culricationの多層パーセプトロン(MLP)の特異的にマルチレイヤーパーセプトロン(MLP)を実現しました。
タスクとバイナリクラスのタスクの83.27%。
リクエストに応じて、ソースコードへのリンクが利用可能です。

要約(オリジナル)

Medical imaging spans diverse tasks and modalities which play a pivotal role in disease diagnosis, treatment planning, and monitoring. This study presents a novel exploration, being the first to systematically evaluate segmentation, registration, and classification tasks across multiple imaging modalities. Integrating both classical and deep learning (DL) approaches in addressing brain MRI tissue segmentation, lung CT image registration, and skin lesion classification from dermoscopic images, we demonstrate the complementary strengths of these methodologies in diverse applications. For brain tissue segmentation, 3D DL models outperformed 2D and patch-based models, specifically nnU-Net achieving Dice of 0.9397, with 3D U-Net models on ResNet34 backbone, offering competitive results with Dice 0.8946. Multi-Atlas methods provided robust alternatives for cases where DL methods are not feasible, achieving average Dice of 0.7267. In lung CT registration, classical Elastix-based methods outperformed DL models, achieving a minimum Target Registration Error (TRE) of 6.68 mm, highlighting the effectiveness of parameter tuning. HighResNet performed best among DL models with a TRE of 7.40 mm. For skin lesion classification, ensembles of DL models like InceptionResNetV2 and ResNet50 excelled, achieving up to 90.44%, and 93.62% accuracies for binary and multiclass classification respectively. Also, adopting One-vs-All method, DL attained accuracies of 94.64% (mel vs. others), 95.35% (bcc vs. others), and 96.93% (scc vs. others), while ML models specifically Multi-Layer Perceptron (MLP) on handcrafted features offered interpretable alternatives with 85.04% accuracy using SMOTE for class imbalance correction on the multi-class task and 83.27% on the binary-class task. Links to source code are available on request.

arxiv情報

著者 Anyimadu Daniel Tweneboah,Suleiman Taofik Ahmed,Hossain Mohammad Imran
発行日 2025-02-26 16:05:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | Deep learning and classical computer vision techniques in medical image analysis: Case studies on brain MRI tissue segmentation, lung CT COPD registration, and skin lesion classification はコメントを受け付けていません

Movie Gen: A Cast of Media Foundation Models

要約

さまざまなアスペクト比と同期オーディオを備えた高品質の1080p HDビデオを生成するファンデーションモデルのキャストであるMovie Genを発表します。
また、正確な命令ベースのビデオ編集やユーザーの画像に基づいたパーソナライズされたビデオの生成などの追加の機能も示しています。
私たちのモデルは、テキストからビデオの合成、ビデオのパーソナライズ、ビデオ編集、ビデオからオーディオの生成、テキストからオーディオの生成など、複数のタスクに関する新しい最先端の最先端を設定します。
私たちの最大のビデオ生成モデルは、最大コンテキスト長の73Kビデオトークンでトレーニングされた30Bパラメーター変圧器で、16フレームあたり16秒の生成されたビデオに対応しています。
アーキテクチャ、潜在スペース、トレーニング目標とレシピ、データキュレーション、評価プロトコル、並列化技術、および推論の最適化に関する複数の技術的な革新と単純化を示しています。
この論文が、研究コミュニティがメディア生成モデルの進歩と革新を加速するのに役立つことを願っています。
このペーパーのすべてのビデオは、https://go.fb.me/moviegenresearchvideosで入手できます。

要約(オリジナル)

We present Movie Gen, a cast of foundation models that generates high-quality, 1080p HD videos with different aspect ratios and synchronized audio. We also show additional capabilities such as precise instruction-based video editing and generation of personalized videos based on a user’s image. Our models set a new state-of-the-art on multiple tasks: text-to-video synthesis, video personalization, video editing, video-to-audio generation, and text-to-audio generation. Our largest video generation model is a 30B parameter transformer trained with a maximum context length of 73K video tokens, corresponding to a generated video of 16 seconds at 16 frames-per-second. We show multiple technical innovations and simplifications on the architecture, latent spaces, training objectives and recipes, data curation, evaluation protocols, parallelization techniques, and inference optimizations that allow us to reap the benefits of scaling pre-training data, model size, and training compute for training large scale media generation models. We hope this paper helps the research community to accelerate progress and innovation in media generation models. All videos from this paper are available at https://go.fb.me/MovieGenResearchVideos.

arxiv情報

著者 Adam Polyak,Amit Zohar,Andrew Brown,Andros Tjandra,Animesh Sinha,Ann Lee,Apoorv Vyas,Bowen Shi,Chih-Yao Ma,Ching-Yao Chuang,David Yan,Dhruv Choudhary,Dingkang Wang,Geet Sethi,Guan Pang,Haoyu Ma,Ishan Misra,Ji Hou,Jialiang Wang,Kiran Jagadeesh,Kunpeng Li,Luxin Zhang,Mannat Singh,Mary Williamson,Matt Le,Matthew Yu,Mitesh Kumar Singh,Peizhao Zhang,Peter Vajda,Quentin Duval,Rohit Girdhar,Roshan Sumbaly,Sai Saketh Rambhatla,Sam Tsai,Samaneh Azadi,Samyak Datta,Sanyuan Chen,Sean Bell,Sharadh Ramaswamy,Shelly Sheynin,Siddharth Bhattacharya,Simran Motwani,Tao Xu,Tianhe Li,Tingbo Hou,Wei-Ning Hsu,Xi Yin,Xiaoliang Dai,Yaniv Taigman,Yaqiao Luo,Yen-Cheng Liu,Yi-Chiao Wu,Yue Zhao,Yuval Kirstain,Zecheng He,Zijian He,Albert Pumarola,Ali Thabet,Artsiom Sanakoyeu,Arun Mallya,Baishan Guo,Boris Araya,Breena Kerr,Carleigh Wood,Ce Liu,Cen Peng,Dimitry Vengertsev,Edgar Schonfeld,Elliot Blanchard,Felix Juefei-Xu,Fraylie Nord,Jeff Liang,John Hoffman,Jonas Kohler,Kaolin Fire,Karthik Sivakumar,Lawrence Chen,Licheng Yu,Luya Gao,Markos Georgopoulos,Rashel Moritz,Sara K. Sampson,Shikai Li,Simone Parmeggiani,Steve Fine,Tara Fowler,Vladan Petrovic,Yuming Du
発行日 2025-02-26 16:05:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, eess.IV | Movie Gen: A Cast of Media Foundation Models はコメントを受け付けていません

EMT: A Visual Multi-Task Benchmark Dataset for Autonomous Driving in the Arab Gulf Region

要約

このペーパーでは、アラブ湾岸地域で収集された自律運転のための最初の公開データセットであるエミレーツマルチタスク(EMT)データセットを紹介します。
EMTデータセットは、歩行者の衣服や気象条件のバリエーションを含む、湾岸地域のユニークな道路トポロジー、交通量の多い輻輳、および特徴をキャプチャします。
ダッシュカメラの観点から30,000を超えるフレームが含まれており、570,000の注釈付きの境界ボックスが含まれており、約150キロメートルの運転ルートをカバーしています。
EMTデータセットは、追跡、軌跡予測、意図の予測の3つの主要なタスクをサポートしています。
各ベンチマークデータセットは、対応する評価で補完されます。(1)マルチクラスのシナリオと閉塞処理に焦点を当てたマルチエージェント追跡実験。
(2)ディープシーケンシャルおよびインタラクション認識モデルを使用した軌跡予測評価。
(3)観測された軌跡からエージェントの意図を予測するために実施された意図ベンチマーク実験。
データセットはhttps://avlab.io/emt-datasetで公開されており、前処理スクリプトと評価モデルにhttps://github.com/av-lab/emt-datasetでアクセスできます。

要約(オリジナル)

This paper introduces the Emirates Multi-Task (EMT) dataset – the first publicly available dataset for autonomous driving collected in the Arab Gulf region. The EMT dataset captures the unique road topology, high traffic congestion, and distinctive characteristics of the Gulf region, including variations in pedestrian clothing and weather conditions. It contains over 30,000 frames from a dash-camera perspective, along with 570,000 annotated bounding boxes, covering approximately 150 kilometers of driving routes. The EMT dataset supports three primary tasks: tracking, trajectory forecasting and intention prediction. Each benchmark dataset is complemented with corresponding evaluations: (1) multi-agent tracking experiments, focusing on multi-class scenarios and occlusion handling; (2) trajectory forecasting evaluation using deep sequential and interaction-aware models; and (3) intention benchmark experiments conducted for predicting agents intentions from observed trajectories. The dataset is publicly available at https://avlab.io/emt-dataset, and pre-processing scripts along with evaluation models can be accessed at https://github.com/AV-Lab/emt-dataset.

arxiv情報

著者 Nadya Abdel Madjid,Murad Mebrahtu,Abdelmoamen Nasser,Bilal Hassan,Naoufel Werghi,Jorge Dias,Majid Khonji
発行日 2025-02-26 16:06:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | EMT: A Visual Multi-Task Benchmark Dataset for Autonomous Driving in the Arab Gulf Region はコメントを受け付けていません

Neural Antidote: Class-Wise Prompt Tuning for Purifying Backdoors in Pre-trained Vision-Language Models

要約

クリップなどの事前に訓練されたビジョン言語モデル(VLM)は、マルチモーダルデータに優れた表現機能を示していますが、最近の研究では、それらがバックドア攻撃に対して脆弱であることが示されています。
脅威を緩和するために、既存の防衛戦略は主に疑わしいモデル全体の微調整に焦点を当てていますが、最先端の攻撃に対してわずかな抵抗のみを提供し、しばしば特にデータ制限シナリオでクリーン精度を低下させます。
それらの障害は、不十分な微調整データとVLMSの大規模なパラメーターとの間の不一致に起因する可能性があります。
この課題に対処するために、クラスごとのバックドアプロンプトチューニング(CBPT)防御を提案します。これは、テキストで動作する効率的かつ効果的な方法であり、中毒のVLMSを間接的に浄化するためです。
具体的には、最初に慎重に作成されたポジティブおよびネガティブサンプルを介して高度な対照学習を採用して、攻撃者が潜在的に採用するバックドアトリガーを効果的に反転させます。
ダミートリガーが確立されたら、効率的なプロンプトチューニング手法を利用して、これらのクラスごとのテキストプロンプトを最適化して、モデルの決定境界を変更して、バックドアトリガーの特徴領域をさらに再分類します。
広範な実験では、CBPTがモデルのユーティリティを維持しながらバックドアの脅威を大幅に軽減することを示しています。
58.86 \%の平均クリーン精度(CA)と、7つの主流のバックドア攻撃にわたる0.39 \%の攻撃成功率(ASR)。
これらの結果は、バックドア攻撃に対するモデルの堅牢性を強化するために、私たちの迅速な浄化設計の優位性を強調しています。

要約(オリジナル)

While pre-trained Vision-Language Models (VLMs) such as CLIP exhibit excellent representational capabilities for multimodal data, recent studies have shown that they are vulnerable to backdoor attacks. To alleviate the threat, existing defense strategies primarily focus on fine-tuning the entire suspicious model, yet offer only marginal resistance to state-of-the-art attacks and often result in a decrease in clean accuracy, particularly in data-limited scenarios. Their failure may be attributed to the mismatch between insufficient fine-tuning data and massive parameters in VLMs. To address this challenge, we propose Class-wise Backdoor Prompt Tuning (CBPT) defense, an efficient and effective method that operates on the text prompts to indirectly purify the poisoned VLMs. Specifically, we first employ the advanced contrastive learning via our carefully crafted positive and negative samples, to effectively invert the backdoor triggers that are potentially adopted by the attacker. Once the dummy trigger is established, we utilize the efficient prompt tuning technique to optimize these class-wise text prompts for modifying the model’s decision boundary to further reclassify the feature regions of backdoor triggers. Extensive experiments demonstrate that CBPT significantly mitigates backdoor threats while preserving model utility, e.g. an average Clean Accuracy (CA) of 58.86\% and an Attack Success Rate (ASR) of 0.39\% across seven mainstream backdoor attacks. These results underscore the superiority of our prompt purifying design to strengthen model robustness against backdoor attacks.

arxiv情報

著者 Jiawei Kong,Hao Fang,Sihang Guo,Chenxi Qing,Bin Chen,Bin Wang,Shu-Tao Xia
発行日 2025-02-26 16:25:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Neural Antidote: Class-Wise Prompt Tuning for Purifying Backdoors in Pre-trained Vision-Language Models はコメントを受け付けていません

On the Importance of Text Preprocessing for Multimodal Representation Learning and Pathology Report Generation

要約

病理学のビジョン言語モデルにより、マルチモーダルケースの検索と自動レポート生成が可能になります。
しかし、これまでに開発されたモデルの多くは、ペアの全体的なスライド画像(患者の歴史など)から推測できない情報を含む病理学レポートの訓練を受けており、生成されたレポートで幻覚を引き起こす可能性があります。
この目的のために、視覚言語モデリングの病理レポートからの情報の選択が、マルチモーダル表現と生成されたレポートの品質にどのように影響するかを調査します。
より具体的には、H&E染色スライドに基づいた細胞と組織の外観を説明する文のみを含む、前処理されたレポートでトレーニングされたモデルに対して完全なレポートでトレーニングされたモデルを比較します。
実験では、BLIP-2フレームワークの上に構築され、42,433 H&E染色全体のスライド画像と19,636の対応する病理報告の皮膚メラニン細胞病変データセットを使用しました。
モデルのパフォーマンスは、画像からテキスト、テキストから画像の検索、および専門家の病理学者による生成されたレポートの定性的評価を使用して評価されました。
私たちの結果は、テキストの前処理が報告の生成における幻覚を防ぐことを示しています。
生成されたレポートの品質の改善にもかかわらず、完全なレポートでビジョン言語モデルをトレーニングすることで、モーダルの検索パフォーマンスが向上しました。

要約(オリジナル)

Vision-language models in pathology enable multimodal case retrieval and automated report generation. Many of the models developed so far, however, have been trained on pathology reports that include information which cannot be inferred from paired whole slide images (e.g., patient history), potentially leading to hallucinated sentences in generated reports. To this end, we investigate how the selection of information from pathology reports for vision-language modeling affects the quality of the multimodal representations and generated reports. More concretely, we compare a model trained on full reports against a model trained on preprocessed reports that only include sentences describing the cell and tissue appearances based on the H&E-stained slides. For the experiments, we built upon the BLIP-2 framework and used a cutaneous melanocytic lesion dataset of 42,433 H&E-stained whole slide images and 19,636 corresponding pathology reports. Model performance was assessed using image-to-text and text-to-image retrieval, as well as qualitative evaluation of the generated reports by an expert pathologist. Our results demonstrate that text preprocessing prevents hallucination in report generation. Despite the improvement in the quality of the generated reports, training the vision-language model on full reports showed better cross-modal retrieval performance.

arxiv情報

著者 Ruben T. Lucassen,Tijn van de Luijtgaarden,Sander P. J. Moonemans,Gerben E. Breimer,Willeke A. M. Blokx,Mitko Veta
発行日 2025-02-26 16:45:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | On the Importance of Text Preprocessing for Multimodal Representation Learning and Pathology Report Generation はコメントを受け付けていません

Multiclass Post-Earthquake Building Assessment Integrating Optical and SAR Satellite Imagery, Ground Motion, and Soil Data with Transformers

要約

建物の損傷のタイムリーで正確な評価は、地震の余波における効果的な対応と回復のために重要です。
従来の予備的な損傷評価(PDA)は、多くの場合、手動での戸別訪問検査に依存しています。これは、時間がかかるだけでなく、重大な安全リスクをもたらします。
PDAプロセスを安全に促進するために、研究者は、ヒューリスティックおよび機械学習アプローチで処理された衛星画像の適用性を研究しました。
これらのアプローチは、バイナリまたは最近では、ブロックまたは単一の建物のスケールでのマルチクラス損傷状態を出力します。
ただし、このようなアプローチの現在のパフォーマンスは、実用的な適用性を制限します。
この制限に対処するために、高解像度の地震後衛星画像と構造の地震性能に関連する建物固有のメタデータを組み合わせたメタデータが豊富な変圧器ベースのフレームワークを紹介します。
私たちのモデルは、2023年2月6日のトルコシリア地震による建物のマルチクラス後の地震後の損傷の識別の最先端のパフォーマンスを達成します。具体的には、地震強度指標、土壌特性、SARダメージのプロキシマップを拡張するだけでなく、地位を拡大することを強化するだけでなく、地震強度指標、土壌の特性、SARダメージのプロキシマップを強化するだけでなく、メタデータを組み込むことを実証します。
地域。
さらに、さまざまなレベルの建物損傷にわたるモデルの意思決定を理解するために、機能の重要性に関する詳細なクラスごとの分析を実施しました。
この分析は、個々のメタデータが各ダメージクラスの予測に独自に貢献する方法を明らかにしています。
衛星画像とメタデータの両方を活用することにより、提案されたフレームワークにより、災害対応を改善し、影響を受けるコミュニティの復旧努力を加速できる、正確でマルチクラスの建物レベルの評価のためのより速く、より正確な損害評価を可能にします。

要約(オリジナル)

Timely and accurate assessments of building damage are crucial for effective response and recovery in the aftermath of earthquakes. Conventional preliminary damage assessments (PDA) often rely on manual door-to-door inspections, which are not only time-consuming but also pose significant safety risks. To safely expedite the PDA process, researchers have studied the applicability of satellite imagery processed with heuristic and machine learning approaches. These approaches output binary or, more recently, multiclass damage states at the scale of a block or a single building. However, the current performance of such approaches limits practical applicability. To address this limitation, we introduce a metadata-enriched, transformer based framework that combines high-resolution post-earthquake satellite imagery with building-specific metadata relevant to the seismic performance of the structure. Our model achieves state-of-the-art performance in multiclass post-earthquake damage identification for buildings from the Turkey-Syria earthquake on February 6, 2023. Specifically, we demonstrate that incorporating metadata, such as seismic intensity indicators, soil properties, and SAR damage proxy maps not only enhances the model’s accuracy and ability to distinguish between damage classes, but also improves its generalizability across various regions. Furthermore, we conducted a detailed, class-wise analysis of feature importance to understand the model’s decision-making across different levels of building damage. This analysis reveals how individual metadata features uniquely contribute to predictions for each damage class. By leveraging both satellite imagery and metadata, our proposed framework enables faster and more accurate damage assessments for precise, multiclass, building-level evaluations that can improve disaster response and accelerate recovery efforts for affected communities.

arxiv情報

著者 Deepank Singh,Vedhus Hoskere,Pietro Milillo
発行日 2025-02-26 16:49:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, eess.IV | Multiclass Post-Earthquake Building Assessment Integrating Optical and SAR Satellite Imagery, Ground Motion, and Soil Data with Transformers はコメントを受け付けていません

Pathology Report Generation and Multimodal Representation Learning for Cutaneous Melanocytic Lesions

要約

数百万のメラニン細胞皮膚病変が毎年病理学者によって検査されていますが、その大部分は一般的なネビ(すなわち、通常のほくろ)に関係しています。
これらの病変のほとんどは数秒で診断できますが、対応する病理学レポートを書くことは、はるかに時間がかかります。
したがって、レポート作成の一部を自動化することで、病理学者のワークロードが増加する可能性があります。
この作業では、皮膚メラニン細胞性病変の病理学的領域向けに特に視覚言語モデルを開発します。
このモデルは、対照的なキャプションフレームワークに従い、42,512 H&E染色全体のスライド画像と19,645の対応する病理報告のメラニン細胞性病変データセットを使用して訓練および評価されました。
我々の結果は、モデル生成レポートの品質スコアが、読者研究で専門家の病理学者によって評価された一般的なネビの病理学者が記述したレポートと同等であることを示しています。
レポートの生成は、まれなメラニン細胞病変のサブタイプにとってより困難であることが明らかになったが、これらの症例の交差モーダル検索性能はかなり良くなった。

要約(オリジナル)

Millions of melanocytic skin lesions are examined by pathologists each year, the majority of which concern common nevi (i.e., ordinary moles). While most of these lesions can be diagnosed in seconds, writing the corresponding pathology report is much more time-consuming. Automating part of the report writing could, therefore, alleviate the increasing workload of pathologists. In this work, we develop a vision-language model specifically for the pathology domain of cutaneous melanocytic lesions. The model follows the Contrastive Captioner framework and was trained and evaluated using a melanocytic lesion dataset of 42,512 H&E-stained whole slide images and 19,645 corresponding pathology reports. Our results show that the quality scores of model-generated reports were on par with pathologist-written reports for common nevi, assessed by an expert pathologist in a reader study. While report generation revealed to be more difficult for rare melanocytic lesion subtypes, the cross-modal retrieval performance for these cases was considerably better.

arxiv情報

著者 Ruben T. Lucassen,Sander P. J. Moonemans,Tijn van de Luijtgaarden,Gerben E. Breimer,Willeke A. M. Blokx,Mitko Veta
発行日 2025-02-26 16:52:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Pathology Report Generation and Multimodal Representation Learning for Cutaneous Melanocytic Lesions はコメントを受け付けていません

Vision Foundation Models for Computed Tomography

要約

基礎モデル(FMS)は、イメージングのモダリティ全体で多様で複雑なタスクを実行することにより、放射線学の変革の可能性を示しています。
ここでは、さまざまな放射線タスク向けに明示的に設計された大規模な3D画像ベースの事前訓練モデルであるCT-FMを開発しました。
CT-FMは、ラベルに依存しない対照学習を通じて、イメージングデータコモンズからの148,000コンピューター断層撮影(CT)スキャンを使用して事前に訓練されました。
4つのカテゴリのタスク、すなわち全身および腫瘍のセグメンテーション、ヘッドCTトリアージ、医療画像検索、およびセマンティック理解でCT-FMを評価し、最先端のモデルに対する優れたパフォーマンスを示しました。
定量的な成功を超えて、CT-FMは、解剖学的に領域をクラスター化し、スキャン全体で同様の解剖学的および構造的概念を特定する能力を実証しました。
さらに、テストと再テストの設定全体で堅牢なままであり、その埋め込みに付着した合理的な顕著な領域を示しました。
この研究は、大規模な医療イメージング基礎モデルの価値を示し、モデルの重み、コード、データをオープンソースすることにより、放射線学におけるより適応性があり、信頼性が高く、解釈可能なAIソリューションをサポートすることを目的としています。

要約(オリジナル)

Foundation models (FMs) have shown transformative potential in radiology by performing diverse, complex tasks across imaging modalities. Here, we developed CT-FM, a large-scale 3D image-based pre-trained model designed explicitly for various radiological tasks. CT-FM was pre-trained using 148,000 computed tomography (CT) scans from the Imaging Data Commons through label-agnostic contrastive learning. We evaluated CT-FM across four categories of tasks, namely, whole-body and tumor segmentation, head CT triage, medical image retrieval, and semantic understanding, showing superior performance against state-of-the-art models. Beyond quantitative success, CT-FM demonstrated the ability to cluster regions anatomically and identify similar anatomical and structural concepts across scans. Furthermore, it remained robust across test-retest settings and indicated reasonable salient regions attached to its embeddings. This study demonstrates the value of large-scale medical imaging foundation models and by open-sourcing the model weights, code, and data, aims to support more adaptable, reliable, and interpretable AI solutions in radiology.

arxiv情報

著者 Suraj Pai,Ibrahim Hadzic,Dennis Bontempi,Keno Bressem,Benjamin H. Kann,Andriy Fedorov,Raymond H. Mak,Hugo J. W. L. Aerts
発行日 2025-02-26 17:04:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | Vision Foundation Models for Computed Tomography はコメントを受け付けていません

Style Ambiguity Loss Without Labeled Datasets

要約

この作業では、もともと拡散モデルで創造性を近似するために使用されていたスタイルのあいまいさのトレーニング目標を使用して探求します。
ただし、この目的では、前処理された分類器とラベル付きデータセットの使用が必要です。
分類子またはラベル付きデータセットをトレーニングする必要のない新しい形式の曖昧さの損失を導入し、新しい方法が自動化されたメトリックとユーザー研究の両方でより高いスコアを獲得して、斬新さと評価を分析することを示します。
https://github.com/jamesbaker361/clipcreateで利用可能なコード

要約(オリジナル)

In this work, we explore using the style ambiguity training objective, originally used to approximate creativity, on a diffusion model. However, this objective requires the use of a pretrained classifier and a labeled dataset. We introduce new forms of style ambiguity loss that do not require training a classifier or a labeled dataset, and show that our new methods score higher both on automated metrics and user studies to analyze novelty and appreciation. Code available at https://github.com/jamesBaker361/clipcreate

arxiv情報

著者 James Baker
発行日 2025-02-26 17:07:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Style Ambiguity Loss Without Labeled Datasets はコメントを受け付けていません

CoopDETR: A Unified Cooperative Perception Framework for 3D Detection via Object Query

要約

協同的認識は、環境の包括的な見解を提供することにより、自律車(AVS)の個々の認識能力を強化します。
ただし、知覚のパフォーマンスと送信コストのバランスをとることは、依然として大きな課題です。
エージェント全体で地域レベルの機能を送信する現在のアプローチは、解釈可能性が制限されており、実質的なアプリケーションには不適切な帯域幅を要求しています。
この作業では、オブジェクトクエリを介してオブジェクトレベルの機能協力を導入する斬新な協同知覚フレームワークであるCoopdetrを提案します。
私たちのフレームワークは、2つの重要なモジュールで構成されています。単一エージェントクエリ生成は、生のセンサーデータをオブジェクトクエリに効率的にエンコードし、送信コストを削減しながら、検出に不可欠な情報を維持します。
クロスエージェントクエリフュージョンには、クエリ間の効果的な相互作用を可能にするための空間クエリマッチング(SQM)およびオブジェクトクエリ集約(OQA)が含まれます。
OPV2VおよびV2XSETデータセットの実験は、CoopDetrが最先端のパフォーマンスを達成し、伝送コストを1/782の以前の方法に大幅に削減することを示しています。

要約(オリジナル)

Cooperative perception enhances the individual perception capabilities of autonomous vehicles (AVs) by providing a comprehensive view of the environment. However, balancing perception performance and transmission costs remains a significant challenge. Current approaches that transmit region-level features across agents are limited in interpretability and demand substantial bandwidth, making them unsuitable for practical applications. In this work, we propose CoopDETR, a novel cooperative perception framework that introduces object-level feature cooperation via object query. Our framework consists of two key modules: single-agent query generation, which efficiently encodes raw sensor data into object queries, reducing transmission cost while preserving essential information for detection; and cross-agent query fusion, which includes Spatial Query Matching (SQM) and Object Query Aggregation (OQA) to enable effective interaction between queries. Our experiments on the OPV2V and V2XSet datasets demonstrate that CoopDETR achieves state-of-the-art performance and significantly reduces transmission costs to 1/782 of previous methods.

arxiv情報

著者 Zhe Wang,Shaocong Xu,Xucai Zhuang,Tongda Xu,Yan Wang,Jingjing Liu,Yilun Chen,Ya-Qin Zhang
発行日 2025-02-26 17:09:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | CoopDETR: A Unified Cooperative Perception Framework for 3D Detection via Object Query はコメントを受け付けていません