Masked Self-Supervised Pre-Training for Text Recognition Transformers on Large-Scale Datasets

要約

自己学習学習は、さまざまなドメインのモデルパフォーマンスを改善するために、大規模な非標識データを活用するための強力なアプローチとして浮上しています。
この論文では、テキスト認識変圧器のためのマスクされた自己監督の事前トレーニングを探索します。
具体的には、トレーニング前の段階に2つの変更を提案します。マスキング確率を徐々に増やし、マスクされたパッチと非マスクされていないパッチの両方を組み込むために損失関数を変更します。
トレーニング前の50mの非標識テキストラインのデータセットと、微調整のために4つの異なるサイズの注釈付きデータセットを使用して、広範な実験を実施します。
さらに、事前訓練を受けたモデルを転送学習で訓練されたモデルと比較し、自己監視前のトレーニングの有効性を示しています。
特に、トレーニング前にモデルの文字エラー率が一貫して改善されます。
また、転送学習と同等ですが、追加の注釈付きテキストラインに依存することはありません。

要約(オリジナル)

Self-supervised learning has emerged as a powerful approach for leveraging large-scale unlabeled data to improve model performance in various domains. In this paper, we explore masked self-supervised pre-training for text recognition transformers. Specifically, we propose two modifications to the pre-training phase: progressively increasing the masking probability, and modifying the loss function to incorporate both masked and non-masked patches. We conduct extensive experiments using a dataset of 50M unlabeled text lines for pre-training and four differently sized annotated datasets for fine-tuning. Furthermore, we compare our pre-trained models against those trained with transfer learning, demonstrating the effectiveness of the self-supervised pre-training. In particular, pre-training consistently improves the character error rate of models, in some cases up to 30 % relatively. It is also on par with transfer learning but without relying on extra annotated text lines.

arxiv情報

著者 Martin Kišš,Michal Hradiš
発行日 2025-03-28 15:16:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Masked Self-Supervised Pre-Training for Text Recognition Transformers on Large-Scale Datasets はコメントを受け付けていません

Exploiting Mixture-of-Experts Redundancy Unlocks Multimodal Generative Abilities

要約

この作業では、2つのコア制約を満たしながら、マルチモーダル生成機能を備えた、事前に訓練されたテキストのみの大手言語モデル(LLMS)の既存の生成機能を強化するという課題を引き受けます。
専用モジュールを追加する現在のアプローチとは対照的に、パラメーターカウントを大幅に増加させると、深いモデルに固有の十分に活用されていない容量を活用する方法を提案します。
具体的には、新しいモダリティを学習するための追加能力のソースとして、混合物(MOE)内のパラメーター冗長性を活用し、より良いパラメーター効率(C1)を可能にします。
さらに、新しいモダリティ(C2)のトークン専用に低ランクの適応を適用することにより、元の言語生成機能を保存します。
さらに、収束とトレーニングの安定性を改善するために、Gromov-Wasserstein距離に基づいた新しいパラメーター初期化スキームを導入します。
ルーティングメカニズムの広範な分析により、マルチモーダル生成能力のロックを効率的に解除できる専門家内のモダリティ固有の経路の出現と冗長性の減少を明らかにします。
全体として、私たちの方法は、幅広い現代LLMSにシームレスに適用され、Uni-Modalからマルチモーダルアーキテクチャに移行するための新しい経路を提供できます。

要約(オリジナル)

In this work, we undertake the challenge of augmenting the existing generative capabilities of pre-trained text-only large language models (LLMs) with multi-modal generation capability while satisfying two core constraints: C1 preserving the preservation of original language generative capabilities with negligible performance degradation, and C2 adhering to a small parameter budget to learn the new modality, ensuring scalability and efficiency. In contrast to current approaches that add dedicated modules, thereby significantly increasing the parameter count, we propose a method that leverages the underutilized capacity inherent in deep models. Specifically, we exploit the parameter redundancy within Mixture-of-Experts (MoEs) as a source of additional capacity for learning a new modality, enabling better parameter efficiency (C1). Moreover, we preserve the original language generation capabilities by applying low-rank adaptation exclusively to the tokens of the new modality (C2). Furthermore, we introduce a novel parameter initialization scheme based on the Gromov-Wasserstein distance to improve convergence and training stability. Through an extensive analysis of the routing mechanism, we uncover the emergence of modality-specific pathways and decreased redundancy within the experts that can efficiently unlock multi-modal generative capabilities. Overall, our method can be seamlessly applied to a wide range of contemporary LLMs, providing a new pathway for transitioning from uni-modal to multi-modal architectures.

arxiv情報

著者 Raman Dutt,Harleen Hanspal,Guoxuan Xia,Petru-Daniel Tudosiu,Alexander Black,Yongxin Yang,Steven McDonagh,Sarah Parisot
発行日 2025-03-28 15:21:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | Exploiting Mixture-of-Experts Redundancy Unlocks Multimodal Generative Abilities はコメントを受け付けていません

Evaluating the evaluators: Towards human-aligned metrics for missing markers reconstruction

要約

アニメーションデータは、光学マーカーの位置を確立するために多数のカメラを利用する光学モーションキャプチャシステムを通じて取得されることがよくあります。
ただし、システムエラーや閉塞により、マーカーが欠落している可能性があり、その手動のクリーニングには時間がかかる場合があります。
これにより、学術コミュニティでマーカー再構成を欠いているための機械学習ベースのソリューションに関心が寄せられています。
ほとんどのアカデミックペーパーは、メインメトリックとして単純化された平均平方根誤差を利用しています。
この論文では、このメトリックが充填品質の主観的な認識と相関していないことを示します。
さらに、フィールドで進行を促進できる、より相関するメトリックのセットを導入して評価します。

要約(オリジナル)

Animation data is often obtained through optical motion capture systems, which utilize a multitude of cameras to establish the position of optical markers. However, system errors or occlusions can result in missing markers, the manual cleaning of which can be time-consuming. This has sparked interest in machine learning-based solutions for missing marker reconstruction in the academic community. Most academic papers utilize a simplistic mean square error as the main metric. In this paper, we show that this metric does not correlate with subjective perception of the fill quality. Additionally, we introduce and evaluate a set of better-correlated metrics that can drive progress in the field.

arxiv情報

著者 Taras Kucherenko,Derek Peristy,Judith Bütepage
発行日 2025-03-28 15:29:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.HC, cs.LG | Evaluating the evaluators: Towards human-aligned metrics for missing markers reconstruction はコメントを受け付けていません

AnnoPage Dataset: Dataset of Non-Textual Elements in Documents with Fine-Grained Categorization

要約

1485年から現在まで、19世紀後半から20世紀初頭に焦点を当てた、主にチェコとドイツ語の歴史的文書から7550ページの小説コレクションであるAnnopage Datasetを紹介します。
データセットは、ドキュメントレイアウト分析とオブジェクト検出の研究をサポートするように設計されています。
各ページには、画像ドキュメント処理のチェコの方法論に従って、画像、マップ、装飾要素、またはチャートなどの25のカテゴリの非テキスト要素の要素の要素を表す軸に並べられた境界ボックス(AABB)が注釈されています。
注釈は、正確さと一貫性を確保するために、専門の図書館員によって作成されました。
また、データセットには、さまざまな、主に歴史的なドキュメントデータセットのページが組み込まれており、変動性を高め、継続性を維持しています。
データセットは開発およびテストサブセットに分割され、テストセットはカテゴリの分布を維持するために慎重に選択されます。
YoloおよびDetrオブジェクト検出器を使用してベースラインの結果を提供し、将来の研究の基準点を提供します。
Annopage Datasetは、Zenodo(https://doi.org/10.5281/zenodo.12788419)で公開されており、ヨロ形式での地上注釈が付けられています。

要約(オリジナル)

We introduce the AnnoPage Dataset, a novel collection of 7550 pages from historical documents, primarily in Czech and German, spanning from 1485 to the present, focusing on the late 19th and early 20th centuries. The dataset is designed to support research in document layout analysis and object detection. Each page is annotated with axis-aligned bounding boxes (AABB) representing elements of 25 categories of non-textual elements, such as images, maps, decorative elements, or charts, following the Czech Methodology of image document processing. The annotations were created by expert librarians to ensure accuracy and consistency. The dataset also incorporates pages from multiple, mainly historical, document datasets to enhance variability and maintain continuity. The dataset is divided into development and test subsets, with the test set carefully selected to maintain the category distribution. We provide baseline results using YOLO and DETR object detectors, offering a reference point for future research. The AnnoPage Dataset is publicly available on Zenodo (https://doi.org/10.5281/zenodo.12788419), along with ground-truth annotations in YOLO format.

arxiv情報

著者 Martin Kišš,Michal Hradiš,Martina Dvořáková,Václav Jiroušek,Filip Kersch
発行日 2025-03-28 15:30:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | AnnoPage Dataset: Dataset of Non-Textual Elements in Documents with Fine-Grained Categorization はコメントを受け付けていません

Leveraging Expert Input for Robust and Explainable AI-Assisted Lung Cancer Detection in Chest X-rays

要約

ディープラーニングモデルは、特に胸部X線などの医療イメージモダリティを介して肺がんを検出する際に、AI支援医療診断を進めるための重要な可能性を示しています。
しかし、これらのモデルのブラックボックスの性質は、その解釈可能性と信頼性に課題をもたらし、臨床診療における採用を制限します。
この研究では、InceptionV3に基づいた高性能肺がん検出モデルの解釈可能性と堅牢性の両方を調べ、胸部X線と放射線レポートの公開データセットを利用しています。
事後および前馬術アプローチの両方を含む複数の説明可能なAI(XAI)技術の臨床的有用性を評価し、既存の方法が臨床的に関連する説明を提供しないことが多いことを発見し、専門家の放射線科医の評価からの矛盾と発散を示します。
これらの制限に対処するために、診断固有の臨床概念を定義するために放射線科医と協力し、ボトルネックの概念を活用する専門家主導のアプローチであるClinicxaiを開発しました。
Clinicxaiは、臨床医の実用的な要件と密接に整合し、診断の精度を維持しながら、臨床的に意味のある説明を生成しました。
また、広く利用されている一連の敵対的な攻撃の両方にさらされることにより、元のInceptionV3モデルと比較して、Clinicxaiの堅牢性を評価します。
私たちの分析は、Clinicxaiが敵対的な摂動に対して非常に大きな回復力を示していることを示しています。
これらの調査結果は、医療診断のための解釈可能で堅牢なAIシステムの設計にドメインの専門知識を組み込むことの重要性を強調し、ヘルスケアにおけるより信頼できる効果的なAIソリューションへの道を開いています。

要約(オリジナル)

Deep learning models show significant potential for advancing AI-assisted medical diagnostics, particularly in detecting lung cancer through medical image modalities such as chest X-rays. However, the black-box nature of these models poses challenges to their interpretability and trustworthiness, limiting their adoption in clinical practice. This study examines both the interpretability and robustness of a high-performing lung cancer detection model based on InceptionV3, utilizing a public dataset of chest X-rays and radiological reports. We evaluate the clinical utility of multiple explainable AI (XAI) techniques, including both post-hoc and ante-hoc approaches, and find that existing methods often fail to provide clinically relevant explanations, displaying inconsistencies and divergence from expert radiologist assessments. To address these limitations, we collaborated with a radiologist to define diagnosis-specific clinical concepts and developed ClinicXAI, an expert-driven approach leveraging the concept bottleneck methodology. ClinicXAI generated clinically meaningful explanations which closely aligned with the practical requirements of clinicians while maintaining high diagnostic accuracy. We also assess the robustness of ClinicXAI in comparison to the original InceptionV3 model by subjecting both to a series of widely utilized adversarial attacks. Our analysis demonstrates that ClinicXAI exhibits significantly greater resilience to adversarial perturbations. These findings underscore the importance of incorporating domain expertise into the design of interpretable and robust AI systems for medical diagnostics, paving the way for more trustworthy and effective AI solutions in healthcare.

arxiv情報

著者 Amy Rafferty,Rishi Ramaesh,Ajitha Rajan
発行日 2025-03-28 15:32:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Leveraging Expert Input for Robust and Explainable AI-Assisted Lung Cancer Detection in Chest X-rays はコメントを受け付けていません

Deterministic Medical Image Translation via High-fidelity Brownian Bridges

要約

最近の研究では、拡散モデルは、生成的敵対ネットワーク(GAN)と比較した場合、優れた合成画像を生成することが示されています。
しかし、それらの出力はしばしば非決定的であり、固有のランダム性のために地上の真理に対する高い忠実度を欠いています。
この論文では、決定論的な医療イメージ翻訳のために、新しい忠実度ブラウンブリッジモデル(HIFI-BBRG)を提案します。
私たちのモデルは、2つの明確でありながら相互に有益なマッピングの2つのマッピングと再構成マッピングです。
ブラウンブリッジトレーニングプロセスは、再建マッピングにおける忠実な損失と敵対的なトレーニングによって導かれます。
これにより、翻訳された画像を元のフォームに正確に逆転させることができ、それにより、グラウンドトゥルースに高い忠実度を備えた一貫した翻訳を実現できます。
複数のデータセットでの広範な実験では、HIFI-BBRGがマルチモーダル画像翻訳とマルチイメージの超解像度の最先端の方法よりも優れていることが示されています。

要約(オリジナル)

Recent studies have shown that diffusion models produce superior synthetic images when compared to Generative Adversarial Networks (GANs). However, their outputs are often non-deterministic and lack high fidelity to the ground truth due to the inherent randomness. In this paper, we propose a novel High-fidelity Brownian bridge model (HiFi-BBrg) for deterministic medical image translations. Our model comprises two distinct yet mutually beneficial mappings: a generation mapping and a reconstruction mapping. The Brownian bridge training process is guided by the fidelity loss and adversarial training in the reconstruction mapping. This ensures that translated images can be accurately reversed to their original forms, thereby achieving consistent translations with high fidelity to the ground truth. Our extensive experiments on multiple datasets show HiFi-BBrg outperforms state-of-the-art methods in multi-modal image translation and multi-image super-resolution.

arxiv情報

著者 Qisheng He,Nicholas Summerfield,Peiyong Wang,Carri Glide-Hurst,Ming Dong
発行日 2025-03-28 15:33:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, eess.IV | Deterministic Medical Image Translation via High-fidelity Brownian Bridges はコメントを受け付けていません

CoRPA: Adversarial Image Generation for Chest X-rays Using Concept Vector Perturbations and Generative Models

要約

医療画像分類タスクのディープラーニングモデルは、AIアシストされた診断ツールで広く実装されており、診断の精度を高め、臨床医のワークロードを減らし、患者の転帰を改善することを目指しています。
しかし、敵対的な攻撃に対する彼らの脆弱性は、患者の安全に重大なリスクをもたらします。
現在の攻撃方法論は、モデルクエリやピクセル値の摂動などの一般的な手法を使用して、モデルを欺くように設計された敵対的な例を生成します。
これらのアプローチは、見逃された臨床的特徴に起因する臨床エラーのユニークな特性に適切に対処できない場合があります。
医療イメージングドメインに合わせた臨床的に焦点を当てたブラックボックス敵対的な攻撃フレームワークであるコンセプトベースのレポート摂動攻撃(CORPA)を提案します。
Corpaは臨床概念を活用して、現実的な臨床的誤診シナリオを密接に反映する敵対的な放射線報告と画像を生成します。
胸部X線と放射線レポートのMIMIC-CXR-JPGデータセットを使用して、CORPAの有用性を実証します。
私たちの評価は、Corpaの臨床的に焦点を当てた摂動にさらされると、従来の敵対的攻撃に強い回復力を示す深い学習モデルが堅牢性が著しく低いことを明らかにしています。
これは、医療AIシステムにおけるドメイン固有の脆弱性に対処することの重要性を強調しています。
専門化された敵対的攻撃フレームワークを導入することにより、この研究は、医療における堅牢で現実世界の準備ができたAIモデルを開発するための基盤を提供し、ハイステークス臨床環境での安全で信頼できる展開を確保します。

要約(オリジナル)

Deep learning models for medical image classification tasks are becoming widely implemented in AI-assisted diagnostic tools, aiming to enhance diagnostic accuracy, reduce clinician workloads, and improve patient outcomes. However, their vulnerability to adversarial attacks poses significant risks to patient safety. Current attack methodologies use general techniques such as model querying or pixel value perturbations to generate adversarial examples designed to fool a model. These approaches may not adequately address the unique characteristics of clinical errors stemming from missed or incorrectly identified clinical features. We propose the Concept-based Report Perturbation Attack (CoRPA), a clinically-focused black-box adversarial attack framework tailored to the medical imaging domain. CoRPA leverages clinical concepts to generate adversarial radiological reports and images that closely mirror realistic clinical misdiagnosis scenarios. We demonstrate the utility of CoRPA using the MIMIC-CXR-JPG dataset of chest X-rays and radiological reports. Our evaluation reveals that deep learning models exhibiting strong resilience to conventional adversarial attacks are significantly less robust when subjected to CoRPA’s clinically-focused perturbations. This underscores the importance of addressing domain-specific vulnerabilities in medical AI systems. By introducing a specialized adversarial attack framework, this study provides a foundation for developing robust, real-world-ready AI models in healthcare, ensuring their safe and reliable deployment in high-stakes clinical environments.

arxiv情報

著者 Amy Rafferty,Rishi Ramaesh,Ajitha Rajan
発行日 2025-03-28 15:34:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, eess.IV | CoRPA: Adversarial Image Generation for Chest X-rays Using Concept Vector Perturbations and Generative Models はコメントを受け付けていません

LIM: Large Interpolator Model for Dynamic Reconstruction

要約

ビデオデータからの動的資産の再構築は、コンピュータービジョンおよびグラフィックスのタスクにおいて多くの人々の中心です。
既存の4D再構成アプローチは、カテゴリ固有のモデルまたは最適化ベースの遅い方法によって制限されます。
最近の大規模な再構成モデ​​ル(LRM)に触発されて、時間をかけて暗黙の3D表現を補間するために、新しい因果整合性喪失に導かれた、変圧器ベースのフィードフォワードソリューションである大規模な補間モデル(LIM)を提示します。
$ t_0 $と$ $ $の暗黙の3D表現を考えると、LIMは[T_0、T_1] $の連続時間$ t \で変形した形状を生成し、高品質の補間フレームを数秒で配信します。
さらに、LIMは時間を越えて明示的なメッシュ追跡を可能にし、既存の生産パイプラインに統合できる一貫したUVテクスチャメッシュシーケンスを生成します。
また、LIMを拡散ベースのMultiViewジェネレーターと組み合わせて使用​​して、Monocularビデオから動的な4D再構成を作成します。
さまざまな動的データセットでLIMを評価し、画像空間補間法(フィルムなど)と直接のトリプル線形補間とのベンチマークを評価し、明確な利点を示します。
要約すると、LIMは、多様なカテゴリにわたって高速追跡された4Dアセット再構築が可能な最初のフィードフォワードモデルです。

要約(オリジナル)

Reconstructing dynamic assets from video data is central to many in computer vision and graphics tasks. Existing 4D reconstruction approaches are limited by category-specific models or slow optimization-based methods. Inspired by the recent Large Reconstruction Model (LRM), we present the Large Interpolation Model (LIM), a transformer-based feed-forward solution, guided by a novel causal consistency loss, for interpolating implicit 3D representations across time. Given implicit 3D representations at times $t_0$ and $t_1$, LIM produces a deformed shape at any continuous time $t\in[t_0,t_1]$, delivering high-quality interpolated frames in seconds. Furthermore, LIM allows explicit mesh tracking across time, producing a consistently uv-textured mesh sequence ready for integration into existing production pipelines. We also use LIM, in conjunction with a diffusion-based multiview generator, to produce dynamic 4D reconstructions from monocular videos. We evaluate LIM on various dynamic datasets, benchmarking against image-space interpolation methods (e.g., FiLM) and direct triplane linear interpolation, and demonstrate clear advantages. In summary, LIM is the first feed-forward model capable of high-speed tracked 4D asset reconstruction across diverse categories.

arxiv情報

著者 Remy Sabathier,Niloy J. Mitra,David Novotny
発行日 2025-03-28 15:36:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | LIM: Large Interpolator Model for Dynamic Reconstruction はコメントを受け付けていません

Cross-Modal and Uncertainty-Aware Agglomeration for Open-Vocabulary 3D Scene Understanding

要約

大規模な3Dテキストコーパスの欠如により、最近の作品により、視覚障害モデル(VLMS)からオープンボキャブラリーの知識を蒸留するようになりました。
ただし、これらの方法は通常、単一のVLMに依存して、共通言語空間内の3Dモデルの特徴スペースを調整します。これにより、さまざまな基礎モデルにカプセル化された多様な空間およびセマンティック機能を活用する3Dモデルの可能性が制限されます。
このホワイトペーパーでは、CUA-O3Dと呼ばれるオープンボキャブラリー3Dシーンを理解するためのクロスモーダルおよび不確実性を意識した集積を提案します。
さらに、これらのモデルからの不均一な2D特徴の埋め込みを適応的に蒸留および調和させるための決定論的な不確実性の推定を導入します。
私たちの方法では、2つの重要な課題に対処します。(1)空間的に認識されたビジョン基礎モデルの幾何学的知識とともにVLMのセマンティックプリエアを組み込むこと、および(2)多様なセマンティックおよび幾何学的感受性を介したモデル固有の不確実性を捉えて、トレーニング中の独立した表現を再現するのに役立つモデル固有の不確実性をキャプチャするために使用します。
scannetv2およびmatterport3dでの広範な実験は、私たちの方法がオープンボキャブラリーセグメンテーションを進めるだけでなく、堅牢なクロスドメインアライメントと競争力のある空間認識能力を達成することを示しています。
コードは、https://github.com/tyroneli/cua_o3dで入手できます。

要約(オリジナル)

The lack of a large-scale 3D-text corpus has led recent works to distill open-vocabulary knowledge from vision-language models (VLMs). However, these methods typically rely on a single VLM to align the feature spaces of 3D models within a common language space, which limits the potential of 3D models to leverage the diverse spatial and semantic capabilities encapsulated in various foundation models. In this paper, we propose Cross-modal and Uncertainty-aware Agglomeration for Open-vocabulary 3D Scene Understanding dubbed CUA-O3D, the first model to integrate multiple foundation models-such as CLIP, DINOv2, and Stable Diffusion-into 3D scene understanding. We further introduce a deterministic uncertainty estimation to adaptively distill and harmonize the heterogeneous 2D feature embeddings from these models. Our method addresses two key challenges: (1) incorporating semantic priors from VLMs alongside the geometric knowledge of spatially-aware vision foundation models, and (2) using a novel deterministic uncertainty estimation to capture model-specific uncertainties across diverse semantic and geometric sensitivities, helping to reconcile heterogeneous representations during training. Extensive experiments on ScanNetV2 and Matterport3D demonstrate that our method not only advances open-vocabulary segmentation but also achieves robust cross-domain alignment and competitive spatial perception capabilities. The code will be available at: https://github.com/TyroneLi/CUA_O3D.

arxiv情報

著者 Jinlong Li,Cristiano Saltori,Fabio Poiesi,Nicu Sebe
発行日 2025-03-28 15:55:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Cross-Modal and Uncertainty-Aware Agglomeration for Open-Vocabulary 3D Scene Understanding はコメントを受け付けていません

MO-CTranS: A unified multi-organ segmentation model learning from multiple heterogeneously labelled datasets

要約

マルチオルガンセグメンテーションは、多くの臨床タスクで最も重要な重要性を保持しています。
実際には、大規模な完全に注釈付きのデータセットと比較して、複数の小さなデータセットがよりアクセスしやすく、臓器は一貫してラベル付けされていません。
通常、これらのデータセットごとに個々のモデルがトレーニングされますが、これはモデル学習にデータを使用する効果的な方法ではありません。
ラベルの競合とデータの不均衡の問題により、いくつかの部分的にラベル付けされたデータセットから堅牢に学習できる単一のモデルをトレーニングすることは困難なままです。
Mo-Ctransを提案します。そのような問題を克服できる単一のモデルです。
MO-CTRANSには、CNNベースのエンコーダーとトランスベースのデコーダーが含まれており、マルチ解像度で接続されています。
タスク固有のトークンは、ラベルの不一致を区別するのに役立つデコーダーに導入されています。
私たちの方法は評価され、いくつかのベースラインモデルと、異なるビュー(つまり、軸および冠状)で取得され、異なる臓器(すなわち肝臓、腎臓、脾臓)で注釈が付けられた腹部MRIデータセットの最先端(SOTA)ソリューションと比較されました。
私たちの方法は、比較方法よりも優れたパフォーマンス(ほとんどが統計的に有意でした)を達成しました。
githubリンク:https://github.com/naisops/mo-ctrans。

要約(オリジナル)

Multi-organ segmentation holds paramount significance in many clinical tasks. In practice, compared to large fully annotated datasets, multiple small datasets are often more accessible and organs are not labelled consistently. Normally, an individual model is trained for each of these datasets, which is not an effective way of using data for model learning. It remains challenging to train a single model that can robustly learn from several partially labelled datasets due to label conflict and data imbalance problems. We propose MO-CTranS: a single model that can overcome such problems. MO-CTranS contains a CNN-based encoder and a Transformer-based decoder, which are connected in a multi-resolution manner. Task-specific tokens are introduced in the decoder to help differentiate label discrepancies. Our method was evaluated and compared to several baseline models and state-of-the-art (SOTA) solutions on abdominal MRI datasets that were acquired in different views (i.e. axial and coronal) and annotated for different organs (i.e. liver, kidney, spleen). Our method achieved better performance (most were statistically significant) than the compared methods. Github link: https://github.com/naisops/MO-CTranS.

arxiv情報

著者 Zhendi Gong,Susan Francis,Eleanor Cox,Stamatios N. Sotiropoulos,Dorothee P. Auer,Guoping Qiu,Andrew P. French,Xin Chen
発行日 2025-03-28 16:00:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, I.2 | MO-CTranS: A unified multi-organ segmentation model learning from multiple heterogeneously labelled datasets はコメントを受け付けていません