Towards a General-Purpose Zero-Shot Synthetic Low-Light Image and Video Pipeline

要約

低光の条件は、人間と機械の両方の注釈に大きな課題をもたらします。
これにより、低光度画像、特に(特に)ビデオの機械の理解に関する研究が不足しています。
一般的なアプローチは、高品質のデータセットから得られた注釈を合成的に作成した低光バージョンに適用することです。
さらに、これらのアプローチは、非現実的なノイズモデルを使用することにより、しばしば制限されています。
この論文では、カメラメタデータを必要とせずに現実的な標準RGB(SRGB)ノイズを合成する合成的に生成する新しい劣化推定ネットワーク(DEN)を提案します。
これは、物理学に基づいたノイズ分布のパラメーターを推定することで達成され、自己補助的な方法で訓練されています。
このゼロショットアプローチにより、トレーニングデータのノイズ特性の再現に焦点を当てた他の方法とは異なり、さまざまな範囲の現実的なノイズ特性を備えた合成ノイズの多いコンテンツを生成できます。
合成ノイズの複製、ビデオ強化、オブジェクト検出などの典型的な低光タスクの合成データでトレーニングされたさまざまな方法を使用して、提案された合成パイプラインを評価し、それぞれ最大24 \%kld、21 \%lpips、および62 \%ap $ _ {50-95} $の改善を示します。

要約(オリジナル)

Low-light conditions pose significant challenges for both human and machine annotation. This in turn has led to a lack of research into machine understanding for low-light images and (in particular) videos. A common approach is to apply annotations obtained from high quality datasets to synthetically created low light versions. In addition, these approaches are often limited through the use of unrealistic noise models. In this paper, we propose a new Degradation Estimation Network (DEN), which synthetically generates realistic standard RGB (sRGB) noise without the requirement for camera metadata. This is achieved by estimating the parameters of physics-informed noise distributions, trained in a self-supervised manner. This zero-shot approach allows our method to generate synthetic noisy content with a diverse range of realistic noise characteristics, unlike other methods which focus on recreating the noise characteristics of the training data. We evaluate our proposed synthetic pipeline using various methods trained on its synthetic data for typical low-light tasks including synthetic noise replication, video enhancement, and object detection, showing improvements of up to 24\% KLD, 21\% LPIPS, and 62\% AP$_{50-95}$, respectively.

arxiv情報

著者 Joanne Lin,Crispian Morris,Ruirui Lin,Fan Zhang,David Bull,Nantheera Anantrasirichai
発行日 2025-04-16 15:19:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | Towards a General-Purpose Zero-Shot Synthetic Low-Light Image and Video Pipeline はコメントを受け付けていません

InfoNCE: Identifying the Gap Between Theory and Practice

要約

Infonceの損失を介した対照学習に関する以前の理論は、特定の仮定の下で、学習した表現が根底に潜在的な要因を回復することを示しました。
これらの理論は、CLが実際にどのように展開されるかの重要な側面を見落としていると主張します。
具体的には、それらはすべての潜伏物にわたって等しい分散を想定しているか、特定の潜伏物が不変に保たれていると想定しています。
ただし、実際には、強い作物などの増強を使用して数ピクセルを使用して、正のペアが生成されることがよくあります。
したがって、より現実的な仮定は、すべての潜在要因がすべての要因にわたって変動の連続性によって変化することです。
Aninfonceを紹介します。これは、この異方性の環境で潜在的要因を明らかに明らかにすることができるInfonceの一般化であり、CLで以前の識別可能性の結果を広く一般化します。
制御された実験での識別可能性の結果を検証し、Aninfonceが下流の精度を犠牲にしているにもかかわらず、CIFAR10およびImagenetで以前に崩壊した情報の回復を増加させることを示します。
最後に、理論的仮定と実際の実装の間の残りの不一致について説明します。

要約(オリジナル)

Prior theory work on Contrastive Learning via the InfoNCE loss showed that, under certain assumptions, the learned representations recover the ground-truth latent factors. We argue that these theories overlook crucial aspects of how CL is deployed in practice. Specifically, they either assume equal variance across all latents or that certain latents are kept invariant. However, in practice, positive pairs are often generated using augmentations such as strong cropping to just a few pixels. Hence, a more realistic assumption is that all latent factors change with a continuum of variability across all factors. We introduce AnInfoNCE, a generalization of InfoNCE that can provably uncover the latent factors in this anisotropic setting, broadly generalizing previous identifiability results in CL. We validate our identifiability results in controlled experiments and show that AnInfoNCE increases the recovery of previously collapsed information in CIFAR10 and ImageNet, albeit at the cost of downstream accuracy. Finally, we discuss the remaining mismatches between theoretical assumptions and practical implementations.

arxiv情報

著者 Evgenia Rusak,Patrik Reizinger,Attila Juhos,Oliver Bringmann,Roland S. Zimmermann,Wieland Brendel
発行日 2025-04-16 15:26:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, stat.ML | InfoNCE: Identifying the Gap Between Theory and Practice はコメントを受け付けていません

SpiritSight Agent: Advanced GUI Agent with One Look

要約

グラフィカルユーザーインターフェイス(GUI)エージェントは、ヒューマンコンピューターの相互作用を支援し、デジタルデバイスでのヒューマンユーザーのナビゲーションを自動化する驚くべき能力を示しています。
理想的なGUIエージェントは、さまざまなGUIプラットフォームの高精度、低遅延、互換性を達成することが期待されています。
最近のビジョンベースのアプローチは、高度なビジョン言語モデル(VLM)を活用することにより有望であることが示されています。
一般に、互換性と遅延の要件を満たしていますが、これらの視覚ベースのGUIエージェントは、要素の接地の制限により、精度が低い傾向があります。
この問題に対処するために、さまざまなGUIプラットフォームでGUIナビゲーションタスクに優れているビジョンベースのエンドツーエンドGUIエージェントである$ \ textbf {spiritight} $を提案します。
まず、スケーラブルな方法を使用して$ \ textBf {gui-lasagne} $と呼ばれるマルチレベルの大規模で高品質のGUIデータセットを作成し、堅牢なGUIの理解と接地能力を備えたSpiritsightに力を与えます。
次に、$ \ textbf {Universal block parsing(ubp)} $メソッドを導入して、視覚入力の動的な高解像度の曖昧さの問題を解決し、GUIオブジェクトを接地するSpiritsightの能力をさらに高めます。
これらの取り組みを通じて、Spiritsightエージェントは、多様なGUIベンチマークの他の高度な方法を上回り、GUIナビゲーションタスクにおける優れた能力と互換性を実証します。
モデルとデータセットは、https://hzhiyuan.github.io/spiritsight-agentで入手できます。

要約(オリジナル)

Graphical User Interface (GUI) agents show amazing abilities in assisting human-computer interaction, automating human user’s navigation on digital devices. An ideal GUI agent is expected to achieve high accuracy, low latency, and compatibility for different GUI platforms. Recent vision-based approaches have shown promise by leveraging advanced Vision Language Models (VLMs). While they generally meet the requirements of compatibility and low latency, these vision-based GUI agents tend to have low accuracy due to their limitations in element grounding. To address this issue, we propose $\textbf{SpiritSight}$, a vision-based, end-to-end GUI agent that excels in GUI navigation tasks across various GUI platforms. First, we create a multi-level, large-scale, high-quality GUI dataset called $\textbf{GUI-Lasagne}$ using scalable methods, empowering SpiritSight with robust GUI understanding and grounding capabilities. Second, we introduce the $\textbf{Universal Block Parsing (UBP)}$ method to resolve the ambiguity problem in dynamic high-resolution of visual inputs, further enhancing SpiritSight’s ability to ground GUI objects. Through these efforts, SpiritSight agent outperforms other advanced methods on diverse GUI benchmarks, demonstrating its superior capability and compatibility in GUI navigation tasks. Models and datasets are available at https://hzhiyuan.github.io/SpiritSight-Agent.

arxiv情報

著者 Zhiyuan Huang,Ziming Cheng,Junting Pan,Zhaohui Hou,Mingjie Zhan
発行日 2025-04-16 15:34:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.HC, cs.RO | SpiritSight Agent: Advanced GUI Agent with One Look はコメントを受け付けていません

A Semi-Self-Supervised Approach for Dense-Pattern Video Object Segmentation

要約

ビデオオブジェクトセグメンテーション(VOS) – ビデオの各フレーム内のオブジェクトのピクセルレベルの領域を予測する – は、作物のビデオには、揺れ動き、閉塞されたオブジェクト(茎、葉、花、ポッド)が揺れ、閉じ込められたオブジェクト(茎、葉、花、ポッド)が含まれる農業シナリオで特に困難です。
監督されたトレーニングはVOSの最先端ですが、各フレームに多くの密に詰まったオブジェクトを備えたビデオのために制作するのに費用がかかる、大規模でピクセルが活用された、人間が注目したビデオが必要です。
これらの課題に対処するために、マルチタスク(再構成とセグメンテーション)学習を通じて拡散ベースの方法を使用して、密集したvos(DVO)の半自己監視時空間的アプローチを提案しました。
最初にモデルをトレーニングします。これは、実際のビデオのカメラとオブジェクトの動きを模倣し、次に疑似標識ビデオでオブジェクトの動きを模倣します。
多様な一連のビデオ(ハンドヘルド、ドローンキャプチャされた、異なるフィールドロケーション、およびさまざまな成長段階)からの小麦ヘッドセグメンテーションのDVOSメソッドを評価します。
手動で注釈付きのビデオフレームしか使用していないにもかかわらず、提案されたアプローチは高性能モデルを生成し、ドローンキャプチャされた外部テストセットでテストされた場合、0.79のサイコロスコアを達成しました。
私たちの方法は小麦の頭部のセグメンテーションで評価されましたが、群​​衆分析や顕微鏡画像分析など、他の作物やドメインに拡張できます。

要約(オリジナル)

Video object segmentation (VOS) — predicting pixel-level regions for objects within each frame of a video — is particularly challenging in agricultural scenarios, where videos of crops include hundreds of small, dense, and occluded objects (stems, leaves, flowers, pods) that sway and move unpredictably in the wind. Supervised training is the state-of-the-art for VOS, but it requires large, pixel-accurate, human-annotated videos, which are costly to produce for videos with many densely packed objects in each frame. To address these challenges, we proposed a semi-self-supervised spatiotemporal approach for dense-VOS (DVOS) using a diffusion-based method through multi-task (reconstruction and segmentation) learning. We train the model first with synthetic data that mimics the camera and object motion of real videos and then with pseudo-labeled videos. We evaluate our DVOS method for wheat head segmentation from a diverse set of videos (handheld, drone-captured, different field locations, and different growth stages — spanning from Boot-stage to Wheat-mature and Harvest-ready). Despite using only a few manually annotated video frames, the proposed approach yielded a high-performing model, achieving a Dice score of 0.79 when tested on a drone-captured external test set. While our method was evaluated on wheat head segmentation, it can be extended to other crops and domains, such as crowd analysis or microscopic image analysis.

arxiv情報

著者 Keyhan Najafian,Farhad Maleki,Lingling Jin,Ian Stavness
発行日 2025-04-16 15:37:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | A Semi-Self-Supervised Approach for Dense-Pattern Video Object Segmentation はコメントを受け付けていません

CoMotion: Concurrent Multi-person 3D Motion

要約

単一の単眼カメラストリームから複数の人々の詳細な3Dポーズを検出および追跡するためのアプローチを紹介します。
私たちのシステムは、困難なポーズや閉塞で満たされた混雑したシーンで、一時的に一貫した予測を維持しています。
私たちのモデルは、強力なフレームごとの検出と、フレームからフレームへの人々を追跡するための学習ポーズアップデートの両方を実行します。
時間を越えて一致するのではなく、ポーズは新しい入力画像から直接更新されます。これにより、オクルージョンによるオンライン追跡が可能になります。
擬似標識アノテーションを活用する多数の画像およびビデオデータセットでトレーニングして、3Dポーズ推定の精度で最先端のシステムに一致するモデルを作成しながら、時間をかけて複数の人を追跡する方が速く、より正確になります。
コードと重みはhttps://github.com/apple/ml-comotionで提供されます

要約(オリジナル)

We introduce an approach for detecting and tracking detailed 3D poses of multiple people from a single monocular camera stream. Our system maintains temporally coherent predictions in crowded scenes filled with difficult poses and occlusions. Our model performs both strong per-frame detection and a learned pose update to track people from frame to frame. Rather than match detections across time, poses are updated directly from a new input image, which enables online tracking through occlusion. We train on numerous image and video datasets leveraging pseudo-labeled annotations to produce a model that matches state-of-the-art systems in 3D pose estimation accuracy while being faster and more accurate in tracking multiple people through time. Code and weights are provided at https://github.com/apple/ml-comotion

arxiv情報

著者 Alejandro Newell,Peiyun Hu,Lahav Lipson,Stephan R. Richter,Vladlen Koltun
発行日 2025-04-16 15:40:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | CoMotion: Concurrent Multi-person 3D Motion はコメントを受け付けていません

Beyond Patches: Mining Interpretable Part-Prototypes for Explainable AI

要約

ディープラーニングは、マルチメディアシステムにかなりの進歩をもたらしましたが、深いモデルの解釈可能性は依然として課題です。
GradCamなどの最先端の事後説明方法は、ヒートマップに基づいて視覚的な解釈を提供しますが、概念的な明確さはありません。
プロトプネットやPIPNETなどのプロトタイプベースのアプローチは、より構造化された説明を提供しますが、固定されたパッチに依存して、堅牢性とセマンティックの一貫性を制限します。
これらの制限に対処するために、意味のある地域から解釈可能なプロトタイプを動的に学習することを提案しています。
PCMNETクラスタープロトタイプは概念グループになり、追加の注釈を必要とせずに意味的に根拠のある説明を作成します。
監視されていない部分の発見と概念のアクティベーションベクター抽出の共同プロセスを通じて、PCMNETは差別的概念を効果的にキャプチャし、解釈可能な分類決定を行います。
PCMNETを複数のデータセットで最先端のメソッドと比較する広範な実験は、クリーンで閉塞されたシナリオの下で高レベルの解釈可能性、安定性、堅牢性を提供できることを示しています。

要約(オリジナル)

Deep learning has provided considerable advancements for multimedia systems, yet the interpretability of deep models remains a challenge. State-of-the-art post-hoc explainability methods, such as GradCAM, provide visual interpretation based on heatmaps but lack conceptual clarity. Prototype-based approaches, like ProtoPNet and PIPNet, offer a more structured explanation but rely on fixed patches, limiting their robustness and semantic consistency. To address these limitations, a part-prototypical concept mining network (PCMNet) is proposed that dynamically learns interpretable prototypes from meaningful regions. PCMNet clusters prototypes into concept groups, creating semantically grounded explanations without requiring additional annotations. Through a joint process of unsupervised part discovery and concept activation vector extraction, PCMNet effectively captures discriminative concepts and makes interpretable classification decisions. Our extensive experiments comparing PCMNet against state-of-the-art methods on multiple datasets show that it can provide a high level of interpretability, stability, and robustness under clean and occluded scenarios.

arxiv情報

著者 Mahdi Alehdaghi,Rajarshi Bhattacharya,Pourya Shamsolmoali,Rafael M. O. Cruz,Maguelonne Heritier,Eric Granger
発行日 2025-04-16 15:48:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Beyond Patches: Mining Interpretable Part-Prototypes for Explainable AI はコメントを受け付けていません

Modality-Independent Explainable Detection of Inaccurate Organ Segmentations Using Denoising Autoencoders

要約

放射線療法の計画では、臨床医によって検出されない場合、危険にさらされている臓器の不正確なセグメンテーションは、最適でない治療の送達をもたらす可能性があります。
この課題に対処するために、不正確な臓器セグメンテーションを検出するための非自動エンコーダーベースの方法を開発しました。
グラウンドトゥルースオルガンのセグメンテーションにノイズを適用し、自動エンコーダーはそれらを除去するように任されました。
MRとCTスキャンとCTスキャンの両方で生成された臓器セグメンテーションへの方法を適用することにより、この方法はイメージングモダリティとは無関係であることを実証しました。
再構成を提供することにより、当社の方法は、臓器セグメンテーションの不正確な領域に関する視覚情報を提供し、最適ではないセグメンテーションのより説明可能な検出につながります。
私たちの方法を文献の既存のアプローチと比較し、大部分の臓器で優れたパフォーマンスを達成したことを実証しました。

要約(オリジナル)

In radiation therapy planning, inaccurate segmentations of organs at risk can result in suboptimal treatment delivery, if left undetected by the clinician. To address this challenge, we developed a denoising autoencoder-based method to detect inaccurate organ segmentations. We applied noise to ground truth organ segmentations, and the autoencoders were tasked to denoise them. Through the application of our method to organ segmentations generated on both MR and CT scans, we demonstrated that the method is independent of imaging modality. By providing reconstructions, our method offers visual information about inaccurate regions of the organ segmentations, leading to more explainable detection of suboptimal segmentations. We compared our method to existing approaches in the literature and demonstrated that it achieved superior performance for the majority of organs.

arxiv情報

著者 Levente Lippenszky,István Megyeri,Krisztian Koos,Zsófia Karancsi,Borbála Deák-Karancsi,András Frontó,Árpád Makk,Attila Rádics,Erhan Bas,László Ruskó
発行日 2025-04-16 15:53:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | Modality-Independent Explainable Detection of Inaccurate Organ Segmentations Using Denoising Autoencoders はコメントを受け付けていません

Towards Realistic Low-Light Image Enhancement via ISP Driven Data Modeling

要約

ディープニューラルネットワーク(DNNS)は、最近、低照度画像強化(LLIE)の主要な方法となっています。
ただし、大幅な進歩にもかかわらず、それらの出力は、増幅されたノイズ、ホワイトバランスの誤ったバランス、または実際のアプリケーションに展開されたときの不自然な強化などの問題を依然として示している可能性があります。
重要な課題は、低光条件とイメージングパイプラインの複雑さをキャプチャする多様で大規模なトレーニングデータの欠如です。
この論文では、無制限のペアトレーニングデータを生成することにより、これらの課題に対処する新しい画像信号処理(ISP)駆動型のデータ合成パイプラインを提案します。
具体的には、私たちのパイプラインは、簡単に収集された高品質の通常の光画像から始まります。これは、逆ISPを使用して最初に未加工の形式に処理されていません。
次に、生ドメインで直接低光の分解を合成します。
その後、結果のデータは、ホワイトバランスの調整、カラースペース変換、トーンマッピング、ガンマ補正などの一連のISP段階を通じて処理され、各段階で導入された制御バリエーションが導入されます。
これにより、分解空間が広がり、トレーニングデータの多様性が向上し、生成されたデータがISPパイプラインに固有の広範な劣化と複雑さをキャプチャできるようにします。
合成パイプラインの有効性を実証するために、畳み込み層、グループ正規化、GELU活性化、および畳み込みブロック注意モジュール(CBAM)のみで構成されるバニラUNETモデルを使用して、広範な実験を実施します。
複数のデータセットにわたる広範なテストにより、データシンセシスパイプラインで訓練されたバニラUNETモデルが、視覚的に魅力的な強化結果を提供し、定量的および定性的に最先端の(SOTA)メソッドを上回ることが明らかになりました。

要約(オリジナル)

Deep neural networks (DNNs) have recently become the leading method for low-light image enhancement (LLIE). However, despite significant progress, their outputs may still exhibit issues such as amplified noise, incorrect white balance, or unnatural enhancements when deployed in real world applications. A key challenge is the lack of diverse, large scale training data that captures the complexities of low-light conditions and imaging pipelines. In this paper, we propose a novel image signal processing (ISP) driven data synthesis pipeline that addresses these challenges by generating unlimited paired training data. Specifically, our pipeline begins with easily collected high-quality normal-light images, which are first unprocessed into the RAW format using a reverse ISP. We then synthesize low-light degradations directly in the RAW domain. The resulting data is subsequently processed through a series of ISP stages, including white balance adjustment, color space conversion, tone mapping, and gamma correction, with controlled variations introduced at each stage. This broadens the degradation space and enhances the diversity of the training data, enabling the generated data to capture a wide range of degradations and the complexities inherent in the ISP pipeline. To demonstrate the effectiveness of our synthetic pipeline, we conduct extensive experiments using a vanilla UNet model consisting solely of convolutional layers, group normalization, GeLU activation, and convolutional block attention modules (CBAMs). Extensive testing across multiple datasets reveals that the vanilla UNet model trained with our data synthesis pipeline delivers high fidelity, visually appealing enhancement results, surpassing state-of-the-art (SOTA) methods both quantitatively and qualitatively.

arxiv情報

著者 Zhihua Wang,Yu Long,Qinghua Lin,Kai Zhang,Yazhu Zhang,Yuming Fang,Li Liu,Xiaochun Cao
発行日 2025-04-16 15:53:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM | Towards Realistic Low-Light Image Enhancement via ISP Driven Data Modeling はコメントを受け付けていません

Self-Supervised Enhancement of Forward-Looking Sonar Images: Bridging Cross-Modal Degradation Gaps through Feature Space Transformation and Multi-Frame Fusion

要約

正確な水中ターゲット検出には、前向きに見えるソナー画像を強化することが重要です。
現在の深い学習方法は、主にシミュレートされたデータを使用した監視されたトレーニングに依存していますが、高品質の実世界のペアのデータを取得するのが難しいため、実用化と一般化が制限されます。
リモートセンシングからの自己教師のアプローチは、データ不足を部分的に緩和しますが、ソナーとリモートセンシング画像の間のクロスモーダルの劣化ギャップを無視します。
前処理された重量を直接転送すると、しばしば過度に滑らかなソナー画像、詳細の喪失、輝度が不十分になります。
これに対処するために、ソナーイメージをピクセルドメインから堅牢な特徴ドメインにマッピングする機能空間変換を提案し、劣化ギャップを効果的に架けます。
さらに、私たちの自己監視されたマルチフレーム融合戦略は、補完的なインターフレーム情報を活用して、スペックルノイズを自然に除去し、ターゲット地域の明るさを強化します。
3つの自己収集された現実世界の将来を見据えたソナーデータセットの実験は、我々の方法が既存のアプローチを大幅に上回り、効果的にノイズを抑制し、詳細なエッジを維持し、輝度を大幅に改善し、水中ターゲット検出アプリケーションの強力な可能性を示していることを示しています。

要約(オリジナル)

Enhancing forward-looking sonar images is critical for accurate underwater target detection. Current deep learning methods mainly rely on supervised training with simulated data, but the difficulty in obtaining high-quality real-world paired data limits their practical use and generalization. Although self-supervised approaches from remote sensing partially alleviate data shortages, they neglect the cross-modal degradation gap between sonar and remote sensing images. Directly transferring pretrained weights often leads to overly smooth sonar images, detail loss, and insufficient brightness. To address this, we propose a feature-space transformation that maps sonar images from the pixel domain to a robust feature domain, effectively bridging the degradation gap. Additionally, our self-supervised multi-frame fusion strategy leverages complementary inter-frame information to naturally remove speckle noise and enhance target-region brightness. Experiments on three self-collected real-world forward-looking sonar datasets show that our method significantly outperforms existing approaches, effectively suppressing noise, preserving detailed edges, and substantially improving brightness, demonstrating strong potential for underwater target detection applications.

arxiv情報

著者 Zhisheng Zhang,Peng Zhang,Fengxiang Wang,Liangli Ma,Fuchun Sun
発行日 2025-04-16 15:58:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | Self-Supervised Enhancement of Forward-Looking Sonar Images: Bridging Cross-Modal Degradation Gaps through Feature Space Transformation and Multi-Frame Fusion はコメントを受け付けていません

MMCLIP: Cross-modal Attention Masked Modelling for Medical Language-Image Pre-Training

要約

医療分野のビジョンと言語の事前トレーニング(VLP)は、画像テキストペアで対照的な学習を利用して、タスク間の効果的な転送を実現します。
しかし、マスクされたモデリング戦略を使用して現在のVLPがアプローチします。医療ドメインに適用すると、2つの課題があります。
第一に、現在のモデルは、医療データが不足しているため、主要な病理学的特徴を正確に再構築するのに苦労しています。
第二に、ほとんどの方法では、ペアの画像テキストまたは画像のみのデータのみを採用し、ペアの両方のデータと対応のないデータの組み合わせを活用できません。
この目的のために、このペーパーでは、MMCLIP(マスクされた医学的対照的な言語イメージ前トレーニング)フレームワークを提案して、病理学的学習を強化し、対応のないデータを介して学習を特徴としています。
まず、マルチモーダルの特徴の相互作用を介して病理学的視覚およびテキストのトークンを再構築することを学ぶことを学ぶことを学ぶことを学ぶ、注意マスク画像モデリング(ATTMIM)およびエンティティ駆動型マスク言語モデリングモジュール(ENTMLM)を紹介します。
ATTMIMモジュールは、テキスト機能に非常に敏感な画像機能の一部をマスクします。
これにより、MMCLIPは医学効率における非常に類似した画像データの再構築を改善することができます。
第二に、私たちのMMCLIPは、病気の現状のプロンプトを導入することにより、マルチモーダル学習を強化するために、不対のデータを大文字にします。
実験結果は、MMCLIPが5つのデータセットでゼロショットおよび微調整分類パフォーマンスのSOTAを達成することを示しています。
当社のコードは、https://github.com/aigeeksgroup/mmclipで入手できます。

要約(オリジナル)

Vision-and-language pretraining (VLP) in the medical field utilizes contrastive learning on image-text pairs to achieve effective transfer across tasks. Yet, current VLP approaches with the masked modeling strategy face two challenges when applied to the medical domain. First, current models struggle to accurately reconstruct key pathological features due to the scarcity of medical data. Second, most methods only adopt either paired image-text or image-only data, failing to exploit the combination of both paired and unpaired data. To this end, this paper proposes the MMCLIP (Masked Medical Contrastive Language-Image Pre-Training) framework to enhance pathological learning and feature learning via unpaired data. First, we introduce the attention-masked image modeling (AttMIM) and entity-driven masked language modeling module (EntMLM), which learns to reconstruct pathological visual and textual tokens via multi-modal feature interaction, thus improving medical-enhanced features. The AttMIM module masks a portion of the image features that are highly responsive to textual features. This allows MMCLIP to improve the reconstruction of highly similar image data in medicine efficiency. Second, our MMCLIP capitalizes unpaired data to enhance multimodal learning by introducing disease-kind prompts. The experimental results show that MMCLIP achieves SOTA for zero-shot and fine-tuning classification performance on five datasets. Our code will be available at https://github.com/AIGeeksGroup/MMCLIP.

arxiv情報

著者 Biao Wu,Yutong Xie,Zeyu Zhang,Minh Hieu Phan,Qi Chen,Ling Chen,Qi Wu
発行日 2025-04-16 16:00:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | MMCLIP: Cross-modal Attention Masked Modelling for Medical Language-Image Pre-Training はコメントを受け付けていません