Noise-Tolerant Coreset-Based Class Incremental Continual Learning

要約

コンピュータービジョンの多くのアプリケーションでは、展開後に新しいデータ分布に適応する機能が必要です。
適応には、継続的な学習が可能なアルゴリズム(CL)が必要です。
継続的な学習者は、以前のタスクの忘れを最小限に抑えながら、新しいタスクに適応するためにプラスチックでなければなりません。
この作業は、クラスインクレメント学習(CIL)のコンテキストでのラベルノイズとインスタンスノイズに焦点を当てています。ここでは、新しいクラスが時間の経過とともに分類子に追加され、過去のクラスの外部データへのアクセスはありません。
コアセットのアイデアを使用して構築されたメモリからアイテムを再生することで機能するCLメソッドの感度を理解することを目指しています。
私たちは、一般的な添加剤ノイズ脅威モデルの下で無相関のインスタンスノイズに、そのような方法の堅牢性の新しい境界を導き出し、いくつかの洞察を明らかにします。
理論を実践すると、2つの継続的な学習アルゴリズムを作成して、ノイズ耐性リプレイバッファーを構築します。
5つの多様なデータセットでのラベルおよび無相関インスタンスノイズの下で、以前のメモリベースの継続学習者と提案されたアルゴリズムの有効性を経験的に比較します。
既存のメモリベースのCLは堅牢ではないのに対し、提案された方法は分類精度を最大化し、騒々しいCIL設定で忘却を最小化することに大幅な改善を示します。

要約(オリジナル)

Many applications of computer vision require the ability to adapt to novel data distributions after deployment. Adaptation requires algorithms capable of continual learning (CL). Continual learners must be plastic to adapt to novel tasks while minimizing forgetting of previous tasks.However, CL opens up avenues for noise to enter the training pipeline and disrupt the CL. This work focuses on label noise and instance noise in the context of class-incremental learning (CIL), where new classes are added to a classifier over time, and there is no access to external data from past classes. We aim to understand the sensitivity of CL methods that work by replaying items from a memory constructed using the idea of Coresets. We derive a new bound for the robustness of such a method to uncorrelated instance noise under a general additive noise threat model, revealing several insights. Putting the theory into practice, we create two continual learning algorithms to construct noise-tolerant replay buffers. We empirically compare the effectiveness of prior memory-based continual learners and the proposed algorithms under label and uncorrelated instance noise on five diverse datasets. We show that existing memory-based CL are not robust whereas the proposed methods exhibit significant improvements in maximizing classification accuracy and minimizing forgetting in the noisy CIL setting.

arxiv情報

著者 Edison Mucllari,Aswin Raghavan,Zachary Alan Daniels
発行日 2025-04-23 14:34:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.NE | Noise-Tolerant Coreset-Based Class Incremental Continual Learning はコメントを受け付けていません

OSDFace: One-Step Diffusion Model for Face Restoration

要約

拡散モデルは、顔の修復における印象的なパフォーマンスを実証しています。
しかし、それらのマルチステップ推論プロセスは計算集中的なままであり、実際のシナリオでの適用性を制限しています。
さらに、既存の方法はしばしば、対象のアイデンティティと一致する、調和がよく、現実的で、一致する顔の画像を生成するのに苦労しています。
この作業では、顔の修復のための新しいワンステップ拡散モデルであるOSDFACEを提案します。
具体的には、以前の情報をよりよくキャプチャし、入力フェイスを理解するために、視覚表現胚(VRE)を提案します。
VREでは、低品質の面は視覚トークネザーによって処理され、その後、視覚プロンプトを生成するためにベクター定量化された辞書が埋め込まれます。
さらに、顔認識から得られた顔のアイデンティティの損失を組み込み、アイデンティティの一貫性をさらに確保します。
さらに、復元された顔とグラウンドトゥルースの間の分布の調整を促進するためのガイダンスモデルとして、生成敵対的ネットワーク(GAN)を採用します。
実験結果は、OSDFACEが視覚的品質と定量的メトリックの両方で現在の最先端(SOTA)メソッドを上回り、高い忠実さの自然な顔の画像を生成し、アイデンティティの一貫性が高いことを示しています。
コードとモデルはhttps://github.com/jkwang28/osdfaceでリリースされます。

要約(オリジナル)

Diffusion models have demonstrated impressive performance in face restoration. Yet, their multi-step inference process remains computationally intensive, limiting their applicability in real-world scenarios. Moreover, existing methods often struggle to generate face images that are harmonious, realistic, and consistent with the subject’s identity. In this work, we propose OSDFace, a novel one-step diffusion model for face restoration. Specifically, we propose a visual representation embedder (VRE) to better capture prior information and understand the input face. In VRE, low-quality faces are processed by a visual tokenizer and subsequently embedded with a vector-quantized dictionary to generate visual prompts. Additionally, we incorporate a facial identity loss derived from face recognition to further ensure identity consistency. We further employ a generative adversarial network (GAN) as a guidance model to encourage distribution alignment between the restored face and the ground truth. Experimental results demonstrate that OSDFace surpasses current state-of-the-art (SOTA) methods in both visual quality and quantitative metrics, generating high-fidelity, natural face images with high identity consistency. The code and model will be released at https://github.com/jkwang28/OSDFace.

arxiv情報

著者 Jingkai Wang,Jue Gong,Lin Zhang,Zheng Chen,Xing Liu,Hong Gu,Yutong Liu,Yulun Zhang,Xiaokang Yang
発行日 2025-04-23 14:42:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | OSDFace: One-Step Diffusion Model for Face Restoration はコメントを受け付けていません

Adapter-Enhanced Semantic Prompting for Continual Learning

要約

継続的な学習(CL)により、モデルは進化するデータストリームに適応できます。
CLの主要な課題は、壊滅的な忘却です。ここでは、新しい知識が以前に獲得した知識を上書きします。
従来の方法は通常、モデルにリプレイまたは追加のブランチを追加するための過去のデータを保持して、高いメモリ要件を持つ新しい知識を学習します。
このホワイトペーパーでは、プロンプトチューニングとアダプターのテクニックを統合する新しい軽量CLフレームワーク、アダプター強化セマンティックプロンプト(AESP)を提案します。
具体的には、セマンティックガイド付きプロンプトを設計して、視覚機能の一般化能力を強化し、アダプターを利用してセマンティック情報を効率的に融合し、継続的な学習タスクの適応機能をより多く学ぶことを目指しています。
さらに、機能適応のために適切なタスクプロンプトを選択するために、迅速な選択のための新しいマッチングメカニズムを開発しました。
3つのCLデータセットでの広範な実験は、私たちのアプローチが複数のメトリックにわたって好ましいパフォーマンスを達成し、CLを進める可能性を示していることを示しています。

要約(オリジナル)

Continual learning (CL) enables models to adapt to evolving data streams. A major challenge of CL is catastrophic forgetting, where new knowledge will overwrite previously acquired knowledge. Traditional methods usually retain the past data for replay or add additional branches in the model to learn new knowledge, which has high memory requirements. In this paper, we propose a novel lightweight CL framework, Adapter-Enhanced Semantic Prompting (AESP), which integrates prompt tuning and adapter techniques. Specifically, we design semantic-guided prompts to enhance the generalization ability of visual features and utilize adapters to efficiently fuse the semantic information, aiming to learn more adaptive features for the continual learning task. Furthermore, to choose the right task prompt for feature adaptation, we have developed a novel matching mechanism for prompt selection. Extensive experiments on three CL datasets demonstrate that our approach achieves favorable performance across multiple metrics, showing its potential for advancing CL.

arxiv情報

著者 Baocai Yin,Ji Zhao,Huajie Jiang,Ningning Hou,Yongli Hu,Amin Beheshti,Ming-Hsuan Yang,Yuankai Qi
発行日 2025-04-23 14:44:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Adapter-Enhanced Semantic Prompting for Continual Learning はコメントを受け付けていません

Advanced Chest X-Ray Analysis via Transformer-Based Image Descriptors and Cross-Model Attention Mechanism

要約

胸部X線画像の検査は、さまざまな胸部疾患を検出する上で重要な要素です。
この研究では、クロスモーダルの注意とGPT-4ベースのトランスデコーダーを備えたVision Transformer(VIT)エンコーダーを統合する新しい画像説明生成モデルを紹介します。
VITは、胸部X線から高品質の視覚機能を捉えています。これらは、画像の説明の精度、コンテキスト、豊かさを改善するために、クロスモーダルの注意を払ってテキストデータと融合しています。
GPT-4デコーダーは、これらの融合機能を正確で関連性のあるキャプションに変換します。
このモデルは、国立衛生研究所(NIH)およびインディアナ大学(IU)チェストX線データセットでテストされました。
IUデータセットでは、0.854(B-1)、0.883(Cider)、0.759(Meteor)、および0.712(Rouge-L)のスコアを達成しました。
NIHデータセットでは、BLEU 1-4(0.825、0.788、0.765、0.752)、Cider(0.857)、Meteor(0.726)、およびRouge-L(0.705)のすべてのメトリックで最高のパフォーマンスを達成しました。
このフレームワークには、胸部X線評価を強化し、放射線科医がより正確で効率的な診断を支援する可能性があります。

要約(オリジナル)

The examination of chest X-ray images is a crucial component in detecting various thoracic illnesses. This study introduces a new image description generation model that integrates a Vision Transformer (ViT) encoder with cross-modal attention and a GPT-4-based transformer decoder. The ViT captures high-quality visual features from chest X-rays, which are fused with text data through cross-modal attention to improve the accuracy, context, and richness of image descriptions. The GPT-4 decoder transforms these fused features into accurate and relevant captions. The model was tested on the National Institutes of Health (NIH) and Indiana University (IU) Chest X-ray datasets. On the IU dataset, it achieved scores of 0.854 (B-1), 0.883 (CIDEr), 0.759 (METEOR), and 0.712 (ROUGE-L). On the NIH dataset, it achieved the best performance on all metrics: BLEU 1–4 (0.825, 0.788, 0.765, 0.752), CIDEr (0.857), METEOR (0.726), and ROUGE-L (0.705). This framework has the potential to enhance chest X-ray evaluation, assisting radiologists in more precise and efficient diagnosis.

arxiv情報

著者 Lakshita Agarwal,Bindu Verma
発行日 2025-04-23 14:46:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | Advanced Chest X-Ray Analysis via Transformer-Based Image Descriptors and Cross-Model Attention Mechanism はコメントを受け付けていません

Towards Explainable AI: Multi-Modal Transformer for Video-based Image Description Generation

要約

ビデオアクションの理解と分析は、特にインテリジェント監視や自律システムなどのビデオベースのアプリケーションで、洞察に富んだコンテキスト化された説明を作成するために不可欠です。
提案された研究では、テキストと視覚のモダリティを組み合わせて、ビデオデータセットから自然言語の説明を生成するための新しいフレームワークを紹介します。
推奨されるアーキテクチャでは、ResNet50を使用して、Microsoft Research Video Description Corpus(MSVD)から取得したビデオフレームから視覚的な機能を抽出し、Berkeley Deepdrive説明(BDD-X)データセットを抽出します。
抽出された視覚特性は、パッチ埋め込みに変換され、生成事前トレーニングトランス2(GPT-2)に基づいてエンコーダーデコーダーモデルを介して実行されます。
テキストと視覚の表現を調整し、高品質の説明生産を保証するために、システムは多目的自己触たちとクロスアテンション技術を使用します。
モデルの有効性は、BLEU(1-4)、Cider、Meteor、およびRouge-Lを使用したパフォーマンス評価によって実証されています。
提案されたフレームワークは、0.755(BDD-X)および0.778(MSVD)のBLE-4スコア、1.235(BDD-X)および1.315(MSVD)のサイダースコア、0.312(BDD-X)および0.329(MSVD)およびRUEGOREスコアの0.312(BDD-X)および0.329(MSVD)、およびRouge-LSCORESの従来の方法よりも優れています。
0.795(MSVD)。
人間のような文脈的に関連する説明を生成し、解釈性を強化し、現実世界のアプリケーションを改善することにより、この研究は説明可能なAIを進めます。

要約(オリジナル)

Understanding and analyzing video actions are essential for producing insightful and contextualized descriptions, especially for video-based applications like intelligent monitoring and autonomous systems. The proposed work introduces a novel framework for generating natural language descriptions from video datasets by combining textual and visual modalities. The suggested architecture makes use of ResNet50 to extract visual features from video frames that are taken from the Microsoft Research Video Description Corpus (MSVD), and Berkeley DeepDrive eXplanation (BDD-X) datasets. The extracted visual characteristics are converted into patch embeddings and then run through an encoder-decoder model based on Generative Pre-trained Transformer-2 (GPT-2). In order to align textual and visual representations and guarantee high-quality description production, the system uses multi-head self-attention and cross-attention techniques. The model’s efficacy is demonstrated by performance evaluation using BLEU (1-4), CIDEr, METEOR, and ROUGE-L. The suggested framework outperforms traditional methods with BLEU-4 scores of 0.755 (BDD-X) and 0.778 (MSVD), CIDEr scores of 1.235 (BDD-X) and 1.315 (MSVD), METEOR scores of 0.312 (BDD-X) and 0.329 (MSVD), and ROUGE-L scores of 0.782 (BDD-X) and 0.795 (MSVD). By producing human-like, contextually relevant descriptions, strengthening interpretability, and improving real-world applications, this research advances explainable AI.

arxiv情報

著者 Lakshita Agarwal,Bindu Verma
発行日 2025-04-23 15:03:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Towards Explainable AI: Multi-Modal Transformer for Video-based Image Description Generation はコメントを受け付けていません

Luminance-GS: Adapting 3D Gaussian Splatting to Challenging Lighting Conditions with View-Adaptive Curve Adjustment

要約

多様な現実世界の照明条件下で高品質の写真をキャプチャすることは、自然照明(低光)とカメラの露出設定(露出時間など)の両方が画質に大きな影響を与えるため、困難です。
この課題は、マルチビューシナリオでより顕著になります。このシナリオでは、視点間の照明と画像信号プロセッサ(ISP)の設定が測光の矛盾を導入します。
このような照明の劣化と視聴依存のバリエーションは、神経放射輝度フィールド(NERF)と3Dガウスの飛び散(3DG)に基づく新規ビュー合成(NVS)フレームワークに大きな課題をもたらします。
これに対処するために、3DGを使用した多様な挑戦的な照明条件の下で高品質の新規ビュー合成結果を達成するための新しいアプローチであるLuminance-GSを紹介します。
ビューごとの色マトリックスマッピングとビュー適応曲線調整を採用することにより、Luminance-GSは、元の3DGS明示的表現を変更することはありませんが、低光、過剰露出、曝露の変化を含むさまざまな照明条件で最先端の(SOTA)結果を達成します。
以前のNERFおよび3DGSベースのベースラインと比較して、Luminance-GSはリアルタイムのレンダリング速度を改善し、再構築品質を向上させます。

要約(オリジナル)

Capturing high-quality photographs under diverse real-world lighting conditions is challenging, as both natural lighting (e.g., low-light) and camera exposure settings (e.g., exposure time) significantly impact image quality. This challenge becomes more pronounced in multi-view scenarios, where variations in lighting and image signal processor (ISP) settings across viewpoints introduce photometric inconsistencies. Such lighting degradations and view-dependent variations pose substantial challenges to novel view synthesis (NVS) frameworks based on Neural Radiance Fields (NeRF) and 3D Gaussian Splatting (3DGS). To address this, we introduce Luminance-GS, a novel approach to achieving high-quality novel view synthesis results under diverse challenging lighting conditions using 3DGS. By adopting per-view color matrix mapping and view-adaptive curve adjustments, Luminance-GS achieves state-of-the-art (SOTA) results across various lighting conditions — including low-light, overexposure, and varying exposure — while not altering the original 3DGS explicit representation. Compared to previous NeRF- and 3DGS-based baselines, Luminance-GS provides real-time rendering speed with improved reconstruction quality.

arxiv情報

著者 Ziteng Cui,Xuangeng Chu,Tatsuya Harada
発行日 2025-04-23 15:06:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Luminance-GS: Adapting 3D Gaussian Splatting to Challenging Lighting Conditions with View-Adaptive Curve Adjustment はコメントを受け付けていません

4D Multimodal Co-attention Fusion Network with Latent Contrastive Alignment for Alzheimer’s Diagnosis

要約

マルチモーダルニューロイメージングは​​、人間の脳組織と疾患関連のダイナミクスの両方に対する補完的な構造的および機能的洞察を提供します。
最近の研究では、行動認知スコアと表形式データバイオマーカーを使用したニューロイメージングデータ(例:SMRI、fMRI)の相乗的統合を通じて、アルツハイマー病(AD)の診断感度の強化が示されています。
ただし、モダリティ全体の固有の不均一性(たとえば、4D時空間的ダイナミクス対3D解剖学的SMRI構造)は、識別的特徴融合の重要な課題を提示します。
このギャップを埋めるために、M2Mアリネット:SMRIとfMRIを使用した早期のAD診断のための潜在的なアライメントを備えた幾何学的に認識されたマルチモーダル共競合ネットワークを提案します。
私たちのアプローチの中心にあるのは、幾何学加重されたパッチ対応を介して表象的な矛盾を定量化および削減するマルチパッチからマルチ – マルチ – パッチ(M2M)の対照的な損失関数であり、1対1の制約なしにSMRI構造基板を脳領域全体でfMRI成分を明示的に整列させます。
さらに、フュージョンパターンを自律的に発見するために、潜在的なQueryの共役モジュールを提案し、機能の冗長性を最小限に抑えながらモダリティの優先順位付けバイアスを回避します。
私たちは、私たちの方法の有効性を確認し、ADバイオマーカーとしてのfMRIとSMRIの対応を強調するために広範な実験を実施します。

要約(オリジナル)

Multimodal neuroimaging provides complementary structural and functional insights into both human brain organization and disease-related dynamics. Recent studies demonstrate enhanced diagnostic sensitivity for Alzheimer’s disease (AD) through synergistic integration of neuroimaging data (e.g., sMRI, fMRI) with behavioral cognitive scores tabular data biomarkers. However, the intrinsic heterogeneity across modalities (e.g., 4D spatiotemporal fMRI dynamics vs. 3D anatomical sMRI structure) presents critical challenges for discriminative feature fusion. To bridge this gap, we propose M2M-AlignNet: a geometry-aware multimodal co-attention network with latent alignment for early AD diagnosis using sMRI and fMRI. At the core of our approach is a multi-patch-to-multi-patch (M2M) contrastive loss function that quantifies and reduces representational discrepancies via geometry-weighted patch correspondence, explicitly aligning fMRI components across brain regions with their sMRI structural substrates without one-to-one constraints. Additionally, we propose a latent-as-query co-attention module to autonomously discover fusion patterns, circumventing modality prioritization biases while minimizing feature redundancy. We conduct extensive experiments to confirm the effectiveness of our method and highlight the correspondance between fMRI and sMRI as AD biomarkers.

arxiv情報

著者 Yuxiang Wei,Yanteng Zhang,Xi Xiao,Tianyang Wang,Xiao Wang,Vince D. Calhoun
発行日 2025-04-23 15:18:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.MM | 4D Multimodal Co-attention Fusion Network with Latent Contrastive Alignment for Alzheimer’s Diagnosis はコメントを受け付けていません

Decoupled Global-Local Alignment for Improving Compositional Understanding

要約

対照的な言語イメージ前訓練(CLIP)は、画像とテキストのモダリティを調整することにより、複数のダウンストリームタスクで成功を収めました。
ただし、グローバルな対照学習の性質により、関係や属性などの構成概念を理解するクリップの能力が制限されます。
最近の研究では、組成の理解を改善するためにグローバルなハードネガティブサンプルを採用していますが、これらの方法は、埋め込み空間内の画像からテキストの負のサンプルを強制的に距離を置くことにより、モデルの固有の一般的な能力を大幅に損ないます。
この制限を克服するために、一般的な能力の損失を実質的に緩和しながら、組成の理解を改善するデカップルされたグローバルローカルアライメント(DEGLA)フレームワークを導入します。
モデルの固有の機能の保持を最適化するために、グローバルアライメントプロセスに自己導入メカニズムを組み込み、学習可能な画像テキストエンコーダーを指数関数的な移動平均から派生した凍結教師モデルに合わせます。
自己抵抗の制約の下で、それは微調整中の前提条件の知識の壊滅的な忘却を効果的に緩和します。
構成の理解を改善するために、最初に大規模な言語モデル(LLM)のコンテキスト内学習能力を活用して、5種類にわたって約2mの高品質のネガティブキャプションを構築します。
その後、視覚言語の構成を強化するために、画像グラウンドのコントラスト(IGC)の損失とテキストグラウンドコントラスト(TGC)の損失を提案します。
広範な実験結果は、DeGLAフレームワークの有効性を示しています。
以前の最先端の方法と比較して、DeGLAは、バルス、シュガークレープ、およびAROベンチマーク全体で3.5%の平均強化を達成しました。
同時に、11のデータセットでゼロショット分類タスクで13.0%の平均パフォーマンス改善が得られます。
私たちのコードは、https://github.com/xiaoxing2001/deglaでリリースされます

要約(オリジナル)

Contrastive Language-Image Pre-training (CLIP) has achieved success on multiple downstream tasks by aligning image and text modalities. However, the nature of global contrastive learning limits CLIP’s ability to comprehend compositional concepts, such as relations and attributes. Although recent studies employ global hard negative samples to improve compositional understanding, these methods significantly compromise the model’s inherent general capabilities by forcibly distancing textual negative samples from images in the embedding space. To overcome this limitation, we introduce a Decoupled Global-Local Alignment (DeGLA) framework that improves compositional understanding while substantially mitigating losses in general capabilities. To optimize the retention of the model’s inherent capabilities, we incorporate a self-distillation mechanism within the global alignment process, aligning the learnable image-text encoder with a frozen teacher model derived from an exponential moving average. Under the constraint of self-distillation, it effectively mitigates the catastrophic forgetting of pretrained knowledge during fine-tuning. To improve compositional understanding, we first leverage the in-context learning capability of Large Language Models (LLMs) to construct about 2M high-quality negative captions across five types. Subsequently, we propose the Image-Grounded Contrast (IGC) loss and Text-Grounded Contrast (TGC) loss to enhance vision-language compositionally. Extensive experimental results demonstrate the effectiveness of the DeGLA framework. Compared to previous state-of-the-art methods, DeGLA achieves an average enhancement of 3.5% across the VALSE, SugarCrepe, and ARO benchmarks. Concurrently, it obtains an average performance improvement of 13.0% on zero-shot classification tasks across eleven datasets. Our code will be released at https://github.com/xiaoxing2001/DeGLA

arxiv情報

著者 Xiaoxing Hu,Kaicheng Yang,Jun Wang,Haoran Xu,Ziyong Feng,Yupei Wang
発行日 2025-04-23 15:20:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Decoupled Global-Local Alignment for Improving Compositional Understanding はコメントを受け付けていません

MediSee: Reasoning-based Pixel-level Perception in Medical Images

要約

ピクセルレベルの医療画像認識の顕著な進歩にもかかわらず、既存の方法は特定のタスクに限定されるか、入力プロンプトとして正確な境界ボックスまたはテキストラベルに大きく依存しています。
ただし、入力に必要な医学的知識は、一般の人々にとって大きな障害であり、これらの方法の普遍性を大幅に減らします。
これらのドメイン特異的な補助情報と比較して、一般ユーザーは論理的推論を必要とする口頭クエリに依存する傾向があります。
このホワイトペーパーでは、新しい医学的ビジョンタスク:医療推論セグメンテーションと検出(MEDSD)を紹介します。これは、医療画像に関する暗黙のクエリを理解し、対応するセグメンテーションマスクとターゲットオブジェクトの境界ボックスを生成することを目的としています。
このタスクを達成するために、最初に、対応する推論とともに、医療機関のターゲットの実質的なコレクションを含む、多面的で論理駆動型の医療推論セグメンテーションおよび検出(MLMR-SD)データセットを紹介します。
さらに、医療推論のセグメンテーションと検出のために設計された効果的なベースラインモデルであるMediseeを提案します。
実験結果は、提案された方法が暗黙の口語クエリを使用してMEDSDに効果的に対処し、従来の医療紹介セグメンテーション方法を上回ることができることを示しています。

要約(オリジナル)

Despite remarkable advancements in pixel-level medical image perception, existing methods are either limited to specific tasks or heavily rely on accurate bounding boxes or text labels as input prompts. However, the medical knowledge required for input is a huge obstacle for general public, which greatly reduces the universality of these methods. Compared with these domain-specialized auxiliary information, general users tend to rely on oral queries that require logical reasoning. In this paper, we introduce a novel medical vision task: Medical Reasoning Segmentation and Detection (MedSD), which aims to comprehend implicit queries about medical images and generate the corresponding segmentation mask and bounding box for the target object. To accomplish this task, we first introduce a Multi-perspective, Logic-driven Medical Reasoning Segmentation and Detection (MLMR-SD) dataset, which encompasses a substantial collection of medical entity targets along with their corresponding reasoning. Furthermore, we propose MediSee, an effective baseline model designed for medical reasoning segmentation and detection. The experimental results indicate that the proposed method can effectively address MedSD with implicit colloquial queries and outperform traditional medical referring segmentation methods.

arxiv情報

著者 Qinyue Tong,Ziqian Lu,Jun Liu,Yangming Zheng,Zheming Lu
発行日 2025-04-23 15:29:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | MediSee: Reasoning-based Pixel-level Perception in Medical Images はコメントを受け付けていません

A Low-Cost Photogrammetry System for 3D Plant Modeling and Phenotyping

要約

3Dプラントモデリングと表現型のためのオープンソースの低コストの写真測量システムを紹介します。
このシステムは、構造からのモーションアプローチを使用して、ポイントクラウドを介して植物の3D表現を再構築します。
例として小麦を使用して、ポイント雲からさまざまな表現型の特性を簡単に計算できる方法を示します。
これらには、植物の高さや半径などの標準的な測定値、葉の角度や凸船体など、手で測定する方が面倒な特徴が含まれます。
さらに、erectophileとPlanophile小麦キャノピーアーキテクチャの客観的な分類をもたらす可能性のある特定のメトリックの調査を通じて、システムの有用性を実証します。

要約(オリジナル)

We present an open-source, low-cost photogrammetry system for 3D plant modeling and phenotyping. The system uses a structure-from-motion approach to reconstruct 3D representations of the plants via point clouds. Using wheat as an example, we demonstrate how various phenotypic traits can be computed easily from the point clouds. These include standard measurements such as plant height and radius, as well as features that would be more cumbersome to measure by hand, such as leaf angles and convex hull. We further demonstrate the utility of the system through the investigation of specific metrics that may yield objective classifications of erectophile versus planophile wheat canopy architectures.

arxiv情報

著者 Joe Hrzich,Michael A. Beck,Christopher P. Bidinosti,Christopher J. Henry,Kalhari Manawasinghe,Karen Tanino
発行日 2025-04-23 16:02:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | A Low-Cost Photogrammetry System for 3D Plant Modeling and Phenotyping はコメントを受け付けていません