Local-Prompt: Extensible Local Prompts for Few-Shot Out-of-Distribution Detection

要約

外れ方(OOD)検出は、既知のカテゴリと既知のカテゴリを区別することを目的としており、実際のシナリオで顕著になりました。
最近、Vision-Language Models(VLM)の出現により、少数のショットチューニングを通じてVLMのOOD検出の強化への関心が高まりました。
ただし、既存の方法は、主にグローバルプロンプトの最適化に焦点を当てており、外れ値に関するローカル情報の洗練された利用を無視しています。
これに動機付けられて、私たちはグローバルなプロンプトをフリーズし、ローカルプロンプトの粗から洗練されたチューニングパラダイムであるLocal-Promptを導入して、ローカルプロンプトによる地域の強化を強調しています。
私たちの方法は、2つの不可欠なコンポーネントで構成されています。グローバルプロンプトガイド付きネガティブ増加と局所促進促進地域正規化。
前者は、否定的な増強を組み込むための指針として、凍結した粗いグローバルプロンプトを利用して、地元の外れ値の知識を活用します。
後者は、訓練可能なローカルプロンプトと地域の正則化を採用して、ローカル情報を効果的にキャプチャし、外れ値の識別を支援します。
また、OOD検出の濃縮を強化するために、地域関連のメトリックを提案します。
さらに、私たちのアプローチはローカルプロンプトのみを強化することを探求するため、パフォーマンスを向上させるための推論中に訓練されたグローバルプロンプトとシームレスに統合できます。
包括的な実験は、私たちの方法の有効性と可能性を示しています。
特に、我々の方法は、挑戦的なImagenet-1Kデータセットの4ショットチューニングで、最先端の方法に対して平均FPR95を5.17%削減し、以前の方法の16ショット結果を上回ることさえあります。
コードはhttps://github.com/aurorazengfh/local-promptでリリースされます。

要約(オリジナル)

Out-of-Distribution (OOD) detection, aiming to distinguish outliers from known categories, has gained prominence in practical scenarios. Recently, the advent of vision-language models (VLM) has heightened interest in enhancing OOD detection for VLM through few-shot tuning. However, existing methods mainly focus on optimizing global prompts, ignoring refined utilization of local information with regard to outliers. Motivated by this, we freeze global prompts and introduce Local-Prompt, a novel coarse-to-fine tuning paradigm to emphasize regional enhancement with local prompts. Our method comprises two integral components: global prompt guided negative augmentation and local prompt enhanced regional regularization. The former utilizes frozen, coarse global prompts as guiding cues to incorporate negative augmentation, thereby leveraging local outlier knowledge. The latter employs trainable local prompts and a regional regularization to capture local information effectively, aiding in outlier identification. We also propose regional-related metric to empower the enrichment of OOD detection. Moreover, since our approach explores enhancing local prompts only, it can be seamlessly integrated with trained global prompts during inference to boost the performance. Comprehensive experiments demonstrate the effectiveness and potential of our method. Notably, our method reduces average FPR95 by 5.17% against state-of-the-art method in 4-shot tuning on challenging ImageNet-1k dataset, even outperforming 16-shot results of previous methods. Code is released at https://github.com/AuroraZengfh/Local-Prompt.

arxiv情報

著者 Fanhu Zeng,Zhen Cheng,Fei Zhu,Hongxin Wei,Xu-Yao Zhang
発行日 2025-02-14 15:58:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Local-Prompt: Extensible Local Prompts for Few-Shot Out-of-Distribution Detection はコメントを受け付けていません

VisCon-100K: Leveraging Contextual Web Data for Fine-tuning Vision Language Models

要約

ビジョン言語モデル(VLM)は、さまざまな視覚ベンチマークで優れていますが、多くの場合、高品質の視覚的な微調整データの欠如によって制約されます。
この課題に対処するために、インターリーブされた画像テキストWebドキュメントから派生した新しいデータセットであるViscon-100Kを紹介します。
私たちのアプローチは、45kのWebドキュメントをObelicsデータセットから100kの画像会話サンプルに変換します。
GPT-4Vを利用して画像コンテキストキャプションとOpenChat 3.5モデルを生成して、これらのキャプションを多様なフリーフォームおよび複数選択の質問回答ペアに変換します。
このデータセットを統合して微調整すると、複数のベンチマークでVLMパフォーマンスが大幅に向上します。
きめ細かい視覚コンテンツのみに焦点を当てた方法とは異なり、私たちのアプローチはWebコンテキストに伴うレバレッジを活用して、優れた結果をもたらします。
また、会話サンプルが画像とそのコンテキストキャプションの両方から答えられる質問が含まれている「漏れやすいモダリティミックス」が、キャプションとQ \&aペアの非リーキーな組み合わせよりも優れていることがわかります。
Viscon-100Kデータセットは、画像キャプションデータ(ShareGPT4V-7B)を使用してビジョンエンコーダーとアライメントしたテキストのみの大型言語モデル(LLM)と、マルチモダリストライアトレインLLM(IDEFICS2-8B)を使用して、インターリードイメージテキストテキストテキストテキストテキストを使用してビジョンエンコーダとアライメントした、2つの一般的なVLMアプローチで強力なパフォーマンスを示しています。
データ。
Viscon-100Kデータセットのリリースに加えて、このデータセットでトレーニングされたコンテキストキャプションを提供し、将来の研究およびオープンソースアプリケーションのためにスケーラブルな微調整データ生成を促進します。
同じパイプラインを使用しますが、訓練されたコンテキストキャプションをGPT-4Vに置き換えて、より大きなVisCon-1Mデータセットもリリースします。

要約(オリジナル)

Vision-language models (VLMs) excel in various visual benchmarks but are often constrained by the lack of high-quality visual fine-tuning data. To address this challenge, we introduce VisCon-100K, a novel dataset derived from interleaved image-text web documents. Our approach transforms 45K web documents from the OBELICS dataset into 100K image conversation samples. We utilize GPT-4V to generate image-contextual captions and OpenChat 3.5 model to convert these captions into diverse free-form and multiple-choice question-answer pairs. Integrating this dataset for fine-tuning considerably enhances VLM performance across multiple benchmarks. Unlike methods that focus solely on fine-grained visual content, our approach leverages accompanying web context, yielding superior results. We also discover that a `leaky modality mix,’ where conversation samples contain questions answerable from both the image and its contextual caption, outperforms non-leaky combinations of captions and Q\&A pairs. VisCon-100k dataset shows strong performance with two popular VLM approaches: text-only large language model (LLM) aligned with a vision encoder using image captions data (ShareGPT4V-7b) and multimodally pretrained LLM (IDEFICS2-8b) using interleaved image-text data. In addition to releasing the VisCon-100K dataset, we provide a contextual captioner trained on this dataset, facilitating scalable fine-tuning data generation for future research and open-source applications. Using the same pipeline, but substituting our trained contextual captioner for GPT-4V, we also release the larger VisCon-1M dataset.

arxiv情報

著者 Gokul Karthik Kumar,Iheb Chaabane,Kebin Wu
発行日 2025-02-14 15:59:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | VisCon-100K: Leveraging Contextual Web Data for Fine-tuning Vision Language Models はコメントを受け付けていません

PromptArtisan: Multi-instruction Image Editing in Single Pass with Complete Attention Control

要約

私たちは、単一のパスで顕著な結果を達成するマルチインストラクション画像編集への画期的なアプローチであるPropentArtisanを提示し、時間のかかる反復改良の必要性を排除します。
私たちの方法により、ユーザーは複数の編集手順を提供することができます。それぞれが画像内の特定のマスクに関連付けられています。
この柔軟性により、マスクの交差点や重複を含む複雑な編集が可能になり、複雑で微妙な画像変換の実現が可能になります。
ProspRARTISANは、新規の完全な注意制御メカニズム(CACM)と組み合わせて、事前に訓練されたinstantPix2Pixモデルを活用します。
このメカニズムは、ユーザーの命令を正確に順守し、編集プロセスをきめ細かく制御することを保証します。
さらに、私たちのアプローチはゼロショットであり、追加のトレーニングを必要とせず、従来の反復方法と比較して処理の複雑さが改善されています。
マルチインストラクション機能、シングルパス効率、および完全な注意制御をシームレスに統合することにより、ProspRATISANは、初心者と専門家の両方のユーザーの両方にケータリングする創造的で効率的な画像編集ワークフローの新しい可能性を解き放ちます。

要約(オリジナル)

We present PromptArtisan, a groundbreaking approach to multi-instruction image editing that achieves remarkable results in a single pass, eliminating the need for time-consuming iterative refinement. Our method empowers users to provide multiple editing instructions, each associated with a specific mask within the image. This flexibility allows for complex edits involving mask intersections or overlaps, enabling the realization of intricate and nuanced image transformations. PromptArtisan leverages a pre-trained InstructPix2Pix model in conjunction with a novel Complete Attention Control Mechanism (CACM). This mechanism ensures precise adherence to user instructions, granting fine-grained control over the editing process. Furthermore, our approach is zero-shot, requiring no additional training, and boasts improved processing complexity compared to traditional iterative methods. By seamlessly integrating multi-instruction capabilities, single-pass efficiency, and complete attention control, PromptArtisan unlocks new possibilities for creative and efficient image editing workflows, catering to both novice and expert users alike.

arxiv情報

著者 Kunal Swami,Raghu Chittersu,Pranav Adlinge,Rajeev Irny,Shashavali Doodekula,Alok Shukla
発行日 2025-02-14 16:11:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.HC | PromptArtisan: Multi-instruction Image Editing in Single Pass with Complete Attention Control はコメントを受け付けていません

MITO: Enabling Non-Line-of-Sight Perception using Millimeter-waves through Real-World Datasets and Simulation Tools

要約

日常のオブジェクトのマルチスペクトルミリ波(mmwave)画像の最初のデータセットであるMitoを紹介します。
可視光とは異なり、mmwave信号は日常の閉塞(段ボール箱、布、プラスチックなど)を介して画像化できます。
ただし、公開されているMMWave画像の不足と、MMWaveシグナルの収集と処理における学際的な課題により、コンピュータービジョン研究者がMMWAVEベースの非視覚認識アルゴリズムとモデルを開発することは今日も困難です。
これらの課題を克服するために、MMWaveイメージング用の実際のデータセットとオープンソースシミュレーションツールを紹介します。
データセットは、異なる周波数とRGB-Dカメラで動作する2つのMMWaveレーダーを備えたUR5ロボットアームを使用して取得されます。
信号処理パイプラインを介して、ロボット工学操作の標準データセットであるYCBデータセットの76を超えるオブジェクトから580を超える実世界の3D MMWave画像をキャプチャして作成します。
RGB-D画像とグラウンドトゥルースセグメンテーションマスクだけでなく、視線および非視線で現実世界のMMWave画像を提供します。
また、3Dトライアングルメッシュの合成MMWAVE画像を生成するために使用できるオープンソースシミュレーションツールも開発します。これは、実際のMMWave画像と比較した場合、94%のFスコアの中央値を達成します。
このデータセットとシミュレーションツールの有用性は、視線以外の複数のCVタスクにおける有用性を示しています。
まず、セグメントAnything Model(SAM)を使用してMMWave画像のオブジェクトセグメンテーションを実行し、92.6%と64%の精度の中央値とリコールを実現します。
第二に、非表示でオブジェクトを認識できる分類子をトレーニングします。
合成画像でトレーニングされており、実際の画像を85%の精度で分類できます。
MITOは、カメラベースのデータセットがフィールドを形成する方法と同様に、視覚的ではない知覚を開発する際のコンピュータービジョン研究者にとって貴重なリソースになると考えています。

要約(オリジナル)

We present MITO, the first dataset of multi-spectral millimeter-wave (mmWave) images of everyday objects. Unlike visible light, mmWave signals can image through everyday occlusions (e.g., cardboard boxes, fabric, plastic). However, due to the dearth of publicly-available mmWave images and the interdisciplinary challenges in collecting and processing mmWave signals, it remains difficult today for computer vision researchers to develop mmWave-based non-line-of-sight perception algorithms and models. To overcome these challenges, we introduce a real-world dataset and open-source simulation tool for mmWave imaging. The dataset is acquired using a UR5 robotic arm with two mmWave radars operating at different frequencies and an RGB-D camera. Through a signal processing pipeline, we capture and create over 580 real-world 3D mmWave images from over 76 different objects in the YCB dataset, a standard dataset for robotics manipulation. We provide real-world mmWave images in line-of-sight and non-line-of-sight, as well as RGB-D images and ground truth segmentation masks. We also develop an open-source simulation tool that can be used to generate synthetic mmWave images for any 3D triangle mesh, which achieves a median F-Score of 94% when compared to real-world mmWave images. We show the usefulness of this dataset and simulation tool in multiple CV tasks in non-line-of-sight. First, we perform object segmentation for mmWave images using the segment anything model (SAM), and achieve a median precision and recall of 92.6% and 64%. Second, we train a classifier that can recognize objects in non-line-of-sight. It is trained on synthetic images and can classify real-world images with 85% accuracy. We believe MITO will be a valuable resource for computer vision researchers in developing non-line-of-sight perception, similar to how early camera-based datasets shaped the field.

arxiv情報

著者 Laura Dodds,Tara Boroushaki,Fadel Adib
発行日 2025-02-14 16:12:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | MITO: Enabling Non-Line-of-Sight Perception using Millimeter-waves through Real-World Datasets and Simulation Tools はコメントを受け付けていません

Probing Perceptual Constancy in Large Vision Language Models

要約

知覚的恒常性とは、距離、角度、照明の変動など、感覚入力の変化にもかかわらず、オブジェクトの安定した知覚を維持する能力です。
この能力は、動的な世界で視覚情報を認識するために重要であり、ビジョン言語モデル(VLM)に不可欠です。
ただし、VLMが現在、理論的にはこの能力を習得できるかどうかは、既知のままです。
この研究では、色、サイズ、形状の恒常性の3つのドメインにわたる253の実験を使用して、33のVLMSを評価しました。
実験には、さまざまな条件下でのオブジェクト特性のモデルの認識を評価するために、古典的な認知タスクの単一画像およびビデオの適応と、野生の条件での新しいタスクが含まれていました。
VLMパフォーマンスに大きなばらつきがあり、形状の恒常性のパフォーマンスは、色とサイズの恒常性のモデルのパフォーマンスから明確に解離されました。

要約(オリジナル)

Perceptual constancy is the ability to maintain stable perceptions of objects despite changes in sensory input, such as variations in distance, angle, or lighting. This ability is crucial for recognizing visual information in a dynamic world, making it essential for Vision-Language Models (VLMs). However, whether VLMs are currently and theoretically capable of mastering this ability remains underexplored. In this study, we evaluated 33 VLMs using 253 experiments across three domains: color, size, and shape constancy. The experiments included single-image and video adaptations of classic cognitive tasks, along with novel tasks in in-the-wild conditions, to evaluate the models’ recognition of object properties under varying conditions. We found significant variability in VLM performance, with models performance in shape constancy clearly dissociated from that of color and size constancy.

arxiv情報

著者 Haoran Sun,Suyang Yu,Yijiang Li,Qingying Gao,Haiyun Lyu,Hokin Deng,Dezhi Luo
発行日 2025-02-14 16:31:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Probing Perceptual Constancy in Large Vision Language Models はコメントを受け付けていません

Artificial Intelligence to Assess Dental Findings from Panoramic Radiographs — A Multinational Study

要約

歯科用パノラマX線写真(DPR)は、包括的な口頭評価のために臨床診療で広く使用されていますが、解釈における構造と時間の制約が重複するための課題を提示しています。
この研究の目的は、DPRSの調査結果のAI AI-Automated評価のための強固なベースラインを確立し、AIシステムを評価し、多国籍データセット全体で人間の読者のパフォーマンスと比較することにより、そのパフォーマンスを比較することを目的としています。
8種類の歯科所見に焦点を当てて、3つのデータセット(オランダ、ブラジル、台湾)から6,669個のDPRを分析しました。
AIシステムは、歯あたりの検出識別のためのオブジェクト検出とセマンティックセグメンテーション技術を組み合わせました。
パフォーマンスメトリックには、受信機動作特性曲線(AUC-ROC)の下の感度、特異性、および面積が含まれます。
AIの一般化可能性はデータセット間でテストされ、パフォーマンスは人間の歯科診療者と比較されました。
AIシステムは、人間の読者に匹敵するまたは優れたパフォーマンスを実証しました。特に +67.9%(95%CI:54.0%-81.9%; P <.001)周囲放射性溶解度を特定するための感度と +4.7%(95%CI:1.4%-8.0.0 %; p = .008)欠損歯を識別するための感度 AIは、8つの調査結果で96.2%(95%CI:94.6%-97.8%)のマクロ平均AUC-ROCを達成しました。 参照とのAI契約は、虫歯を除く8つの調査結果のうち7つの人間間協定に匹敵しました(p = .024)。 AIシステムは、多様なイメージングおよび人口統計設定にわたって堅牢な一般化を実証し、人間の読者よりも79倍速く(95%CI:75-82)画像を処理しました。 AIシステムは、DPRの所見を効果的に評価し、解釈時間を大幅に削減しながら、人間の専門家と同等またはそれ以上のパフォーマンスを達成しました。 これらの結果は、AIを臨床ワークフローに統合して診断効率と精度、患者管理を改善する可能性を強調しています。

要約(オリジナル)

Dental panoramic radiographs (DPRs) are widely used in clinical practice for comprehensive oral assessment but present challenges due to overlapping structures and time constraints in interpretation. This study aimed to establish a solid baseline for the AI-automated assessment of findings in DPRs by developing, evaluating an AI system, and comparing its performance with that of human readers across multinational data sets. We analyzed 6,669 DPRs from three data sets (the Netherlands, Brazil, and Taiwan), focusing on 8 types of dental findings. The AI system combined object detection and semantic segmentation techniques for per-tooth finding identification. Performance metrics included sensitivity, specificity, and area under the receiver operating characteristic curve (AUC-ROC). AI generalizability was tested across data sets, and performance was compared with human dental practitioners. The AI system demonstrated comparable or superior performance to human readers, particularly +67.9% (95% CI: 54.0%-81.9%; p < .001) sensitivity for identifying periapical radiolucencies and +4.7% (95% CI: 1.4%-8.0%; p = .008) sensitivity for identifying missing teeth. The AI achieved a macro-averaged AUC-ROC of 96.2% (95% CI: 94.6%-97.8%) across 8 findings. AI agreements with the reference were comparable to inter-human agreements in 7 of 8 findings except for caries (p = .024). The AI system demonstrated robust generalization across diverse imaging and demographic settings and processed images 79 times faster (95% CI: 75-82) than human readers. The AI system effectively assessed findings in DPRs, achieving performance on par with or better than human experts while significantly reducing interpretation time. These results highlight the potential for integrating AI into clinical workflows to improve diagnostic efficiency and accuracy, and patient management.

arxiv情報

著者 Yin-Chih Chelsea Wang,Tsao-Lun Chen,Shankeeth Vinayahalingam,Tai-Hsien Wu,Chu Wei Chang,Hsuan Hao Chang,Hung-Jen Wei,Mu-Hsiung Chen,Ching-Chang Ko,David Anssari Moin,Bram van Ginneken,Tong Xi,Hsiao-Cheng Tsai,Min-Huey Chen,Tzu-Ming Harry Hsu,Hye Chou
発行日 2025-02-14 16:34:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Artificial Intelligence to Assess Dental Findings from Panoramic Radiographs — A Multinational Study はコメントを受け付けていません

QMaxViT-Unet+: A Query-Based MaxViT-Unet with Edge Enhancement for Scribble-Supervised Segmentation of Medical Images

要約

医療画像セグメンテーションのための高度なディープラーニングモデルの展開は、多くの場合、広範囲に注釈付きのデータセットの要件によって制約されます。
あまり正確なラベルを可能にする弱く監視されている学習は、この課題に対する有望な解決策となっています。
このアプローチに基づいて、Scribble-supervised Medical Imageセグメンテーションのための新しいフレームワークであるQmaxvit-Unet+を提案します。
このフレームワークは、U-NETアーキテクチャ上に構築されており、エンコーダーとデコーダーは多軸ビジョントランス(MAXVIT)ブロックに置き換えられます。
これらのブロックは、ローカルおよびグローバルな機能を効率的に学習するモデルの能力を高めます。
さらに、当社のアプローチでは、クエリベースのトランスデコーダーを統合して、特徴とエッジエンハンスメントモジュールを改良し、Scribbleラベルの限られた境界情報を補正します。
心臓構造、結腸直腸ポリープ、およびACDC、MS-CMRSEG、SUN-SEG、およびBUSIに焦点を当てた4つのパブリックデータセットで提案されたQMAXVIT-UNET+を評価します。
評価メトリックには、サイコロの類似性係数(DSC)とHausdorff距離(HD95)の95パーセンタイルが含まれます。
実験結果は、Qmaxvit-Unet+がACDCで89.1 \%DSCおよび1.316mm HD95、MS-CMRSEG、71.4 \%DSCおよび4.996mm HD95で89.1 \%DSC、2.226mm HD95を達成し、SUN-SEGで4.996mm HD95を達成し、69.4 \%DSCで達成したことを示しています。
Busiの50.122mm HD95。
これらの結果は、私たちの方法が、完全に監視された学習アプローチと競争力を維持しながら、精度、堅牢性、効率の観点から既存のアプローチを上回ることを示しています。
これにより、高品質の注釈が不足しており、かなりの努力と費用が必要な医療画像分析に最適です。
このコードは、https://github.com/anpc849/qmaxvit-unetで入手できます

要約(オリジナル)

The deployment of advanced deep learning models for medical image segmentation is often constrained by the requirement for extensively annotated datasets. Weakly-supervised learning, which allows less precise labels, has become a promising solution to this challenge. Building on this approach, we propose QMaxViT-Unet+, a novel framework for scribble-supervised medical image segmentation. This framework is built on the U-Net architecture, with the encoder and decoder replaced by Multi-Axis Vision Transformer (MaxViT) blocks. These blocks enhance the model’s ability to learn local and global features efficiently. Additionally, our approach integrates a query-based Transformer decoder to refine features and an edge enhancement module to compensate for the limited boundary information in the scribble label. We evaluate the proposed QMaxViT-Unet+ on four public datasets focused on cardiac structures, colorectal polyps, and breast cancer: ACDC, MS-CMRSeg, SUN-SEG, and BUSI. Evaluation metrics include the Dice similarity coefficient (DSC) and the 95th percentile of Hausdorff distance (HD95). Experimental results show that QMaxViT-Unet+ achieves 89.1\% DSC and 1.316mm HD95 on ACDC, 88.4\% DSC and 2.226mm HD95 on MS-CMRSeg, 71.4\% DSC and 4.996mm HD95 on SUN-SEG, and 69.4\% DSC and 50.122mm HD95 on BUSI. These results demonstrate that our method outperforms existing approaches in terms of accuracy, robustness, and efficiency while remaining competitive with fully-supervised learning approaches. This makes it ideal for medical image analysis, where high-quality annotations are often scarce and require significant effort and expense. The code is available at: https://github.com/anpc849/QMaxViT-Unet

arxiv情報

著者 Thien B. Nguyen-Tat,Hoang-An Vo,Phuoc-Sang Dang
発行日 2025-02-14 16:56:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | QMaxViT-Unet+: A Query-Based MaxViT-Unet with Edge Enhancement for Scribble-Supervised Segmentation of Medical Images はコメントを受け付けていません

SPIRIT: Short-term Prediction of solar IRradIance for zero-shot Transfer learning using Foundation Models

要約

従来のソーラー予測モデルは、数年のサイト固有の歴史的放射照度データに基づいており、多くの場合5年以上にわたって、新しい太陽光発電農場では利用できません。
再生可能エネルギーは非常に断続的であるため、効率的なグリッド管理と太陽エネルギーの継続的な増殖を可能にするためには、正確な太陽放射照射予測システムの構築が不可欠です。これは、国連の純ゼロ目標を達成するために重要です。
この作業では、Spiritを提案します。Spiritは、太陽光発射予測の基礎モデルを活用する新しいアプローチであり、新しい太陽光発電に適用できるようにします。
当社のアプローチは、ゼロショット転送学習の最先端のモデルよりも約70%優れているため、過去のデータに依存することなく、新しい場所で効果的なパフォーマンスを可能にします。
より多くの場所固有のデータが利用可能になるにつれて、微調整によりパフォーマンスのさらなる改善が達成されます。
これらの発見は、統計的有意性によって裏付けられており、アプローチをさらに検証します。
スピリットは、迅速でスケーラブルで適応性のある太陽の予測ソリューションに向けた極めて重要なステップを表し、再生可能エネルギーのグローバルな電力システムへの統合を進めます。

要約(オリジナル)

Traditional solar forecasting models are based on several years of site-specific historical irradiance data, often spanning five or more years, which are unavailable for newer photovoltaic farms. As renewable energy is highly intermittent, building accurate solar irradiance forecasting systems is essential for efficient grid management and enabling the ongoing proliferation of solar energy, which is crucial to achieve the United Nations’ net zero goals. In this work, we propose SPIRIT, a novel approach leveraging foundation models for solar irradiance forecasting, making it applicable to newer solar installations. Our approach outperforms state-of-the-art models in zero-shot transfer learning by about 70%, enabling effective performance at new locations without relying on any historical data. Further improvements in performance are achieved through fine-tuning, as more location-specific data becomes available. These findings are supported by statistical significance, further validating our approach. SPIRIT represents a pivotal step towards rapid, scalable, and adaptable solar forecasting solutions, advancing the integration of renewable energy into global power systems.

arxiv情報

著者 Aditya Mishra,Ravindra T,Srinivasan Iyengar,Shivkumar Kalyanaraman,Ponnurangam Kumaraguru
発行日 2025-02-14 17:10:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | SPIRIT: Short-term Prediction of solar IRradIance for zero-shot Transfer learning using Foundation Models はコメントを受け付けていません

Object Detection and Tracking

要約

効率的で正確なオブジェクト検出は、コンピュータービジョンシステムの開発における重要なトピックです。
深い学習技術の出現により、オブジェクト検出の精度は大幅に増加しています。
このプロジェクトの目的は、リアルタイムのパフォーマンスで高精度を達成することを目的として、オブジェクト検出のための最新の手法を統合することを目的としています。
多くのオブジェクト識別システムにおける他のコンピュータービジョンアルゴリズムへの依存は、パフォーマンスが低下し、効果のないパフォーマンスをもたらしますが、重大な障害です。
この研究では、深い学習技術を使用して、エンドツーエンドのオブジェクト検出問題を完全に解決します。
ネットワークは、年間のアイテム検出チャレンジに使用される最も困難な公開データセットを使用してトレーニングされています。
オブジェクト検出が必要なアプリケーションは、システムの迅速かつ正確な発見に役立つ可能性があります。

要約(オリジナル)

Efficient and accurate object detection is an important topic in the development of computer vision systems. With the advent of deep learning techniques, the accuracy of object detection has increased significantly. The project aims to integrate a modern technique for object detection with the aim of achieving high accuracy with real-time performance. The reliance on other computer vision algorithms in many object identification systems, which results in poor and ineffective performance, is a significant obstacle. In this research, we solve the end-to-end object detection problem entirely using deep learning techniques. The network is trained using the most difficult publicly available dataset, which is used for an annual item detection challenge. Applications that need object detection can benefit the system’s quick and precise finding.

arxiv情報

著者 Md Pranto,Omar Faruk
発行日 2025-02-14 17:13:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.CY | Object Detection and Tracking はコメントを受け付けていません

The Devil is in the Prompts: De-Identification Traces Enhance Memorization Risks in Synthetic Chest X-Ray Generation

要約

生成モデル、特にテキストからイメージ(T2I)拡散モデルは、医療画像分析において重要な役割を果たします。
ただし、これらのモデルはデータの記憶をトレーニングする傾向があり、患者のプライバシーに重大なリスクをもたらします。
合成胸部X線生成は、このタスクの主要なデータリポジトリとして機能するMIMIC-CXRデータセットを備えた医療画像分析における最も一般的なアプリケーションの1つです。
この研究では、データの記憶のトレーニングに最も貢献するMimic-CXRのプロンプトとテキストトークンを特定する最初の体系的な試みを提示します。
私たちの分析では、2つの予期しない発見が明らかになりました。(1)脱同意手順の痕跡を含むプロンプト(保護された健康情報を隠すために導入されたマーカー)が最も記憶されており、(2)すべてのトークンの中で、識別マーカーは暗記に最も貢献します。
これは、標準的な匿名化プラクティスとMIMIC-CXRを使用したT2I合成に関するより広範な問題を強調しています。
悪化させるために、既存の推論時間記憶緩和戦略は効果がなく、記憶されたテキストトークンへのモデルの依存を十分に減らすことができません。
この面では、さまざまな利害関係者がプライバシーを強化し、医療イメージングにおける生成モデルの信頼性を向上させるための実用的な戦略を提案します。
最後に、我々の結果は、MIMIC-CXRデータセットを使用して、合成胸部X線生成のための記憶緩和技術の開発とベンチマークに関する将来の作業の基盤を提供します。
匿名化されたコードは、https://anonymous.4open.science/r/diffusion_memorization-8011/で入手できます。

要約(オリジナル)

Generative models, particularly text-to-image (T2I) diffusion models, play a crucial role in medical image analysis. However, these models are prone to training data memorization, posing significant risks to patient privacy. Synthetic chest X-ray generation is one of the most common applications in medical image analysis with the MIMIC-CXR dataset serving as the primary data repository for this task. This study presents the first systematic attempt to identify prompts and text tokens in MIMIC-CXR that contribute the most to training data memorization. Our analysis reveals two unexpected findings: (1) prompts containing traces of de-identification procedures (markers introduced to hide Protected Health Information) are the most memorized, and (2) among all tokens, de-identification markers contribute the most towards memorization. This highlights a broader issue with the standard anonymization practices and T2I synthesis with MIMIC-CXR. To exacerbate, existing inference-time memorization mitigation strategies are ineffective and fail to sufficiently reduce the model’s reliance on memorized text tokens. On this front, we propose actionable strategies for different stakeholders to enhance privacy and improve the reliability of generative models in medical imaging. Finally, our results provide a foundation for future work on developing and benchmarking memorization mitigation techniques for synthetic chest X-ray generation using the MIMIC-CXR dataset. The anonymized code is available at https://anonymous.4open.science/r/diffusion_memorization-8011/

arxiv情報

著者 Raman Dutt
発行日 2025-02-14 17:24:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, eess.IV | The Devil is in the Prompts: De-Identification Traces Enhance Memorization Risks in Synthetic Chest X-Ray Generation はコメントを受け付けていません