Mapping bathymetry of inland water bodies on the North Slope of Alaska with Landsat using Random Forest

要約

アラスカの北の斜面は、地元住民と野生生物に重要な生態系サービスを提供する小さな水域に支配されています。
そのような情報を収集する際の課題により、水域の深さに関する詳細情報はほとんどありません。
この作業では、アラスカの北斜面の水域の多宇宙ランドサットデータからの深さを予測するために、機械学習(ランダムフォレストレグレッサー)モデルをトレーニングしました。
最大の課題は、モデルを訓練するのが費用がかかり、入手が困難なIn situデータの希少性です。
ランダムフォレストのより多様なトレーニングデータプールを提供するために、合成トレーニングデータとして以前の研究からモデル化された深度予測を使用することにより、この課題を克服しました。
最終的なランダムフォレストモデルは、IN in situデータで直接訓練されたモデルよりも堅牢であり、2016年から2018年までの208 Landsat 8シーンに適用されると、検証時に全体の$ r^{2} $値が0.76のマップが得られました。
最終マップは、Oak Ridge National Laboratory Distribues Active Archive Center(ORNL-DAAC)を通じて利用可能になりました。
このマップは、アラスカの北斜面全体のピクセルあたりの深さの推定値を伴う水域深度のこの種の地域評価の最初のものを表しています。

要約(オリジナル)

The North Slope of Alaska is dominated by small waterbodies that provide critical ecosystem services for local population and wildlife. Detailed information on the depth of the waterbodies is scarce due to the challenges with collecting such information. In this work we have trained a machine learning (Random Forest Regressor) model to predict depth from multispectral Landsat data in waterbodies across the North Slope of Alaska. The greatest challenge is the scarcity of in situ data, which is expensive and difficult to obtain, to train the model. We overcame this challenge by using modeled depth predictions from a prior study as synthetic training data to provide a more diverse training data pool for the Random Forest. The final Random Forest model was more robust than models trained directly on the in situ data and when applied to 208 Landsat 8 scenes from 2016 to 2018 yielded a map with an overall $r^{2}$ value of 0.76 on validation. The final map has been made available through the Oak Ridge National Laboratory Distribute Active Archive Center (ORNL-DAAC). This map represents a first of its kind regional assessment of waterbody depth with per pixel estimates of depth for the entire North Slope of Alaska.

arxiv情報

著者 Mark L. Carroll,Margaret R. Wooten,Claire E. Simpson,Caleb S. Spradlin,Melanie J. Frost,Mariana Blanco-Rojas,Zachary W. Williams,Jordan A. Caraballo-Vega,Christopher S. R. Neigh
発行日 2025-02-14 15:08:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Mapping bathymetry of inland water bodies on the North Slope of Alaska with Landsat using Random Forest はコメントを受け付けていません

Step-Video-T2V Technical Report: The Practice, Challenges, and Future of Video Foundation Model

要約

30Bパラメーターと最大204フレームの長さまでのビデオを生成する機能を備えた最先端のテキストからビデオへの最先端の訓練モデルであるStep-Video-T2Vを提示します。
ディープ圧縮変動自動エンコーダーであるVideo-Vaeは、ビデオ生成タスク向けに設計されており、16×16の空間と8倍の時間的圧縮比を達成し、例外的なビデオ再構成品質を維持します。
ユーザープロンプトは、2つのバイリンガルテキストエンコーダーを使用してエンコードされ、英語と中国語の両方を処理します。
3Dの完全な注意を払ったDITは、フローマッチングを使用してトレーニングされ、潜在フレームへの入力ノイズを除去するために使用されます。
ビデオベースのDPOアプローチであるVideo-DPOが適用され、アーティファクトを削減し、生成されたビデオの視覚品質を向上させます。
また、トレーニング戦略について詳しく説明し、重要な観察と洞察を共有します。
Step-Video-T2Vのパフォーマンスは、新しいビデオ生成ベンチマークであるStep-Video-T2V-Evalで評価され、オープンソースと商業エンジンの両方と比較した場合、最先端のテキストからビデオへの品質を実証します。
さらに、現在の拡散ベースのモデルパラダイムの制限について説明し、ビデオファンデーションモデルの将来の方向性を概説します。
https://github.com/stepfun-ai/step-video-t2vでStep-Video-T2VとStep-Video-T2V-Evalの両方を入手できます。
オンラインバージョンには、https://yuewen.cn/videosからもアクセスできます。
私たちの目標は、Video Foundationモデルの革新を加速し、ビデオコンテンツの作成者に力を与えることです。

要約(オリジナル)

We present Step-Video-T2V, a state-of-the-art text-to-video pre-trained model with 30B parameters and the ability to generate videos up to 204 frames in length. A deep compression Variational Autoencoder, Video-VAE, is designed for video generation tasks, achieving 16×16 spatial and 8x temporal compression ratios, while maintaining exceptional video reconstruction quality. User prompts are encoded using two bilingual text encoders to handle both English and Chinese. A DiT with 3D full attention is trained using Flow Matching and is employed to denoise input noise into latent frames. A video-based DPO approach, Video-DPO, is applied to reduce artifacts and improve the visual quality of the generated videos. We also detail our training strategies and share key observations and insights. Step-Video-T2V’s performance is evaluated on a novel video generation benchmark, Step-Video-T2V-Eval, demonstrating its state-of-the-art text-to-video quality when compared with both open-source and commercial engines. Additionally, we discuss the limitations of current diffusion-based model paradigm and outline future directions for video foundation models. We make both Step-Video-T2V and Step-Video-T2V-Eval available at https://github.com/stepfun-ai/Step-Video-T2V. The online version can be accessed from https://yuewen.cn/videos as well. Our goal is to accelerate the innovation of video foundation models and empower video content creators.

arxiv情報

著者 Guoqing Ma,Haoyang Huang,Kun Yan,Liangyu Chen,Nan Duan,Shengming Yin,Changyi Wan,Ranchen Ming,Xiaoniu Song,Xing Chen,Yu Zhou,Deshan Sun,Deyu Zhou,Jian Zhou,Kaijun Tan,Kang An,Mei Chen,Wei Ji,Qiling Wu,Wen Sun,Xin Han,Yanan Wei,Zheng Ge,Aojie Li,Bin Wang,Bizhu Huang,Bo Wang,Brian Li,Changxing Miao,Chen Xu,Chenfei Wu,Chenguang Yu,Dapeng Shi,Dingyuan Hu,Enle Liu,Gang Yu,Ge Yang,Guanzhe Huang,Gulin Yan,Haiyang Feng,Hao Nie,Haonan Jia,Hanpeng Hu,Hanqi Chen,Haolong Yan,Heng Wang,Hongcheng Guo,Huilin Xiong,Huixin Xiong,Jiahao Gong,Jianchang Wu,Jiaoren Wu,Jie Wu,Jie Yang,Jiashuai Liu,Jiashuo Li,Jingyang Zhang,Junjing Guo,Junzhe Lin,Kaixiang Li,Lei Liu,Lei Xia,Liang Zhao,Liguo Tan,Liwen Huang,Liying Shi,Ming Li,Mingliang Li,Muhua Cheng,Na Wang,Qiaohui Chen,Qinglin He,Qiuyan Liang,Quan Sun,Ran Sun,Rui Wang,Shaoliang Pang,Shiliang Yang,Sitong Liu,Siqi Liu,Shuli Gao,Tiancheng Cao,Tianyu Wang,Weipeng Ming,Wenqing He,Xu Zhao,Xuelin Zhang,Xianfang Zeng,Xiaojia Liu,Xuan Yang,Yaqi Dai,Yanbo Yu,Yang Li,Yineng Deng,Yingming Wang,Yilei Wang,Yuanwei Lu,Yu Chen,Yu Luo,Yuchu Luo,Yuhe Yin,Yuheng Feng,Yuxiang Yang,Zecheng Tang,Zekai Zhang,Zidong Yang,Binxing Jiao,Jiansheng Chen,Jing Li,Shuchang Zhou,Xiangyu Zhang,Xinhao Zhang,Yibo Zhu,Heung-Yeung Shum,Daxin Jiang
発行日 2025-02-14 15:58:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | Step-Video-T2V Technical Report: The Practice, Challenges, and Future of Video Foundation Model はコメントを受け付けていません

Local-Prompt: Extensible Local Prompts for Few-Shot Out-of-Distribution Detection

要約

外れ方(OOD)検出は、既知のカテゴリと既知のカテゴリを区別することを目的としており、実際のシナリオで顕著になりました。
最近、Vision-Language Models(VLM)の出現により、少数のショットチューニングを通じてVLMのOOD検出の強化への関心が高まりました。
ただし、既存の方法は、主にグローバルプロンプトの最適化に焦点を当てており、外れ値に関するローカル情報の洗練された利用を無視しています。
これに動機付けられて、私たちはグローバルなプロンプトをフリーズし、ローカルプロンプトの粗から洗練されたチューニングパラダイムであるLocal-Promptを導入して、ローカルプロンプトによる地域の強化を強調しています。
私たちの方法は、2つの不可欠なコンポーネントで構成されています。グローバルプロンプトガイド付きネガティブ増加と局所促進促進地域正規化。
前者は、否定的な増強を組み込むための指針として、凍結した粗いグローバルプロンプトを利用して、地元の外れ値の知識を活用します。
後者は、訓練可能なローカルプロンプトと地域の正則化を採用して、ローカル情報を効果的にキャプチャし、外れ値の識別を支援します。
また、OOD検出の濃縮を強化するために、地域関連のメトリックを提案します。
さらに、私たちのアプローチはローカルプロンプトのみを強化することを探求するため、パフォーマンスを向上させるための推論中に訓練されたグローバルプロンプトとシームレスに統合できます。
包括的な実験は、私たちの方法の有効性と可能性を示しています。
特に、我々の方法は、挑戦的なImagenet-1Kデータセットの4ショットチューニングで、最先端の方法に対して平均FPR95を5.17%削減し、以前の方法の16ショット結果を上回ることさえあります。
コードはhttps://github.com/aurorazengfh/local-promptでリリースされます。

要約(オリジナル)

Out-of-Distribution (OOD) detection, aiming to distinguish outliers from known categories, has gained prominence in practical scenarios. Recently, the advent of vision-language models (VLM) has heightened interest in enhancing OOD detection for VLM through few-shot tuning. However, existing methods mainly focus on optimizing global prompts, ignoring refined utilization of local information with regard to outliers. Motivated by this, we freeze global prompts and introduce Local-Prompt, a novel coarse-to-fine tuning paradigm to emphasize regional enhancement with local prompts. Our method comprises two integral components: global prompt guided negative augmentation and local prompt enhanced regional regularization. The former utilizes frozen, coarse global prompts as guiding cues to incorporate negative augmentation, thereby leveraging local outlier knowledge. The latter employs trainable local prompts and a regional regularization to capture local information effectively, aiding in outlier identification. We also propose regional-related metric to empower the enrichment of OOD detection. Moreover, since our approach explores enhancing local prompts only, it can be seamlessly integrated with trained global prompts during inference to boost the performance. Comprehensive experiments demonstrate the effectiveness and potential of our method. Notably, our method reduces average FPR95 by 5.17% against state-of-the-art method in 4-shot tuning on challenging ImageNet-1k dataset, even outperforming 16-shot results of previous methods. Code is released at https://github.com/AuroraZengfh/Local-Prompt.

arxiv情報

著者 Fanhu Zeng,Zhen Cheng,Fei Zhu,Hongxin Wei,Xu-Yao Zhang
発行日 2025-02-14 15:58:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Local-Prompt: Extensible Local Prompts for Few-Shot Out-of-Distribution Detection はコメントを受け付けていません

VisCon-100K: Leveraging Contextual Web Data for Fine-tuning Vision Language Models

要約

ビジョン言語モデル(VLM)は、さまざまな視覚ベンチマークで優れていますが、多くの場合、高品質の視覚的な微調整データの欠如によって制約されます。
この課題に対処するために、インターリーブされた画像テキストWebドキュメントから派生した新しいデータセットであるViscon-100Kを紹介します。
私たちのアプローチは、45kのWebドキュメントをObelicsデータセットから100kの画像会話サンプルに変換します。
GPT-4Vを利用して画像コンテキストキャプションとOpenChat 3.5モデルを生成して、これらのキャプションを多様なフリーフォームおよび複数選択の質問回答ペアに変換します。
このデータセットを統合して微調整すると、複数のベンチマークでVLMパフォーマンスが大幅に向上します。
きめ細かい視覚コンテンツのみに焦点を当てた方法とは異なり、私たちのアプローチはWebコンテキストに伴うレバレッジを活用して、優れた結果をもたらします。
また、会話サンプルが画像とそのコンテキストキャプションの両方から答えられる質問が含まれている「漏れやすいモダリティミックス」が、キャプションとQ \&aペアの非リーキーな組み合わせよりも優れていることがわかります。
Viscon-100Kデータセットは、画像キャプションデータ(ShareGPT4V-7B)を使用してビジョンエンコーダーとアライメントしたテキストのみの大型言語モデル(LLM)と、マルチモダリストライアトレインLLM(IDEFICS2-8B)を使用して、インターリードイメージテキストテキストテキストテキストテキストを使用してビジョンエンコーダとアライメントした、2つの一般的なVLMアプローチで強力なパフォーマンスを示しています。
データ。
Viscon-100Kデータセットのリリースに加えて、このデータセットでトレーニングされたコンテキストキャプションを提供し、将来の研究およびオープンソースアプリケーションのためにスケーラブルな微調整データ生成を促進します。
同じパイプラインを使用しますが、訓練されたコンテキストキャプションをGPT-4Vに置き換えて、より大きなVisCon-1Mデータセットもリリースします。

要約(オリジナル)

Vision-language models (VLMs) excel in various visual benchmarks but are often constrained by the lack of high-quality visual fine-tuning data. To address this challenge, we introduce VisCon-100K, a novel dataset derived from interleaved image-text web documents. Our approach transforms 45K web documents from the OBELICS dataset into 100K image conversation samples. We utilize GPT-4V to generate image-contextual captions and OpenChat 3.5 model to convert these captions into diverse free-form and multiple-choice question-answer pairs. Integrating this dataset for fine-tuning considerably enhances VLM performance across multiple benchmarks. Unlike methods that focus solely on fine-grained visual content, our approach leverages accompanying web context, yielding superior results. We also discover that a `leaky modality mix,’ where conversation samples contain questions answerable from both the image and its contextual caption, outperforms non-leaky combinations of captions and Q\&A pairs. VisCon-100k dataset shows strong performance with two popular VLM approaches: text-only large language model (LLM) aligned with a vision encoder using image captions data (ShareGPT4V-7b) and multimodally pretrained LLM (IDEFICS2-8b) using interleaved image-text data. In addition to releasing the VisCon-100K dataset, we provide a contextual captioner trained on this dataset, facilitating scalable fine-tuning data generation for future research and open-source applications. Using the same pipeline, but substituting our trained contextual captioner for GPT-4V, we also release the larger VisCon-1M dataset.

arxiv情報

著者 Gokul Karthik Kumar,Iheb Chaabane,Kebin Wu
発行日 2025-02-14 15:59:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | VisCon-100K: Leveraging Contextual Web Data for Fine-tuning Vision Language Models はコメントを受け付けていません

PromptArtisan: Multi-instruction Image Editing in Single Pass with Complete Attention Control

要約

私たちは、単一のパスで顕著な結果を達成するマルチインストラクション画像編集への画期的なアプローチであるPropentArtisanを提示し、時間のかかる反復改良の必要性を排除します。
私たちの方法により、ユーザーは複数の編集手順を提供することができます。それぞれが画像内の特定のマスクに関連付けられています。
この柔軟性により、マスクの交差点や重複を含む複雑な編集が可能になり、複雑で微妙な画像変換の実現が可能になります。
ProspRARTISANは、新規の完全な注意制御メカニズム(CACM)と組み合わせて、事前に訓練されたinstantPix2Pixモデルを活用します。
このメカニズムは、ユーザーの命令を正確に順守し、編集プロセスをきめ細かく制御することを保証します。
さらに、私たちのアプローチはゼロショットであり、追加のトレーニングを必要とせず、従来の反復方法と比較して処理の複雑さが改善されています。
マルチインストラクション機能、シングルパス効率、および完全な注意制御をシームレスに統合することにより、ProspRATISANは、初心者と専門家の両方のユーザーの両方にケータリングする創造的で効率的な画像編集ワークフローの新しい可能性を解き放ちます。

要約(オリジナル)

We present PromptArtisan, a groundbreaking approach to multi-instruction image editing that achieves remarkable results in a single pass, eliminating the need for time-consuming iterative refinement. Our method empowers users to provide multiple editing instructions, each associated with a specific mask within the image. This flexibility allows for complex edits involving mask intersections or overlaps, enabling the realization of intricate and nuanced image transformations. PromptArtisan leverages a pre-trained InstructPix2Pix model in conjunction with a novel Complete Attention Control Mechanism (CACM). This mechanism ensures precise adherence to user instructions, granting fine-grained control over the editing process. Furthermore, our approach is zero-shot, requiring no additional training, and boasts improved processing complexity compared to traditional iterative methods. By seamlessly integrating multi-instruction capabilities, single-pass efficiency, and complete attention control, PromptArtisan unlocks new possibilities for creative and efficient image editing workflows, catering to both novice and expert users alike.

arxiv情報

著者 Kunal Swami,Raghu Chittersu,Pranav Adlinge,Rajeev Irny,Shashavali Doodekula,Alok Shukla
発行日 2025-02-14 16:11:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.HC | PromptArtisan: Multi-instruction Image Editing in Single Pass with Complete Attention Control はコメントを受け付けていません

MITO: Enabling Non-Line-of-Sight Perception using Millimeter-waves through Real-World Datasets and Simulation Tools

要約

日常のオブジェクトのマルチスペクトルミリ波(mmwave)画像の最初のデータセットであるMitoを紹介します。
可視光とは異なり、mmwave信号は日常の閉塞(段ボール箱、布、プラスチックなど)を介して画像化できます。
ただし、公開されているMMWave画像の不足と、MMWaveシグナルの収集と処理における学際的な課題により、コンピュータービジョン研究者がMMWAVEベースの非視覚認識アルゴリズムとモデルを開発することは今日も困難です。
これらの課題を克服するために、MMWaveイメージング用の実際のデータセットとオープンソースシミュレーションツールを紹介します。
データセットは、異なる周波数とRGB-Dカメラで動作する2つのMMWaveレーダーを備えたUR5ロボットアームを使用して取得されます。
信号処理パイプラインを介して、ロボット工学操作の標準データセットであるYCBデータセットの76を超えるオブジェクトから580を超える実世界の3D MMWave画像をキャプチャして作成します。
RGB-D画像とグラウンドトゥルースセグメンテーションマスクだけでなく、視線および非視線で現実世界のMMWave画像を提供します。
また、3Dトライアングルメッシュの合成MMWAVE画像を生成するために使用できるオープンソースシミュレーションツールも開発します。これは、実際のMMWave画像と比較した場合、94%のFスコアの中央値を達成します。
このデータセットとシミュレーションツールの有用性は、視線以外の複数のCVタスクにおける有用性を示しています。
まず、セグメントAnything Model(SAM)を使用してMMWave画像のオブジェクトセグメンテーションを実行し、92.6%と64%の精度の中央値とリコールを実現します。
第二に、非表示でオブジェクトを認識できる分類子をトレーニングします。
合成画像でトレーニングされており、実際の画像を85%の精度で分類できます。
MITOは、カメラベースのデータセットがフィールドを形成する方法と同様に、視覚的ではない知覚を開発する際のコンピュータービジョン研究者にとって貴重なリソースになると考えています。

要約(オリジナル)

We present MITO, the first dataset of multi-spectral millimeter-wave (mmWave) images of everyday objects. Unlike visible light, mmWave signals can image through everyday occlusions (e.g., cardboard boxes, fabric, plastic). However, due to the dearth of publicly-available mmWave images and the interdisciplinary challenges in collecting and processing mmWave signals, it remains difficult today for computer vision researchers to develop mmWave-based non-line-of-sight perception algorithms and models. To overcome these challenges, we introduce a real-world dataset and open-source simulation tool for mmWave imaging. The dataset is acquired using a UR5 robotic arm with two mmWave radars operating at different frequencies and an RGB-D camera. Through a signal processing pipeline, we capture and create over 580 real-world 3D mmWave images from over 76 different objects in the YCB dataset, a standard dataset for robotics manipulation. We provide real-world mmWave images in line-of-sight and non-line-of-sight, as well as RGB-D images and ground truth segmentation masks. We also develop an open-source simulation tool that can be used to generate synthetic mmWave images for any 3D triangle mesh, which achieves a median F-Score of 94% when compared to real-world mmWave images. We show the usefulness of this dataset and simulation tool in multiple CV tasks in non-line-of-sight. First, we perform object segmentation for mmWave images using the segment anything model (SAM), and achieve a median precision and recall of 92.6% and 64%. Second, we train a classifier that can recognize objects in non-line-of-sight. It is trained on synthetic images and can classify real-world images with 85% accuracy. We believe MITO will be a valuable resource for computer vision researchers in developing non-line-of-sight perception, similar to how early camera-based datasets shaped the field.

arxiv情報

著者 Laura Dodds,Tara Boroushaki,Fadel Adib
発行日 2025-02-14 16:12:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | MITO: Enabling Non-Line-of-Sight Perception using Millimeter-waves through Real-World Datasets and Simulation Tools はコメントを受け付けていません

Probing Perceptual Constancy in Large Vision Language Models

要約

知覚的恒常性とは、距離、角度、照明の変動など、感覚入力の変化にもかかわらず、オブジェクトの安定した知覚を維持する能力です。
この能力は、動的な世界で視覚情報を認識するために重要であり、ビジョン言語モデル(VLM)に不可欠です。
ただし、VLMが現在、理論的にはこの能力を習得できるかどうかは、既知のままです。
この研究では、色、サイズ、形状の恒常性の3つのドメインにわたる253の実験を使用して、33のVLMSを評価しました。
実験には、さまざまな条件下でのオブジェクト特性のモデルの認識を評価するために、古典的な認知タスクの単一画像およびビデオの適応と、野生の条件での新しいタスクが含まれていました。
VLMパフォーマンスに大きなばらつきがあり、形状の恒常性のパフォーマンスは、色とサイズの恒常性のモデルのパフォーマンスから明確に解離されました。

要約(オリジナル)

Perceptual constancy is the ability to maintain stable perceptions of objects despite changes in sensory input, such as variations in distance, angle, or lighting. This ability is crucial for recognizing visual information in a dynamic world, making it essential for Vision-Language Models (VLMs). However, whether VLMs are currently and theoretically capable of mastering this ability remains underexplored. In this study, we evaluated 33 VLMs using 253 experiments across three domains: color, size, and shape constancy. The experiments included single-image and video adaptations of classic cognitive tasks, along with novel tasks in in-the-wild conditions, to evaluate the models’ recognition of object properties under varying conditions. We found significant variability in VLM performance, with models performance in shape constancy clearly dissociated from that of color and size constancy.

arxiv情報

著者 Haoran Sun,Suyang Yu,Yijiang Li,Qingying Gao,Haiyun Lyu,Hokin Deng,Dezhi Luo
発行日 2025-02-14 16:31:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Probing Perceptual Constancy in Large Vision Language Models はコメントを受け付けていません

Artificial Intelligence to Assess Dental Findings from Panoramic Radiographs — A Multinational Study

要約

歯科用パノラマX線写真(DPR)は、包括的な口頭評価のために臨床診療で広く使用されていますが、解釈における構造と時間の制約が重複するための課題を提示しています。
この研究の目的は、DPRSの調査結果のAI AI-Automated評価のための強固なベースラインを確立し、AIシステムを評価し、多国籍データセット全体で人間の読者のパフォーマンスと比較することにより、そのパフォーマンスを比較することを目的としています。
8種類の歯科所見に焦点を当てて、3つのデータセット(オランダ、ブラジル、台湾)から6,669個のDPRを分析しました。
AIシステムは、歯あたりの検出識別のためのオブジェクト検出とセマンティックセグメンテーション技術を組み合わせました。
パフォーマンスメトリックには、受信機動作特性曲線(AUC-ROC)の下の感度、特異性、および面積が含まれます。
AIの一般化可能性はデータセット間でテストされ、パフォーマンスは人間の歯科診療者と比較されました。
AIシステムは、人間の読者に匹敵するまたは優れたパフォーマンスを実証しました。特に +67.9%(95%CI:54.0%-81.9%; P <.001)周囲放射性溶解度を特定するための感度と +4.7%(95%CI:1.4%-8.0.0 %; p = .008)欠損歯を識別するための感度 AIは、8つの調査結果で96.2%(95%CI:94.6%-97.8%)のマクロ平均AUC-ROCを達成しました。 参照とのAI契約は、虫歯を除く8つの調査結果のうち7つの人間間協定に匹敵しました(p = .024)。 AIシステムは、多様なイメージングおよび人口統計設定にわたって堅牢な一般化を実証し、人間の読者よりも79倍速く(95%CI:75-82)画像を処理しました。 AIシステムは、DPRの所見を効果的に評価し、解釈時間を大幅に削減しながら、人間の専門家と同等またはそれ以上のパフォーマンスを達成しました。 これらの結果は、AIを臨床ワークフローに統合して診断効率と精度、患者管理を改善する可能性を強調しています。

要約(オリジナル)

Dental panoramic radiographs (DPRs) are widely used in clinical practice for comprehensive oral assessment but present challenges due to overlapping structures and time constraints in interpretation. This study aimed to establish a solid baseline for the AI-automated assessment of findings in DPRs by developing, evaluating an AI system, and comparing its performance with that of human readers across multinational data sets. We analyzed 6,669 DPRs from three data sets (the Netherlands, Brazil, and Taiwan), focusing on 8 types of dental findings. The AI system combined object detection and semantic segmentation techniques for per-tooth finding identification. Performance metrics included sensitivity, specificity, and area under the receiver operating characteristic curve (AUC-ROC). AI generalizability was tested across data sets, and performance was compared with human dental practitioners. The AI system demonstrated comparable or superior performance to human readers, particularly +67.9% (95% CI: 54.0%-81.9%; p < .001) sensitivity for identifying periapical radiolucencies and +4.7% (95% CI: 1.4%-8.0%; p = .008) sensitivity for identifying missing teeth. The AI achieved a macro-averaged AUC-ROC of 96.2% (95% CI: 94.6%-97.8%) across 8 findings. AI agreements with the reference were comparable to inter-human agreements in 7 of 8 findings except for caries (p = .024). The AI system demonstrated robust generalization across diverse imaging and demographic settings and processed images 79 times faster (95% CI: 75-82) than human readers. The AI system effectively assessed findings in DPRs, achieving performance on par with or better than human experts while significantly reducing interpretation time. These results highlight the potential for integrating AI into clinical workflows to improve diagnostic efficiency and accuracy, and patient management.

arxiv情報

著者 Yin-Chih Chelsea Wang,Tsao-Lun Chen,Shankeeth Vinayahalingam,Tai-Hsien Wu,Chu Wei Chang,Hsuan Hao Chang,Hung-Jen Wei,Mu-Hsiung Chen,Ching-Chang Ko,David Anssari Moin,Bram van Ginneken,Tong Xi,Hsiao-Cheng Tsai,Min-Huey Chen,Tzu-Ming Harry Hsu,Hye Chou
発行日 2025-02-14 16:34:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Artificial Intelligence to Assess Dental Findings from Panoramic Radiographs — A Multinational Study はコメントを受け付けていません

QMaxViT-Unet+: A Query-Based MaxViT-Unet with Edge Enhancement for Scribble-Supervised Segmentation of Medical Images

要約

医療画像セグメンテーションのための高度なディープラーニングモデルの展開は、多くの場合、広範囲に注釈付きのデータセットの要件によって制約されます。
あまり正確なラベルを可能にする弱く監視されている学習は、この課題に対する有望な解決策となっています。
このアプローチに基づいて、Scribble-supervised Medical Imageセグメンテーションのための新しいフレームワークであるQmaxvit-Unet+を提案します。
このフレームワークは、U-NETアーキテクチャ上に構築されており、エンコーダーとデコーダーは多軸ビジョントランス(MAXVIT)ブロックに置き換えられます。
これらのブロックは、ローカルおよびグローバルな機能を効率的に学習するモデルの能力を高めます。
さらに、当社のアプローチでは、クエリベースのトランスデコーダーを統合して、特徴とエッジエンハンスメントモジュールを改良し、Scribbleラベルの限られた境界情報を補正します。
心臓構造、結腸直腸ポリープ、およびACDC、MS-CMRSEG、SUN-SEG、およびBUSIに焦点を当てた4つのパブリックデータセットで提案されたQMAXVIT-UNET+を評価します。
評価メトリックには、サイコロの類似性係数(DSC)とHausdorff距離(HD95)の95パーセンタイルが含まれます。
実験結果は、Qmaxvit-Unet+がACDCで89.1 \%DSCおよび1.316mm HD95、MS-CMRSEG、71.4 \%DSCおよび4.996mm HD95で89.1 \%DSC、2.226mm HD95を達成し、SUN-SEGで4.996mm HD95を達成し、69.4 \%DSCで達成したことを示しています。
Busiの50.122mm HD95。
これらの結果は、私たちの方法が、完全に監視された学習アプローチと競争力を維持しながら、精度、堅牢性、効率の観点から既存のアプローチを上回ることを示しています。
これにより、高品質の注釈が不足しており、かなりの努力と費用が必要な医療画像分析に最適です。
このコードは、https://github.com/anpc849/qmaxvit-unetで入手できます

要約(オリジナル)

The deployment of advanced deep learning models for medical image segmentation is often constrained by the requirement for extensively annotated datasets. Weakly-supervised learning, which allows less precise labels, has become a promising solution to this challenge. Building on this approach, we propose QMaxViT-Unet+, a novel framework for scribble-supervised medical image segmentation. This framework is built on the U-Net architecture, with the encoder and decoder replaced by Multi-Axis Vision Transformer (MaxViT) blocks. These blocks enhance the model’s ability to learn local and global features efficiently. Additionally, our approach integrates a query-based Transformer decoder to refine features and an edge enhancement module to compensate for the limited boundary information in the scribble label. We evaluate the proposed QMaxViT-Unet+ on four public datasets focused on cardiac structures, colorectal polyps, and breast cancer: ACDC, MS-CMRSeg, SUN-SEG, and BUSI. Evaluation metrics include the Dice similarity coefficient (DSC) and the 95th percentile of Hausdorff distance (HD95). Experimental results show that QMaxViT-Unet+ achieves 89.1\% DSC and 1.316mm HD95 on ACDC, 88.4\% DSC and 2.226mm HD95 on MS-CMRSeg, 71.4\% DSC and 4.996mm HD95 on SUN-SEG, and 69.4\% DSC and 50.122mm HD95 on BUSI. These results demonstrate that our method outperforms existing approaches in terms of accuracy, robustness, and efficiency while remaining competitive with fully-supervised learning approaches. This makes it ideal for medical image analysis, where high-quality annotations are often scarce and require significant effort and expense. The code is available at: https://github.com/anpc849/QMaxViT-Unet

arxiv情報

著者 Thien B. Nguyen-Tat,Hoang-An Vo,Phuoc-Sang Dang
発行日 2025-02-14 16:56:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | QMaxViT-Unet+: A Query-Based MaxViT-Unet with Edge Enhancement for Scribble-Supervised Segmentation of Medical Images はコメントを受け付けていません

SPIRIT: Short-term Prediction of solar IRradIance for zero-shot Transfer learning using Foundation Models

要約

従来のソーラー予測モデルは、数年のサイト固有の歴史的放射照度データに基づいており、多くの場合5年以上にわたって、新しい太陽光発電農場では利用できません。
再生可能エネルギーは非常に断続的であるため、効率的なグリッド管理と太陽エネルギーの継続的な増殖を可能にするためには、正確な太陽放射照射予測システムの構築が不可欠です。これは、国連の純ゼロ目標を達成するために重要です。
この作業では、Spiritを提案します。Spiritは、太陽光発射予測の基礎モデルを活用する新しいアプローチであり、新しい太陽光発電に適用できるようにします。
当社のアプローチは、ゼロショット転送学習の最先端のモデルよりも約70%優れているため、過去のデータに依存することなく、新しい場所で効果的なパフォーマンスを可能にします。
より多くの場所固有のデータが利用可能になるにつれて、微調整によりパフォーマンスのさらなる改善が達成されます。
これらの発見は、統計的有意性によって裏付けられており、アプローチをさらに検証します。
スピリットは、迅速でスケーラブルで適応性のある太陽の予測ソリューションに向けた極めて重要なステップを表し、再生可能エネルギーのグローバルな電力システムへの統合を進めます。

要約(オリジナル)

Traditional solar forecasting models are based on several years of site-specific historical irradiance data, often spanning five or more years, which are unavailable for newer photovoltaic farms. As renewable energy is highly intermittent, building accurate solar irradiance forecasting systems is essential for efficient grid management and enabling the ongoing proliferation of solar energy, which is crucial to achieve the United Nations’ net zero goals. In this work, we propose SPIRIT, a novel approach leveraging foundation models for solar irradiance forecasting, making it applicable to newer solar installations. Our approach outperforms state-of-the-art models in zero-shot transfer learning by about 70%, enabling effective performance at new locations without relying on any historical data. Further improvements in performance are achieved through fine-tuning, as more location-specific data becomes available. These findings are supported by statistical significance, further validating our approach. SPIRIT represents a pivotal step towards rapid, scalable, and adaptable solar forecasting solutions, advancing the integration of renewable energy into global power systems.

arxiv情報

著者 Aditya Mishra,Ravindra T,Srinivasan Iyengar,Shivkumar Kalyanaraman,Ponnurangam Kumaraguru
発行日 2025-02-14 17:10:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | SPIRIT: Short-term Prediction of solar IRradIance for zero-shot Transfer learning using Foundation Models はコメントを受け付けていません