LIME-Eval: Rethinking Low-light Image Enhancement Evaluation via Object Detection

要約

強調の性質、つまり対になったグラウンドトゥルース情報が存在しないため、最近では、低照度画像強調のパフォーマンスを評価するために高レベルの視覚タスクが使用されています。
広く使用されている方法は、さまざまな候補によって強化された低照度画像でトレーニングされたオブジェクト検出器が、注釈付きの意味ラベルに関してどの程度正確に実行できるかを確認することです。
この論文では、まず、前述のアプローチが一般にオーバーフィッティングの傾向があり、そのため測定の信頼性が低下することを示します。
適切な評価指標を求めて、私たちは LIME-Bench を提案します。これは、低照度補正に対する人間の好みを収集するように設計された初のオンライン ベンチマーク プラットフォームであり、人間の知覚と自動化された評価指標の間の相関関係を検証するための貴重なデータセットを提供します。
次に、オブジェクトの注釈なしで標準照明データセットで事前トレーニングされた検出器を利用する新しい評価フレームワークである LIME-Eval をカスタマイズして、強化された画像の品質を判断します。
出力信頼マップの精度を評価するためにエネルギーベースの戦略を採用することにより、LIME-Eval は検出器の再トレーニングに関連するバイアスをバイパスし、薄暗い画像に対するアノテーションへの依存を同時に回避できます。
LIME-Eval の有効性を明らかにするために、包括的な実験が提供されます。
当社のベンチマーク プラットフォーム (https://huggingface.co/spaces/lime-j/eval) とコード (https://github.com/lime-j/lime-eval) はオンラインで入手できます。

要約(オリジナル)

Due to the nature of enhancement–the absence of paired ground-truth information, high-level vision tasks have been recently employed to evaluate the performance of low-light image enhancement. A widely-used manner is to see how accurately an object detector trained on enhanced low-light images by different candidates can perform with respect to annotated semantic labels. In this paper, we first demonstrate that the mentioned approach is generally prone to overfitting, and thus diminishes its measurement reliability. In search of a proper evaluation metric, we propose LIME-Bench, the first online benchmark platform designed to collect human preferences for low-light enhancement, providing a valuable dataset for validating the correlation between human perception and automated evaluation metrics. We then customize LIME-Eval, a novel evaluation framework that utilizes detectors pre-trained on standard-lighting datasets without object annotations, to judge the quality of enhanced images. By adopting an energy-based strategy to assess the accuracy of output confidence maps, our LIME-Eval can simultaneously bypass biases associated with retraining detectors and circumvent the reliance on annotations for dim images. Comprehensive experiments are provided to reveal the effectiveness of our LIME-Eval. Our benchmark platform (https://huggingface.co/spaces/lime-j/eval) and code (https://github.com/lime-j/lime-eval) are available online.

arxiv情報

著者 Mingjia Li,Hao Zhao,Xiaojie Guo
発行日 2024-10-11 13:47:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | LIME-Eval: Rethinking Low-light Image Enhancement Evaluation via Object Detection はコメントを受け付けていません

One-shot Generative Domain Adaptation in 3D GANs

要約

3D 対応の画像生成には、安定したトレーニングを確保し、オーバーフィッティングのリスクを軽減するために、広範なトレーニング データが必要です。
この論文ではまず、ワンショット 3D ジェネレーティブ ドメイン アダプテーション (GDA) として知られる新しいタスクについて検討します。このタスクは、単一の参照画像のみに依存して、事前トレーニング済み 3D ジェネレーターを 1 つのドメインから新しいドメインに転送することを目的としています。
ワンショット 3D GDA は、特定の属性、つまり高忠実度、大きな多様性、クロスドメインの一貫性、およびマルチビューの一貫性を追求することを特徴としています。
このペーパーでは、多様かつ忠実な生成を実現する初のワンショット 3D GDA 手法である 3D-Adapter を紹介します。
私たちのアプローチは、微調整のために制限された重みセットを慎重に選択することから始まり、その後、適応を容易にするために 4 つの高度な損失関数を活用します。
適応プロセスを強化するために、効率的な漸進的微調整戦略も実装されています。
これら 3 つの技術コンポーネントの相乗効果により、3D-Adapter は、3D GDA のすべての望ましい特性にわたって量的および定性的に実証された顕著なパフォーマンスを達成できるようになります。
さらに、3D アダプターはその機能をゼロショット シナリオまでシームレスに拡張し、補間、再構築、編集などの重要なタスクの可能性を事前トレーニングされたジェネレーターの潜在空間内に保持します。
コードは https://github.com/iceli1007/3D-Adapter で入手できます。

要約(オリジナル)

3D-aware image generation necessitates extensive training data to ensure stable training and mitigate the risk of overfitting. This paper first considers a novel task known as One-shot 3D Generative Domain Adaptation (GDA), aimed at transferring a pre-trained 3D generator from one domain to a new one, relying solely on a single reference image. One-shot 3D GDA is characterized by the pursuit of specific attributes, namely, high fidelity, large diversity, cross-domain consistency, and multi-view consistency. Within this paper, we introduce 3D-Adapter, the first one-shot 3D GDA method, for diverse and faithful generation. Our approach begins by judiciously selecting a restricted weight set for fine-tuning, and subsequently leverages four advanced loss functions to facilitate adaptation. An efficient progressive fine-tuning strategy is also implemented to enhance the adaptation process. The synergy of these three technological components empowers 3D-Adapter to achieve remarkable performance, substantiated both quantitatively and qualitatively, across all desired properties of 3D GDA. Furthermore, 3D-Adapter seamlessly extends its capabilities to zero-shot scenarios, and preserves the potential for crucial tasks such as interpolation, reconstruction, and editing within the latent space of the pre-trained generator. Code will be available at https://github.com/iceli1007/3D-Adapter.

arxiv情報

著者 Ziqiang Li,Yi Wu,Chaoyue Wang,Xue Rui,Bin Li
発行日 2024-10-11 14:04:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | One-shot Generative Domain Adaptation in 3D GANs はコメントを受け付けていません

Towards virtual painting recolouring using Vision Transformer on X-Ray Fluorescence datacubes

要約

この寄稿では、絵画作品の蛍光 X 線 (XRF) 分析の生データを使用して、仮想絵画の再着色を実行するパイプラインを定義 (およびテスト) します。
データセットのサイズが小さいことを回避するために、XRF スペクトルのデータベースから始めて合成データセットを生成します。
さらに、より優れた汎化能力を確保するため (そしてメモリ内のサイズと推論時間の問題に取り組むため)、XRF スペクトルを低次元の K 平均法に適した計量空間に埋め込むディープ変分埋め込みネットワークを定義します。
したがって、埋め込まれた XRF 画像にカラー画像を割り当てる一連のモデルをトレーニングします。
ここでは、視覚的な品質指標の観点から考案されたパイプラインのパフォーマンスを報告し、結果についての議論を終了します。

要約(オリジナル)

In this contribution, we define (and test) a pipeline to perform virtual painting recolouring using raw data of X-Ray Fluorescence (XRF) analysis on pictorial artworks. To circumvent the small dataset size, we generate a synthetic dataset, starting from a database of XRF spectra; furthermore, to ensure a better generalisation capacity (and to tackle the issue of in-memory size and inference time), we define a Deep Variational Embedding network to embed the XRF spectra into a lower dimensional, K-Means friendly, metric space. We thus train a set of models to assign coloured images to embedded XRF images. We report here the devised pipeline performances in terms of visual quality metrics, and we close on a discussion on the results.

arxiv情報

著者 Alessandro Bombini,Fernando García-Avello Bofías,Francesca Giambi,Chiara Ruberto
発行日 2024-10-11 14:05:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, I.4.m, physics.app-ph | Towards virtual painting recolouring using Vision Transformer on X-Ray Fluorescence datacubes はコメントを受け付けていません

ELMO: Enhanced Real-time LiDAR Motion Capture through Upsampling

要約

このペーパーでは、単一の LiDAR センサー用に設計されたリアルタイム アップサンプリング モーション キャプチャ フレームワークである ELMO を紹介します。
条件付き自己回帰トランスフォーマーベースのアップサンプリング モーション ジェネレーターとしてモデル化された ELMO は、20 fps の LiDAR 点群シーケンスから 60 fps のモーション キャプチャを実現します。
ELMO の主な特徴は、セルフ アテンション メカニズムと、モーションおよび点群用に慎重に設計された埋め込みモジュールを組み合わせて、モーションの品質を大幅に向上させることです。
正確なモーション キャプチャを容易にするために、単一フレームの点群からユーザーのスケルトン オフセットを予測できるワンタイム スケルトン キャリブレーション モデルを開発します。
さらに、LiDAR シミュレーターを利用した新しいデータ拡張手法を導入します。これにより、グローバルな根の追跡が強化され、環境への理解が向上します。
私たちの方法の有効性を実証するために、ELMO を画像ベースと点群ベースの両方のモーション キャプチャにおける最先端の方法と比較します。
さらに、設計原則を検証するためにアブレーション研究を実施します。
ELMO は推論時間が速いため、リアルタイム アプリケーションに適しています。これは、ライブ ストリーミングとインタラクティブ ゲーム シナリオを特集したデモ ビデオで実証されています。
さらに、さまざまな動作を実行する 20 人の異なる被験者で構成される高品質の LiDAR モーションキャプチャ同期データセットを提供します。これは、将来の研究のための貴重なリソースとして役立ちます。
データセットと評価コードは、{\blue \url{https://movin3d.github.io/ELMO_SIGASIA2024/}} で入手できます。

要約(オリジナル)

This paper introduces ELMO, a real-time upsampling motion capture framework designed for a single LiDAR sensor. Modeled as a conditional autoregressive transformer-based upsampling motion generator, ELMO achieves 60 fps motion capture from a 20 fps LiDAR point cloud sequence. The key feature of ELMO is the coupling of the self-attention mechanism with thoughtfully designed embedding modules for motion and point clouds, significantly elevating the motion quality. To facilitate accurate motion capture, we develop a one-time skeleton calibration model capable of predicting user skeleton offsets from a single-frame point cloud. Additionally, we introduce a novel data augmentation technique utilizing a LiDAR simulator, which enhances global root tracking to improve environmental understanding. To demonstrate the effectiveness of our method, we compare ELMO with state-of-the-art methods in both image-based and point cloud-based motion capture. We further conduct an ablation study to validate our design principles. ELMO’s fast inference time makes it well-suited for real-time applications, exemplified in our demo video featuring live streaming and interactive gaming scenarios. Furthermore, we contribute a high-quality LiDAR-mocap synchronized dataset comprising 20 different subjects performing a range of motions, which can serve as a valuable resource for future research. The dataset and evaluation code are available at {\blue \url{https://movin3d.github.io/ELMO_SIGASIA2024/}}

arxiv情報

著者 Deok-Kyeong Jang,Dongseok Yang,Deok-Yun Jang,Byeoli Choi,Donghoon Shin,Sung-hee Lee
発行日 2024-10-11 14:12:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.GR, cs.LG | ELMO: Enhanced Real-time LiDAR Motion Capture through Upsampling はコメントを受け付けていません

Learning Interaction-aware 3D Gaussian Splatting for One-shot Hand Avatars

要約

この論文では、3D ガウス スプラッティング (GS) と単一画像入力で手を対話するためのアニメーション可能なアバターを作成することを提案します。
単一の被験者向けに設計された既存の GS ベースの手法では、限られた入力ビュー、さまざまな手のポーズ、およびオクルージョンにより、満足のいく結果が得られないことがよくあります。
これらの課題に対処するために、被験者間のハンド事前分布を活用し、相互作用する領域の 3D ガウスを洗練する、新しい 2 段階の相互作用対応 GS フレームワークを導入します。
特に、手のバリエーションを処理するために、手の 3D プレゼンテーションを最適化ベースのアイデンティティ マップと学習ベースの潜在的な幾何学的特徴とニューラル テクスチャ マップに分解します。
学習ベースの特徴はトレーニングされたネットワークによってキャプチャされ、ポーズ、形状、テクスチャの信頼できる事前分布を提供します。また、最適化ベースのアイデンティティ マップにより、分布外のハンドの効率的なワンショット フィッティングが可能になります。
さらに、インタラクションを認識した注意モジュールと自己適応ガウス改良モジュールを考案します。
これらのモジュールは、既存の GS ベースの手法の制限を克服し、手内および手の相互作用のある領域での画像レンダリングの品質を向上させます。
私たちが提案した方法は、大規模な InterHand2.6M データセットでの広範な実験によって検証され、画質における最先端のパフォーマンスを大幅に向上させます。
プロジェクト ページ: \url{https://github.com/XuanHuang0/GuassianHand}。

要約(オリジナル)

In this paper, we propose to create animatable avatars for interacting hands with 3D Gaussian Splatting (GS) and single-image inputs. Existing GS-based methods designed for single subjects often yield unsatisfactory results due to limited input views, various hand poses, and occlusions. To address these challenges, we introduce a novel two-stage interaction-aware GS framework that exploits cross-subject hand priors and refines 3D Gaussians in interacting areas. Particularly, to handle hand variations, we disentangle the 3D presentation of hands into optimization-based identity maps and learning-based latent geometric features and neural texture maps. Learning-based features are captured by trained networks to provide reliable priors for poses, shapes, and textures, while optimization-based identity maps enable efficient one-shot fitting of out-of-distribution hands. Furthermore, we devise an interaction-aware attention module and a self-adaptive Gaussian refinement module. These modules enhance image rendering quality in areas with intra- and inter-hand interactions, overcoming the limitations of existing GS-based methods. Our proposed method is validated via extensive experiments on the large-scale InterHand2.6M dataset, and it significantly improves the state-of-the-art performance in image quality. Project Page: \url{https://github.com/XuanHuang0/GuassianHand}.

arxiv情報

著者 Xuan Huang,Hanhui Li,Wanquan Liu,Xiaodan Liang,Yiqiang Yan,Yuhao Cheng,Chengqiang Gao
発行日 2024-10-11 14:14:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Learning Interaction-aware 3D Gaussian Splatting for One-shot Hand Avatars はコメントを受け付けていません

Temporally Consistent Referring Video Object Segmentation with Hybrid Memory

要約

参照ビデオ オブジェクト セグメンテーション (R-VOS) 手法は、時間的なコンテキストの変動や視覚的に類似した他のオブジェクトの存在により、一貫したオブジェクト セグメンテーションを維持するという課題に直面しています。
私たちは、参照セグメンテーションとともに一時的なインスタンスの一貫性を明示的にモデル化するエンドツーエンドの R-VOS パラダイムを提案します。
具体的には、堅牢な時空間マッチングと伝播のためのフレーム間のコラボレーションを容易にする新しいハイブリッド メモリを導入します。
自動的に生成された高品質の参照マスクを持つフレームの特徴は、多重粒度の関連付けに基づいて残りのフレームをセグメント化するために伝播され、時間的に一貫した R-VOS を実現します。
さらに、ビデオセグメンテーションの時間的一貫性を評価するための新しいマスク一貫性スコア(MCS)メトリックを提案します。
広範な実験により、私たちのアプローチにより時間的一貫性が大幅に向上し、一般的な R-VOS ベンチマーク、つまり Ref-YouTube-VOS (67.1%) および Ref-DAVIS17 (65.6%) でトップランクのパフォーマンスが得られることが実証されました。
コードは https://github.com/bo-miao/HTR で入手できます。

要約(オリジナル)

Referring Video Object Segmentation (R-VOS) methods face challenges in maintaining consistent object segmentation due to temporal context variability and the presence of other visually similar objects. We propose an end-to-end R-VOS paradigm that explicitly models temporal instance consistency alongside the referring segmentation. Specifically, we introduce a novel hybrid memory that facilitates inter-frame collaboration for robust spatio-temporal matching and propagation. Features of frames with automatically generated high-quality reference masks are propagated to segment the remaining frames based on multi-granularity association to achieve temporally consistent R-VOS. Furthermore, we propose a new Mask Consistency Score (MCS) metric to evaluate the temporal consistency of video segmentation. Extensive experiments demonstrate that our approach enhances temporal consistency by a significant margin, leading to top-ranked performance on popular R-VOS benchmarks, i.e., Ref-YouTube-VOS (67.1%) and Ref-DAVIS17 (65.6%). The code is available at https://github.com/bo-miao/HTR.

arxiv情報

著者 Bo Miao,Mohammed Bennamoun,Yongsheng Gao,Mubarak Shah,Ajmal Mian
発行日 2024-10-11 14:23:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Temporally Consistent Referring Video Object Segmentation with Hybrid Memory はコメントを受け付けていません

A Lightweight Generative Model for Interpretable Subject-level Prediction

要約

近年、対象者の診断などの未知の関心変数を、その解剖学的機能的影響を表す医用画像から予測する方法に対する関心が高まっている。
識別モデリングに基づく方法は、正確な予測を行うことに優れていますが、その決定を解剖学的に意味のある用語で説明する能力に課題があります。
この論文では、本質的に解釈可能な単一被験者の予測のための簡単な手法を提案します。
これは、根底にある因果関係をエンコードできる古典的な人間の脳マッピング技術で使用される生成モデルを、支配的な空間相関を捕捉する多変量ノイズ モデルで強化します。
実験では、結果として得られるモデルを効率的に反転して正確な被験者レベルの予測を行うことができると同時に、内部の仕組みを直感的に視覚的に説明できることが実証されています。
この方法は使いやすいです。一般的なトレーニング セット サイズではトレーニングが高速であり、ユーザーが設定する必要があるのは 1 つのハイパーパラメータだけです。
私たちのコードは https://github.com/chiara-mauri/Interpretable-subject-level-prediction で入手できます。

要約(オリジナル)

Recent years have seen a growing interest in methods for predicting an unknown variable of interest, such as a subject’s diagnosis, from medical images depicting its anatomical-functional effects. Methods based on discriminative modeling excel at making accurate predictions, but are challenged in their ability to explain their decisions in anatomically meaningful terms. In this paper, we propose a simple technique for single-subject prediction that is inherently interpretable. It augments the generative models used in classical human brain mapping techniques, in which the underlying cause-effect relations can be encoded, with a multivariate noise model that captures dominant spatial correlations. Experiments demonstrate that the resulting model can be efficiently inverted to make accurate subject-level predictions, while at the same time offering intuitive visual explanations of its inner workings. The method is easy to use: training is fast for typical training set sizes, and only a single hyperparameter needs to be set by the user. Our code is available at https://github.com/chiara-mauri/Interpretable-subject-level-prediction.

arxiv情報

著者 Chiara Mauri,Stefano Cerri,Oula Puonti,Mark Mühlau,Koen Van Leemput
発行日 2024-10-11 14:38:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | A Lightweight Generative Model for Interpretable Subject-level Prediction はコメントを受け付けていません

TabPedia: Towards Comprehensive Visual Table Understanding with Concept Synergy

要約

テーブルには、機械の理解に課題をもたらすさまざまな構造や内容を伴う事実および定量的なデータが含まれています。
従来の方法では一般に、タスク固有のアーキテクチャと個々のタスクの目標を設計しており、その結果、モーダルな分離と複雑なワークフローが生じていました。
本稿では、概念相乗メカニズムを備えた新しい大規模視覚言語モデル TabPedia を紹介します。
このメカニズムでは、関連するすべての多様なビジュアル テーブル理解 (VTU) タスクとマルチソース ビジュアル エンベディングが概念として抽象化されます。
この統合フレームワークにより、TabPedia は、大規模言語モデル (LLM) の機能を活用して、テーブル検出、テーブル構造認識、テーブル クエリ、テーブル質問応答などの VTU タスクをシームレスに統合できます。
さらに、概念相乗メカニズムにより、対応するソース認識埋め込みから必要な手がかりを効果的に活用できるため、表認識関連タスクと理解関連タスクが調和して機能することが可能になります。
さらに、現実のシナリオにおける VTU タスクをより適切に評価するために、約 9,000 の QA ペアを特徴とする新しい包括的なテーブル VQA ベンチマークである ComTQA を確立しました。
表の認識と理解の両方のタスクに関する広範な定量的および定性的な実験が、さまざまな公開ベンチマークにわたって実施され、TabPedia の有効性が検証されました。
優れたパフォーマンスは、すべての概念が相乗効果で機能する場合、視覚的なテーブルを理解するために LLM を使用することが可能であることをさらに裏付けます。
ベンチマーク ComTQA は、https://huggingface.co/datasets/ByteDance/ComTQA でオープンソース化されています。
ソース コードとモデルは https://github.com/zhaowc-ustc/TabPedia でも公開されています。

要約(オリジナル)

Tables contain factual and quantitative data accompanied by various structures and contents that pose challenges for machine comprehension. Previous methods generally design task-specific architectures and objectives for individual tasks, resulting in modal isolation and intricate workflows. In this paper, we present a novel large vision-language model, TabPedia, equipped with a concept synergy mechanism. In this mechanism, all the involved diverse visual table understanding (VTU) tasks and multi-source visual embeddings are abstracted as concepts. This unified framework allows TabPedia to seamlessly integrate VTU tasks, such as table detection, table structure recognition, table querying, and table question answering, by leveraging the capabilities of large language models (LLMs). Moreover, the concept synergy mechanism enables table perception-related and comprehension-related tasks to work in harmony, as they can effectively leverage the needed clues from the corresponding source perception embeddings. Furthermore, to better evaluate the VTU task in real-world scenarios, we establish a new and comprehensive table VQA benchmark, ComTQA, featuring approximately 9,000 QA pairs. Extensive quantitative and qualitative experiments on both table perception and comprehension tasks, conducted across various public benchmarks, validate the effectiveness of our TabPedia. The superior performance further confirms the feasibility of using LLMs for understanding visual tables when all concepts work in synergy. The benchmark ComTQA has been open-sourced at https://huggingface.co/datasets/ByteDance/ComTQA. The source code and model also have been released athttps://github.com/zhaowc-ustc/TabPedia.

arxiv情報

著者 Weichao Zhao,Hao Feng,Qi Liu,Jingqun Tang,Shu Wei,Binghong Wu,Lei Liao,Yongjie Ye,Hao Liu,Wengang Zhou,Houqiang Li,Can Huang
発行日 2024-10-11 14:38:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | TabPedia: Towards Comprehensive Visual Table Understanding with Concept Synergy はコメントを受け付けていません

Audio Description Generation in the Era of LLMs and VLMs: A Review of Transferable Generative AI Technologies

要約

音声解説 (AD) は、視覚障害者や視覚障害者がテレビや映画などのデジタル メディア コンテンツにアクセスするのを支援するように設計された音響解説として機能します。
アクセシビリティ サービスは通常、訓練を受けた AD 専門家によって提供されるため、AD の生成には多大な人的労力が必要となり、プロセスに時間とコストがかかります。
自然言語処理 (NLP) とコンピューター ビジョン (CV)、特に大規模言語モデル (LLM) とビジョン言語モデル (VLM) の最近の進歩により、自動 AD 生成に一歩近づくことが可能になりました。
この論文では、LLM および VLM の時代における AD 生成に関連するテクノロジーをレビューします。最先端の NLP および CV テクノロジーを AD の生成にどのように適用できるかについて説明し、将来に向けた重要な研究の方向性を特定します。

要約(オリジナル)

Audio descriptions (ADs) function as acoustic commentaries designed to assist blind persons and persons with visual impairments in accessing digital media content on television and in movies, among other settings. As an accessibility service typically provided by trained AD professionals, the generation of ADs demands significant human effort, making the process both time-consuming and costly. Recent advancements in natural language processing (NLP) and computer vision (CV), particularly in large language models (LLMs) and vision-language models (VLMs), have allowed for getting a step closer to automatic AD generation. This paper reviews the technologies pertinent to AD generation in the era of LLMs and VLMs: we discuss how state-of-the-art NLP and CV technologies can be applied to generate ADs and identify essential research directions for the future.

arxiv情報

著者 Yingqiang Gao,Lukas Fischer,Alexa Lintner,Sarah Ebling
発行日 2024-10-11 14:40:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | Audio Description Generation in the Era of LLMs and VLMs: A Review of Transferable Generative AI Technologies はコメントを受け付けていません

A foundation model for generalizable disease diagnosis in chest X-ray images

要約

医療用人工知能 (AI) は、疾患診断のための強力なツールを提供することにより、胸部 X 線 (CXR) 画像の解釈に革命をもたらしています。
ただし、これらの AI モデルの有効性は、タスク固有のラベル付けされた大量のデータに依存していることと、多様な臨床設定にわたって一般化できないことによって制限されることがよくあります。
これらの課題に対処するために、ラベルのない CXR 画像から多様な表現を学習し、さまざまな臨床タスクへの効率的な適応を促進するように設計された基礎モデルである CXRBase を導入します。
CXRBase は、最初に、自己教師あり学習手法を使用して、104 万枚のラベルなし CXR 画像の実質的なデータセットでトレーニングされます。
このアプローチにより、モデルは明示的なラベルを必要とせずに意味のあるパターンを識別できるようになります。
この初期段階の後、CXRBase はラベル付けされたデータを使用して微調整され、疾患検出のパフォーマンスが向上し、胸部疾患の正確な分類が可能になります。
CXRBase は、モデルのパフォーマンスを向上させ、専門家のアノテーション作業負荷を軽減する汎用化可能なソリューションを提供し、胸部画像からの広範な臨床 AI アプリケーションを可能にします。

要約(オリジナル)

Medical artificial intelligence (AI) is revolutionizing the interpretation of chest X-ray (CXR) images by providing robust tools for disease diagnosis. However, the effectiveness of these AI models is often limited by their reliance on large amounts of task-specific labeled data and their inability to generalize across diverse clinical settings. To address these challenges, we introduce CXRBase, a foundational model designed to learn versatile representations from unlabelled CXR images, facilitating efficient adaptation to various clinical tasks. CXRBase is initially trained on a substantial dataset of 1.04 million unlabelled CXR images using self-supervised learning methods. This approach allows the model to discern meaningful patterns without the need for explicit labels. After this initial phase, CXRBase is fine-tuned with labeled data to enhance its performance in disease detection, enabling accurate classification of chest diseases. CXRBase provides a generalizable solution to improve model performance and alleviate the annotation workload of experts to enable broad clinical AI applications from chest imaging.

arxiv情報

著者 Lijian Xu,Ziyu Ni,Hao Sun,Hongsheng Li,Shaoting Zhang
発行日 2024-10-11 14:41:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | A foundation model for generalizable disease diagnosis in chest X-ray images はコメントを受け付けていません