LNQ 2023 challenge: Benchmark of weakly-supervised techniques for mediastinal lymph node quantification

要約

3D CTスキャンにおけるリンパ節サイズの正確な評価は、がんの病期分類、治療管理、および監視治療反応に不可欠です。
医療画像における既存の最先端のセグメンテーションフレームワークは、しばしば完全に注釈付きのデータセットに依存しています。
ただし、リンパ節セグメンテーションの場合、これらのデータセットは通常、3D CTスキャンで多数のリンパ節に注釈を付けるために必要な広範な時間と専門知識のために小さいです。
不完全または騒々しい注釈を活用する弱く監視された学習は、最近、潜在的な解決策として医療イメージングコミュニティに関心を集めています。
提案されているさまざまな弱く監視された手法にもかかわらず、ほとんどはプライベートデータセットまたは公開されている小さなデータセットでのみ検証されています。
この制限に対処するために、縦隔リンパ節定量化(LNQ)チャレンジは、医療画像コンピューティングおよびコンピューター支援介入に関する第26回国際会議(Miccai 2023)と併せて組織されました。
この課題は、新しい部分的に注釈付きのデータセットと堅牢な評価フレームワークを提供することにより、弱く監視されたセグメンテーション方法を進めることを目的としています。
5か国から合計16のチームが予測を検証リーダーボードに提出し、3か国の6チームが評価段階に参加しました。
結果は、弱く監視されたアプローチの可能性と現在の制限の両方を強調しました。
一方では、弱く監視されているアプローチは、61.0ドルの中央値スコアで比較的良好なパフォーマンスを獲得しました。
一方、中央値DICEスコアが70ドル\%$を超えるトップランクのチームは、小さくても完全に注釈付きのデータセットを活用して、弱い監督と完全な監督を組み合わせて、パフォーマンスを向上させました。
これは、弱く監視された方法の約束と、より高いセグメンテーションパフォーマンスを実現するために、高品質で完全に注釈されたデータの継続的な必要性の両方を強調しています。

要約(オリジナル)

Accurate assessment of lymph node size in 3D CT scans is crucial for cancer staging, therapeutic management, and monitoring treatment response. Existing state-of-the-art segmentation frameworks in medical imaging often rely on fully annotated datasets. However, for lymph node segmentation, these datasets are typically small due to the extensive time and expertise required to annotate the numerous lymph nodes in 3D CT scans. Weakly-supervised learning, which leverages incomplete or noisy annotations, has recently gained interest in the medical imaging community as a potential solution. Despite the variety of weakly-supervised techniques proposed, most have been validated only on private datasets or small publicly available datasets. To address this limitation, the Mediastinal Lymph Node Quantification (LNQ) challenge was organized in conjunction with the 26th International Conference on Medical Image Computing and Computer Assisted Intervention (MICCAI 2023). This challenge aimed to advance weakly-supervised segmentation methods by providing a new, partially annotated dataset and a robust evaluation framework. A total of 16 teams from 5 countries submitted predictions to the validation leaderboard, and 6 teams from 3 countries participated in the evaluation phase. The results highlighted both the potential and the current limitations of weakly-supervised approaches. On one hand, weakly-supervised approaches obtained relatively good performance with a median Dice score of $61.0\%$. On the other hand, top-ranked teams, with a median Dice score exceeding $70\%$, boosted their performance by leveraging smaller but fully annotated datasets to combine weak supervision and full supervision. This highlights both the promise of weakly-supervised methods and the ongoing need for high-quality, fully annotated data to achieve higher segmentation performance.

arxiv情報

著者 Reuben Dorent,Roya Khajavi,Tagwa Idris,Erik Ziegler,Bhanusupriya Somarouthu,Heather Jacene,Ann LaCasce,Jonathan Deissler,Jan Ehrhardt,Sofija Engelson,Stefan M. Fischer,Yun Gu,Heinz Handels,Satoshi Kasai,Satoshi Kondo,Klaus Maier-Hein,Julia A. Schnabel,Guotai Wang,Litingyu Wang,Tassilo Wald,Guang-Zhong Yang,Hanxiao Zhang,Minghui Zhang,Steve Pieper,Gordon Harris,Ron Kikinis,Tina Kapur
発行日 2025-02-05 16:46:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | LNQ 2023 challenge: Benchmark of weakly-supervised techniques for mediastinal lymph node quantification はコメントを受け付けていません

GHOST: Gaussian Hypothesis Open-Set Technique

要約

大規模な認識方法の評価は、通常、全体的なパフォーマンスに焦点を当てています。
このアプローチは一般的ですが、多くの場合、個々のクラス全体でパフォーマンスに関する洞察を提供できず、公平性の問題や不実表示につながる可能性があります。
これらのギャップに対処することは、メソッドが斬新なクラスまたは目に見えないクラスをどの程度うまく処理するかを正確に評価し、公正な評価を確保するために重要です。
オープンセット認識(OSR)の公平性に対処するために、クラスごとのパフォーマンスが劇的に異なる可能性があることを実証します。
斜めの共分散マトリックスを使用したクラスごとの多変量ガウス分布を使用して、深い特徴をモデル化する新しいハイパーパラメーターフリーフリーアルゴリズムであるGaussian仮説オープンセットテクニック(Ghost)を紹介します。
Zスコアの正規化をロジットに適用して、モデルの期待から逸脱する機能の大きさの影響を軽減し、それによりネットワークがハイスコアを未知のサンプルに割り当てる可能性を減らします。
複数のImagENET-1Kの事前に訓練されたディープネットワークでゴーストを評価し、4つの異なる未知のデータセットでテストします。
AUOSCR、AUROC、FPR95などの標準的なメトリックを使用して、統計的に有意な改善を実現し、大規模なOSRの最先端を前進させます。
ソースコードはオンラインで提供されます。

要約(オリジナル)

Evaluations of large-scale recognition methods typically focus on overall performance. While this approach is common, it often fails to provide insights into performance across individual classes, which can lead to fairness issues and misrepresentation. Addressing these gaps is crucial for accurately assessing how well methods handle novel or unseen classes and ensuring a fair evaluation. To address fairness in Open-Set Recognition (OSR), we demonstrate that per-class performance can vary dramatically. We introduce Gaussian Hypothesis Open Set Technique (GHOST), a novel hyperparameter-free algorithm that models deep features using class-wise multivariate Gaussian distributions with diagonal covariance matrices. We apply Z-score normalization to logits to mitigate the impact of feature magnitudes that deviate from the model’s expectations, thereby reducing the likelihood of the network assigning a high score to an unknown sample. We evaluate GHOST across multiple ImageNet-1K pre-trained deep networks and test it with four different unknown datasets. Using standard metrics such as AUOSCR, AUROC and FPR95, we achieve statistically significant improvements, advancing the state-of-the-art in large-scale OSR. Source code is provided online.

arxiv情報

著者 Ryan Rabinowitz,Steve Cruz,Manuel Günther,Terrance E. Boult
発行日 2025-02-05 16:56:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | GHOST: Gaussian Hypothesis Open-Set Technique はコメントを受け付けていません

Estimating Appearance Models for Image Segmentation via Tensor Factorization

要約

画像セグメンテーションは、コンピュータービジョンのコアタスクの1つであり、それを解くことは、多くの場合、それぞれの構成領域の色分布を介して画像の外観データのモデリングに依存します。
多くのセグメンテーションアルゴリズムは、代替方法または暗黙的な方法を使用して外観モデルの依存性を処理しますが、ここでは、基礎となるセグメンテーションに関する事前の情報なしで画像から直接推定する新しいアプローチを提案します。
この方法では、潜在変数モデルのテンソル因数分解ベースの推定器への入力として、画像からのローカル高次の色統計を使用しています。
このアプローチは、マルチガリオン画像のモデルを推定し、事前のユーザーとの相互作用なしに領域の割合を自動的に出力し、以前の試みからこの問題への欠点を克服することができます。
また、多くの挑戦的な合成および実際のイメージングシナリオで提案された方法のパフォーマンスを実証し、それが効率的なセグメンテーションアルゴリズムにつながることを示しています。

要約(オリジナル)

Image Segmentation is one of the core tasks in Computer Vision and solving it often depends on modeling the image appearance data via the color distributions of each it its constituent regions. Whereas many segmentation algorithms handle the appearance models dependence using alternation or implicit methods, we propose here a new approach to directly estimate them from the image without prior information on the underlying segmentation. Our method uses local high order color statistics from the image as an input to tensor factorization-based estimator for latent variable models. This approach is able to estimate models in multiregion images and automatically output the regions proportions without prior user interaction, overcoming the drawbacks from a prior attempt to this problem. We also demonstrate the performance of our proposed method in many challenging synthetic and real imaging scenarios and show that it leads to an efficient segmentation algorithm.

arxiv情報

著者 Jeova Farias Sales Rocha Neto
発行日 2025-02-05 17:01:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, stat.ML | Estimating Appearance Models for Image Segmentation via Tensor Factorization はコメントを受け付けていません

Deep Learning-Based Approach for Identification of Potato Leaf Diseases Using Wrapper Feature Selection and Feature Concatenation

要約

ジャガイモは、世界の多くの地域で広く栽培されている作物です。
ここ数十年で、ジャガイモの農業は世界で信じられないほどの牽引力を獲得しています。
ジャガイモは、発達を阻害するいくつかの病気の影響を受けやすいです。
この植物は重大な葉の病気を持っているようです。
初期の枯病と後期枯れは、ジャガイモ植物に影響を与える2つの一般的な葉疾患です。
これらの病気の早期発見は、この作物の収量を高めるのに有益です。
理想的な解決策は、画像処理を使用してこれらの障害を識別および分析することです。
ここでは、画像処理と機械学習に基づいて自律的な方法を提示して、ジャガイモの葉に影響を与える後期枯れ病を検出します。
提案された方法は、4つの異なるフェーズで構成されています。(1)入力画像の品質を改善するためにヒストグラムの均等化が使用されます。
(2)機能抽出は、ディープCNNモデルを使用して実行され、これらの抽出された特徴は連結されます。
(3)機能選択は、ラッパーベースの機能選択を使用して実行されます。
(4)分類は、SVM分類器とそのバリアントを使用して実行されます。
この提案された方法は、550の機能を選択することにより、SVMを使用して99%の最高の精度を達成します。

要約(オリジナル)

The potato is a widely grown crop in many regions of the world. In recent decades, potato farming has gained incredible traction in the world. Potatoes are susceptible to several illnesses that stunt their development. This plant seems to have significant leaf disease. Early Blight and Late Blight are two prevalent leaf diseases that affect potato plants. The early detection of these diseases would be beneficial for enhancing the yield of this crop. The ideal solution is to use image processing to identify and analyze these disorders. Here, we present an autonomous method based on image processing and machine learning to detect late blight disease affecting potato leaves. The proposed method comprises four different phases: (1) Histogram Equalization is used to improve the quality of the input image; (2) feature extraction is performed using a Deep CNN model, then these extracted features are concatenated; (3) feature selection is performed using wrapper-based feature selection; (4) classification is performed using an SVM classifier and its variants. This proposed method achieves the highest accuracy of 99% using SVM by selecting 550 features.

arxiv情報

著者 Muhammad Ahtsam Naeem,Muhammad Asim Saleem,Muhammad Imran Sharif,Shahzad Akber,Sajjad Saleem,Zahid Akhtar,Kamran Siddique
発行日 2025-02-05 17:09:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Deep Learning-Based Approach for Identification of Potato Leaf Diseases Using Wrapper Feature Selection and Feature Concatenation はコメントを受け付けていません

Ethical Considerations for the Military Use of Artificial Intelligence in Visual Reconnaissance

要約

このホワイトペーパーは、軍事的文脈に人工知能(AI)を責任を持って展開することの重要な重要性を強調し、倫理的および法的基準へのコミットメントを強調しています。
軍隊におけるAIの進化する役割は、単なる技術的アプリケーションを超えており、倫理原則に基づいた枠組みを必要とします。
論文内の議論は、特に公平性、説明責任、透明性、倫理(運命)ガイドラインに焦点を当てた倫理的AIの原則を掘り下げます。
注目に値する考慮事項には、透明性、正義、不当性、責任が含まれます。
重要なことに、この論文は、審査を軍事固有の倫理的考慮事項に拡張し、著名な実体によって確立された公正な戦争理論と原則から洞察を引き出しています。
特定された原則に加えて、この論文では、軍事AIアプリケーション向けに特別に調整されたさらなる倫理的考慮事項を紹介しています。
これらには、トレーサビリティ、比例性、ガバナビリティ、責任、および信頼性が含まれます。
これらの倫理原則の適用は、海、空気、土地の領域での3つのユースケースに基づいて議論されています。
自動センサーデータ分析、説明可能なAI(XAI)、および直感的なユーザーエクスペリエンスの方法を利用して、実際のシナリオに近いユースケースを指定します。
軍事AIにおける倫理的考慮事項に対するこの包括的なアプローチは、技術の進歩を確立された倫理的枠組みに合わせるというコミットメントを反映しています。
道徳的および法的基準を支持しながら、軍事作戦におけるAIの潜在的な利益を活用することとのバランスの必要性を認識しています。
これらの倫理原則を含めることは、軍事シナリオの複雑で動的な景観におけるAIの責任ある説明責任のある使用の基盤として機能します。

要約(オリジナル)

This white paper underscores the critical importance of responsibly deploying Artificial Intelligence (AI) in military contexts, emphasizing a commitment to ethical and legal standards. The evolving role of AI in the military goes beyond mere technical applications, necessitating a framework grounded in ethical principles. The discussion within the paper delves into ethical AI principles, particularly focusing on the Fairness, Accountability, Transparency, and Ethics (FATE) guidelines. Noteworthy considerations encompass transparency, justice, non-maleficence, and responsibility. Importantly, the paper extends its examination to military-specific ethical considerations, drawing insights from the Just War theory and principles established by prominent entities. In addition to the identified principles, the paper introduces further ethical considerations specifically tailored for military AI applications. These include traceability, proportionality, governability, responsibility, and reliability. The application of these ethical principles is discussed on the basis of three use cases in the domains of sea, air, and land. Methods of automated sensor data analysis, eXplainable AI (XAI), and intuitive user experience are utilized to specify the use cases close to real-world scenarios. This comprehensive approach to ethical considerations in military AI reflects a commitment to aligning technological advancements with established ethical frameworks. It recognizes the need for a balance between leveraging AI’s potential benefits in military operations while upholding moral and legal standards. The inclusion of these ethical principles serves as a foundation for responsible and accountable use of AI in the complex and dynamic landscape of military scenarios.

arxiv情報

著者 Mathias Anneken,Nadia Burkart,Fabian Jeschke,Achim Kuwertz-Wolf,Almuth Mueller,Arne Schumann,Michael Teutsch
発行日 2025-02-05 17:16:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.CY | Ethical Considerations for the Military Use of Artificial Intelligence in Visual Reconnaissance はコメントを受け付けていません

Predicting Future States with Spatial Point Processes in Single Molecule Resolution Spatial Transcriptomics

要約

この論文では、Xgboostに基づいたパイプラインを導入して、後部(AP)の前方(AP)の両方でSOG-D遺伝子(活性細胞)と背側から腹側(DV)軸の両方で発現する細胞の将来の分布を予測します。
胚形成プロセスにおけるショウジョウバエ。
この方法では、細胞全体での細胞全体の胚の空間トランスクリプトームイメージングでの細胞と生物がどのようにサブ細胞の単一分子分解能での遺伝子発現を制御するかについての洞察を提供します。
XGBoostモデルを使用して、前のものに基づいて次の段階のアクティブ分布を予測しました。
この目標を達成するために、胚形成の各段階で細胞の状態と併せてリプリーのK関数を含めることにより、一時的に解決された空間点プロセスを活用し、活性細胞分布の平均予測精度を発見しました。
このツールは、空間的に解決された発達生物学のRNA速度に類似しており、1つのデータポイントから、空間ポイントプロセスの特徴を使用して将来の空間的に解決された遺伝子発現を予測できます。

要約(オリジナル)

In this paper, we introduce a pipeline based on XGboost to predict the future distribution of cells that are expressed by the Sog-D gene (active cells) in both the Anterior to posterior (AP) and the Dorsal to Ventral (DV) axis of the Drosophila in embryogenesis process. This method provides insights about how cells and living organisms control gene expression in super resolution whole embryo spatial transcriptomics imaging at sub cellular, single molecule resolution. An XGboost model was used to predict the next stage active distribution based on the previous one. To achieve this goal, we leveraged temporally resolved, spatial point processes by including Ripley’s K-function in conjunction with the cell’s state in each stage of embryogenesis, and found average predictive accuracy of active cell distribution. This tool is analogous to RNA Velocity for spatially resolved developmental biology, from one data point we can predict future spatially resolved gene expression using features from the spatial point processes.

arxiv情報

著者 Biraaj Rout,Priyanshi Borad,Parisa Boodaghi Malidarreh,Mohammad Sadegh Nasr,Jillur Rahman Saurav,Kelli Fenelon,Jai Prakash Veerla,Jacob M. Luber,Theodora Koromila
発行日 2025-02-05 17:29:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, q-bio.TO | Predicting Future States with Spatial Point Processes in Single Molecule Resolution Spatial Transcriptomics はコメントを受け付けていません

Deep Clustering via Probabilistic Ratio-Cut Optimization

要約

バイナリ割り当てをランダム変数としてモデル化することにより、グラフ比カットを最適化するための新しいアプローチを提案します。
オンライン設定で割り当て変数のパラメーターを学習するために、予想される比率カットの上限と、その勾配の公平な推定値を提供します。
確率的アプローチ(PRCUT)に起因するクラスタリングは、組み合わせ問題、オンライン学習拡張機能、およびいくつかの広く使用されている方法のレイリークォミエイトリラックスを上回ります。
PRCUTクラスタリングは、類似性測定値と密接に整合し、ラベルベースの類似性が提供された場合に監視された分類器と同様に実行できることを実証します。
この新しいアプローチは、すぐに使用できる自己監督の表現を活用して、競争力のあるパフォーマンスを達成し、これらの表現の品質の評価方法として機能します。

要約(オリジナル)

We propose a novel approach for optimizing the graph ratio-cut by modeling the binary assignments as random variables. We provide an upper bound on the expected ratio-cut, as well as an unbiased estimate of its gradient, to learn the parameters of the assignment variables in an online setting. The clustering resulting from our probabilistic approach (PRCut) outperforms the Rayleigh quotient relaxation of the combinatorial problem, its online learning extensions, and several widely used methods. We demonstrate that the PRCut clustering closely aligns with the similarity measure and can perform as well as a supervised classifier when label-based similarities are provided. This novel approach can leverage out-of-the-box self-supervised representations to achieve competitive performance and serve as an evaluation method for the quality of these representations.

arxiv情報

著者 Ayoub Ghriss,Claire Monteleoni
発行日 2025-02-05 17:47:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Deep Clustering via Probabilistic Ratio-Cut Optimization はコメントを受け付けていません

Learning Effective NeRFs and SDFs Representations with 3D Generative Adversarial Networks for 3D Object Generation

要約

ICCV 2023 OmnioBject3D Challengeの3Dオブジェクト生成のソリューションを提示します。
近年、3Dオブジェクトの生成は優れたプロセスを実現し、有望な結果を達成しましたが、複雑でテクスチャ、高忠実度の結果を生成するのが難しいため、困難なタスクのままです。
この問題を解決するために、3Dオブジェクト生成のための3D生成敵対的ネットワーク(GAN)を使用して、効果的なNERFSおよびSDFS表現を学習します。
具体的には、最近の作品に触発されて、効率的なジオメトリ認識3D GANをラベルの埋め込みとカラーマッピングを組み込んだバックボーンとして使用します。これにより、異なる分類法のモデルを同時にトレーニングできます。
次に、デコーダーを介して、結果の特徴を集計して、高忠実度の合成画像をレンダリングするためのニューラル放射輝度フィールド(NERF)ベースの表現を生成します。
一方、署名距離関数(SDF)を最適化して、3Dメッシュを持つオブジェクトを効果的に表現します。
また、このモデルは、オブジェクトごとに多数の画像を使用したり、クラスごとに1つのモデルをトレーニングするのではなく、さまざまなクラスの各オブジェクトの数個の画像で効果的にトレーニングできることがわかります。
このパイプラインを使用すると、3Dオブジェクト生成に効果的なモデルを最適化できます。
このソリューションは、ICCV 2023 Omniobject3D Challengeのトップ3の1つです。

要約(オリジナル)

We present a solution for 3D object generation of ICCV 2023 OmniObject3D Challenge. In recent years, 3D object generation has made great process and achieved promising results, but it remains a challenging task due to the difficulty of generating complex, textured, and high-fidelity results. To resolve this problem, we study learning effective NeRFs and SDFs representations with 3D Generative Adversarial Networks (GANs) for 3D object generation. Specifically, inspired by recent works, we use the efficient geometry-aware 3D GANs as the backbone incorporating with label embedding and color mapping, which enables to train the model on different taxonomies simultaneously. Then, through a decoder, we aggregate the resulting features to generate Neural Radiance Fields (NeRFs) based representations for rendering high-fidelity synthetic images. Meanwhile, we optimize Signed Distance Functions (SDFs) to effectively represent objects with 3D meshes. Besides, we observe that this model can be effectively trained with only a few images of each object from a variety of classes, instead of using a great number of images per object or training one model per class. With this pipeline, we can optimize an effective model for 3D object generation. This solution is among the top 3 in the ICCV 2023 OmniObject3D Challenge.

arxiv情報

著者 Zheyuan Yang,Yibo Liu,Guile Wu,Tongtong Cao,Yuan Ren,Yang Liu,Bingbing Liu
発行日 2025-02-05 18:05:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Learning Effective NeRFs and SDFs Representations with 3D Generative Adversarial Networks for 3D Object Generation はコメントを受け付けていません

Can Text-to-Image Generative Models Accurately Depict Age? A Comparative Study on Synthetic Portrait Generation and Age Estimation

要約

テキストからイメージへの生成モデルは、多様で光選挙的な出力を生成する際に顕著な進歩を示しています。
この論文では、年齢、国籍、性別に特に焦点を当てた、さまざまな人口統計属性を正確に表す合成ポートレートを作成する際の有効性の包括的な分析を提示します。
私たちの評価では、詳細なプロファイルを指定するプロンプト(例:32歳のカナダの男性の光エアリスティックな自撮り写真)を指定し、212の国籍、10〜78歳までの30歳の幅広い国籍、バランスの取れた性別をカバーしています。
生成された画像を、2つの確立された年齢推定モデルからのグラウンドトゥルース年齢の推定値と比較して、年齢が忠実に描かれていることを評価します。
私たちの調査結果は、テキストから画像へのモデルは、異なるアイデンティティを反映した顔を一貫して生成できることを明らかにしていますが、特定の年齢をキャプチャし、多様な人口統計上の背景を越えてそうする精度は非常に変化し続けます。
これらの結果は、実務家が重要なフィルタリングとキュレーションに投資する準備ができていない限り、現在の合成データは、堅牢な精度を必要とする高ステークスの年齢に関連したタスクに対して不十分に信頼性が高い可能性があることを示唆しています。
それにもかかわらず、絶対年齢の精度が重要ではない場合、敏感または探索的アプリケーションでは依然として有用である可能性があります。

要約(オリジナル)

Text-to-image generative models have shown remarkable progress in producing diverse and photorealistic outputs. In this paper, we present a comprehensive analysis of their effectiveness in creating synthetic portraits that accurately represent various demographic attributes, with a special focus on age, nationality, and gender. Our evaluation employs prompts specifying detailed profiles (e.g., Photorealistic selfie photo of a 32-year-old Canadian male), covering a broad spectrum of 212 nationalities, 30 distinct ages from 10 to 78, and balanced gender representation. We compare the generated images against ground truth age estimates from two established age estimation models to assess how faithfully age is depicted. Our findings reveal that although text-to-image models can consistently generate faces reflecting different identities, the accuracy with which they capture specific ages and do so across diverse demographic backgrounds remains highly variable. These results suggest that current synthetic data may be insufficiently reliable for high-stakes age-related tasks requiring robust precision, unless practitioners are prepared to invest in significant filtering and curation. Nevertheless, they may still be useful in less sensitive or exploratory applications, where absolute age precision is not critical.

arxiv情報

著者 Alexey A. Novikov,Miroslav Vranka,François David,Artem Voronin
発行日 2025-02-05 18:08:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Can Text-to-Image Generative Models Accurately Depict Age? A Comparative Study on Synthetic Portrait Generation and Age Estimation はコメントを受け付けていません

Concept Based Explanations and Class Contrasting

要約

深いニューラルネットワークを説明することは、その大きさと非線形性のために挑戦的です。
このホワイトペーパーでは、個々のクラスの予測を説明したり、2つのクラスを対照するために、概念ベースの説明方法を紹介します。つまり、モデルが1つのクラスを他のクラスよりも予測する理由を説明します。
Imagenet1kでトレーニングされたいくつかの公然と利用可能な分類モデルと、染色された組織サンプルの腫瘍を検出するように訓練されたセグメンテーションモデルでテストします。
定性的テストと定量的テストの両方を実行します。
たとえば、Pytorch Model ZooのRESNET50モデルの場合、モデルがクラス「A」を予測する理由について説明を使用して、モデルがクラス「A」を予測しない6つのデータセット作物を自動的に選択できます。
このモデルは、ケースの71%で新しく結合された画像のクラス「A」を再度予測します(1000クラスのうち710で動作します)。
.ipynbの例を含むコードは、git:https://github.com/rherdt185/concept-based-explanationsとcontrastingで入手できます。

要約(オリジナル)

Explaining deep neural networks is challenging, due to their large size and non-linearity. In this paper, we introduce a concept-based explanation method, in order to explain the prediction for an individual class, as well as contrasting any two classes, i.e. explain why the model predicts one class over the other. We test it on several openly available classification models trained on ImageNet1K, as well as on a segmentation model trained to detect tumor in stained tissue samples. We perform both qualitative and quantitative tests. For example, for a ResNet50 model from pytorch model zoo, we can use the explanation for why the model predicts a class ‘A’ to automatically select six dataset crops where the model does not predict class ‘A’. The model then predicts class ‘A’ again for the newly combined image in 71\% of the cases (works for 710 out of the 1000 classes). The code including an .ipynb example is available on git: https://github.com/rherdt185/concept-based-explanations-and-class-contrasting.

arxiv情報

著者 Rudolf Herdt,Daniel Otero Baguer
発行日 2025-02-05 18:10:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Concept Based Explanations and Class Contrasting はコメントを受け付けていません