Model Adaptation: Unsupervised Domain Adaptation without Source Data

要約

このホワイトペーパーでは、挑戦的な監視されていないドメイン適応設定、つまり教師のないモデル適応を調査します。
データプライバシーの問題により、いくつかの実際のシナリオではラベルのあるソースデータが利用できない場合があるため、ターゲットドメイン上の既存のソース予測モデルのパフォーマンスを改善するために、非標識ターゲットデータのみに依存する方法を探ることを目指しています。
この目的のために、ソースデータへの依存をバイパスするための共同クラス条件付き生成敵対的なネットと呼ばれる新しいフレームワークを提案します。
具体的には、予測モデルは、発電機のより正確なガイダンスを提供する生成されたターゲットスタイルのデータを通じて改善されます。
その結果、発電機と予測モデルは、ソースデータなしで互いに協力できます。
さらに、ソースデータからの監督が不足しているため、ソースモデルとの類似性を促進する重みの制約を提案します。
クラスタリングベースの正則化も導入され、ターゲットドメインでより差別的な機能を生成します。
従来のドメイン適応方法と比較して、我々のモデルは、この挑戦​​的な設定での有効性を検証する、ターゲットデータのみのみを使用して、複数の適応タスクで優れたパフォーマンスを実現します。

要約(オリジナル)

In this paper, we investigate a challenging unsupervised domain adaptation setting — unsupervised model adaptation. We aim to explore how to rely only on unlabeled target data to improve performance of an existing source prediction model on the target domain, since labeled source data may not be available in some real-world scenarios due to data privacy issues. For this purpose, we propose a new framework, which is referred to as collaborative class conditional generative adversarial net to bypass the dependence on the source data. Specifically, the prediction model is to be improved through generated target-style data, which provides more accurate guidance for the generator. As a result, the generator and the prediction model can collaborate with each other without source data. Furthermore, due to the lack of supervision from source data, we propose a weight constraint that encourages similarity to the source model. A clustering-based regularization is also introduced to produce more discriminative features in the target domain. Compared to conventional domain adaptation methods, our model achieves superior performance on multiple adaptation tasks with only unlabeled target data, which verifies its effectiveness in this challenging setting.

arxiv情報

著者 Rui Li,Qianfen Jiao,Wenming Cao,Hau-San Wong,Si Wu
発行日 2025-02-26 17:10:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Model Adaptation: Unsupervised Domain Adaptation without Source Data はコメントを受け付けていません

Does 3D Gaussian Splatting Need Accurate Volumetric Rendering?

要約

導入以来、3Dガウススプラッティング(3DG)は、キャプチャされたシーンの3D表現を学習するための重要な参照方法となり、視覚的な品質と速いトレーニング時間を備えたリアルタイムの小説合成を可能にします。
3DGSに先行するニューラル放射輝度(NERF)は、体積レンダリングのための原則的な光線監督アプローチに基づいています。
対照的に、同様の画像形成モデルをNERFと共有している間、3DGSは、ボリュームレンダリングとプリミティブラスター化の強度に基づいたハイブリッドレンダリングソリューションを使用します。
3DGSの重要な利点は、多くの場合、ボリュームレンダリング理論に関して、一連の近似を通じて達成されるパフォーマンスです。
自然に発生する質問は、これらの近似をより原則的なボリュームレンダリングソリューションに置き換えることで、3DGの品質を改善できるかどうかです。
この論文では、元の3DGSソリューションで使用されているさまざまな近似と仮定の詳細な分析を示します。
より正確なボリュームレンダリングは少数のプリミティブに役立つが、効率的な最適化の力と多数のガウス人により、3DGがその近似にもかかわらず体積レンダリングを上回ることができることを実証します。

要約(オリジナル)

Since its introduction, 3D Gaussian Splatting (3DGS) has become an important reference method for learning 3D representations of a captured scene, allowing real-time novel-view synthesis with high visual quality and fast training times. Neural Radiance Fields (NeRFs), which preceded 3DGS, are based on a principled ray-marching approach for volumetric rendering. In contrast, while sharing a similar image formation model with NeRF, 3DGS uses a hybrid rendering solution that builds on the strengths of volume rendering and primitive rasterization. A crucial benefit of 3DGS is its performance, achieved through a set of approximations, in many cases with respect to volumetric rendering theory. A naturally arising question is whether replacing these approximations with more principled volumetric rendering solutions can improve the quality of 3DGS. In this paper, we present an in-depth analysis of the various approximations and assumptions used by the original 3DGS solution. We demonstrate that, while more accurate volumetric rendering can help for low numbers of primitives, the power of efficient optimization and the large number of Gaussians allows 3DGS to outperform volumetric rendering despite its approximations.

arxiv情報

著者 Adam Celarek,George Kopanas,George Drettakis,Michael Wimmer,Bernhard Kerbl
発行日 2025-02-26 17:11:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR | Does 3D Gaussian Splatting Need Accurate Volumetric Rendering? はコメントを受け付けていません

ChemScraper: Leveraging PDF Graphics Instructions for Molecular Diagram Parsing

要約

ほとんどの分子図パーサーは、ラスター画像(PNG)から化学構造を回復します。
ただし、多くのPDFには、文字、線、ポリゴンの明示的な場所と形状を与えるコマンドが含まれます。
これらの生まれたデジタルPDFプリミティブを入力として使用する新しいパーサーを提示します。
解析モデルは高速で正確であり、GPU、光学文字認識(OCR)、またはベクトル化を必要としません。
パーサーを使用してラスター画像に注釈を付け、ラスター画像で分子を認識するために新しいマルチタスクニューラルネットワークをトレーニングします。
スマイルと標準のベンチマークを使用してパーサーを評価し、自動エラーコンパイルをサポートし、スマイルベースの評価に見逃されたエラーを明らかにする分子グラフを直接比較する新しい評価プロトコルとともに評価します。
合成USPTOベンチマークでは、生まれたデジタルパーサーは98.4%(以前のモデルより1%高い)の認識率を取得し、ラスター画像の比較的単純なニューラルパーサーは、既存のニューラルアプローチ(数千対数百万の分子)よりも少ないトレーニングデータを使用して85%のレートを取得します。

要約(オリジナル)

Most molecular diagram parsers recover chemical structure from raster images (e.g., PNGs). However, many PDFs include commands giving explicit locations and shapes for characters, lines, and polygons. We present a new parser that uses these born-digital PDF primitives as input. The parsing model is fast and accurate, and does not require GPUs, Optical Character Recognition (OCR), or vectorization. We use the parser to annotate raster images and then train a new multi-task neural network for recognizing molecules in raster images. We evaluate our parsers using SMILES and standard benchmarks, along with a novel evaluation protocol comparing molecular graphs directly that supports automatic error compilation and reveals errors missed by SMILES-based evaluation. On the synthetic USPTO benchmark, our born-digital parser obtains a recognition rate of 98.4% (1% higher than previous models) and our relatively simple neural parser for raster images obtains a rate of 85% using less training data than existing neural approaches (thousands vs. millions of molecules).

arxiv情報

著者 Ayush Kumar Shah,Bryan Manrique Amador,Abhisek Dey,Ming Creekmore,Blake Ocampo,Scott Denmark,Richard Zanibbi
発行日 2025-02-26 17:16:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | ChemScraper: Leveraging PDF Graphics Instructions for Molecular Diagram Parsing はコメントを受け付けていません

Unlearning Personal Data from a Single Image

要約

Machine Ulearningは、モデルからデータを消去することを目的としています。
既存のアプローチは、トレーニングデータへの完全または部分的なアクセスから情報を解除しますが、このアクセスはプライバシー規制により時間の経過とともに制限される可能性があります。
現在、このようなシナリオで学習する方法の有効性を調査するための設定やベンチマークは存在しません。
このギャップを埋めるために、トレーニングデータが利用できないときに未学習モデルを評価する個人的なアイデンティティ(1-shui)のワンショットの未解決のタスクを提案します。
私たちは、トレーニング後の個人データの削除を必要とする現在の規制のために特に関連するアイデンティティデータの解除に焦点を当てています。
データの不在に対処するために、ユーザーは学習を支援するためにポートレートピクチャーを提供することを期待しています。
Celeba、Celeba-HQ、およびMUFACのリクエストをさまざまな未学習セットサイズで設計し、1-Shuiで適用される方法を評価します。
さらに、Metaunlearnを提案します。MetaunLearnは、単一の画像からのアイデンティティを忘れるためのメタラーンが効果的な方法です。
私たちの調査結果は、特に提供されたサンプルとトレーニングデータの間に類似性がある場合、データの可用性が限られている場合、既存のアプローチが闘っていることを示しています。
https://github.com/tdemin16/one-shuiで入手可能なソースコード。

要約(オリジナル)

Machine unlearning aims to erase data from a model as if the latter never saw them during training. While existing approaches unlearn information from complete or partial access to the training data, this access can be limited over time due to privacy regulations. Currently, no setting or benchmark exists to probe the effectiveness of unlearning methods in such scenarios. To fill this gap, we propose a novel task we call One-Shot Unlearning of Personal Identities (1-SHUI) that evaluates unlearning models when the training data is not available. We focus on unlearning identity data, which is specifically relevant due to current regulations requiring personal data deletion after training. To cope with data absence, we expect users to provide a portraiting picture to aid unlearning. We design requests on CelebA, CelebA-HQ, and MUFAC with different unlearning set sizes to evaluate applicable methods in 1-SHUI. Moreover, we propose MetaUnlearn, an effective method that meta-learns to forget identities from a single image. Our findings indicate that existing approaches struggle when data availability is limited, especially when there is a dissimilarity between the provided samples and the training data. Source code available at https://github.com/tdemin16/one-shui.

arxiv情報

著者 Thomas De Min,Massimiliano Mancini,Stéphane Lathuilière,Subhankar Roy,Elisa Ricci
発行日 2025-02-26 17:16:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Unlearning Personal Data from a Single Image はコメントを受け付けていません

GStex: Per-Primitive Texturing of 2D Gaussian Splatting for Decoupled Appearance and Geometry Modeling

要約

Gaussian Splattingは、ビューの合成とシーンの再構築のための優れたパフォーマンスを実証しています。
この表現は、シーン内の数千から数百万の2Dまたは3Dガウスプリミティブの位置、スケール、色、不透明度を最適化することにより、フォトリアリスティックな品質を実現します。
ただし、各ガウス原始的な外観は外観とジオメトリの両方をエンコードするため、これらの属性は強く結合されています。したがって、高忠実度の外観モデリングには、シーンのジオメトリが単純な場合でも(テクスチャー付き平面表面など)、多数のガウス原始的なものが必要です。
1つのガウスの詳細をキャプチャするために単一のガウスを使用できるように、各2Dガウス原始をテクスチャにすることを提案します。
一定のテクスチャーを使用することにより、私たちの外観表現は、シーンのジオメトリのトポロジーと複雑さに不可知論されます。
私たちのアプローチであるGSTEXは、ガウスのスプラットをテクスチャリングする以前の作業よりも視覚品質の向上をもたらすことを示しています。
さらに、ガウスのプリミティブの数を減らすときに2Dガウスのスプラッティングと比較して、デカップリングにより、新しいビューの合成性能が改善され、GSTEXがシーンの外観の編集と再テクスチャに使用できることを実証します。

要約(オリジナル)

Gaussian splatting has demonstrated excellent performance for view synthesis and scene reconstruction. The representation achieves photorealistic quality by optimizing the position, scale, color, and opacity of thousands to millions of 2D or 3D Gaussian primitives within a scene. However, since each Gaussian primitive encodes both appearance and geometry, these attributes are strongly coupled–thus, high-fidelity appearance modeling requires a large number of Gaussian primitives, even when the scene geometry is simple (e.g., for a textured planar surface). We propose to texture each 2D Gaussian primitive so that even a single Gaussian can be used to capture appearance details. By employing per-primitive texturing, our appearance representation is agnostic to the topology and complexity of the scene’s geometry. We show that our approach, GStex, yields improved visual quality over prior work in texturing Gaussian splats. Furthermore, we demonstrate that our decoupling enables improved novel view synthesis performance compared to 2D Gaussian splatting when reducing the number of Gaussian primitives, and that GStex can be used for scene appearance editing and re-texturing.

arxiv情報

著者 Victor Rong,Jingxiang Chen,Sherwin Bahmani,Kiriakos N. Kutulakos,David B. Lindell
発行日 2025-02-26 17:30:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR, I.3 | GStex: Per-Primitive Texturing of 2D Gaussian Splatting for Decoupled Appearance and Geometry Modeling はコメントを受け付けていません

Consistent Amortized Clustering via Generative Flow Networks

要約

償却された確率的クラスタリングのニューラルモデルは、セット構造化された入力を与えられたクラスターラベルの収量サンプルと、長いマルコフチェーンの実行と明示的なデータの尤度の必要性を回避します。
ニューラルクラスタリングプロセスのように、各データポイントに順番にラベルを付ける既存のメソッドは、多くの場合、データの順序に大きく依存するクラスターの割り当てにつながります。
あるいは、完全なクラスターを順次作成する方法は、割り当て確率を提供しません。
この論文では、償却クラスタリングの新しいフレームワークであるGFNCPを紹介します。
GFNCPは、ポリシーと報酬のエネルギーベースのパラメーター化を共有する生成フローネットワークとして策定されています。
流れの一致条件は、疎外下でのクラスタリング後部の一貫性と同等であることを示し、それが次に注文不変性を意味します。
GFNCPは、合成データと現実世界の両方のデータのクラスタリングパフォーマンスの既存の方法も上回ります。

要約(オリジナル)

Neural models for amortized probabilistic clustering yield samples of cluster labels given a set-structured input, while avoiding lengthy Markov chain runs and the need for explicit data likelihoods. Existing methods which label each data point sequentially, like the Neural Clustering Process, often lead to cluster assignments highly dependent on the data order. Alternatively, methods that sequentially create full clusters, do not provide assignment probabilities. In this paper, we introduce GFNCP, a novel framework for amortized clustering. GFNCP is formulated as a Generative Flow Network with a shared energy-based parametrization of policy and reward. We show that the flow matching conditions are equivalent to consistency of the clustering posterior under marginalization, which in turn implies order invariance. GFNCP also outperforms existing methods in clustering performance on both synthetic and real-world data.

arxiv情報

著者 Irit Chelly,Roy Uziel,Oren Freifeld,Ari Pakman
発行日 2025-02-26 17:30:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Consistent Amortized Clustering via Generative Flow Networks はコメントを受け付けていません

Deep Learning-Based Transfer Learning for Classification of Cassava Disease

要約

この論文では、Cassava疾患の画像を分類するための4つの畳み込みニューラルネットワークアーキテクチャ(EfficientNet-B3、InceptionV3、ResNet50、およびVGG16)のパフォーマンス比較を示します。
画像は、競争の不均衡なデータセットから供給されました。
クラスの不均衡に対処するために、適切なメトリックが採用されました。
結果は、87.7%のこのタスク精度、87.8%の精度、87.8%の取り消し、F1スコア87.7%で達成された効率性-B3が達成されたことを示しています。
これらの調査結果は、効率的なNet-B3がデジタル農業をサポートするための貴重なツールになる可能性があることを示唆しています。

要約(オリジナル)

This paper presents a performance comparison among four Convolutional Neural Network architectures (EfficientNet-B3, InceptionV3, ResNet50, and VGG16) for classifying cassava disease images. The images were sourced from an imbalanced dataset from a competition. Appropriate metrics were employed to address class imbalance. The results indicate that EfficientNet-B3 achieved on this task accuracy of 87.7%, precision of 87.8%, revocation of 87.8% and F1-Score of 87.7%. These findings suggest that EfficientNet-B3 could be a valuable tool to support Digital Agriculture.

arxiv情報

著者 Ademir G. Costa Junior,Fábio S. da Silva,Ricardo Rios
発行日 2025-02-26 17:50:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, eess.IV, I.5.1 | Deep Learning-Based Transfer Learning for Classification of Cassava Disease はコメントを受け付けていません

UNB StepUP: A footStep database for gait analysis and recognition using Underfoot Pressure

要約

歩行とは、歩行中に生成される四肢の動きのパターンを指します。これは、物理的特性と行動特性の両方のために各個人に固有のものです。
歩行パターンは、生体認証、生体力学、スポーツ、リハビリテーションで広く研究されています。
従来の方法はビデオとモーションキャプチャに依存していますが、足元圧力センシングテクノロジーの進歩は、歩行に関するより深い洞察を提供するようになりました。
ただし、ウォーキング中の足の下の圧力は、大きくて公開されているデータセットが不足しているため、既知のままです。
これに対処するために、UNBステップアップデータベースが作成され、高解像度の圧力センシングタイル(4センサー/cm $^2 $、1.2m x 3.6m)で収集された歩行圧データを備えています。
最初のリリースであるUNB Stepup-P150には、さまざまな歩行速度(優先、遅い、高速、遅い)および履物の種類(裸足、標準靴、2つのパーソナルシューズ)にわたる150人の個人から200,000個以上のフィートステップが含まれています。
この種の最大かつ最も包括的なデータセットとして、生体力学と深い学習における新しい研究機会を提示しながら、生体認証の歩行認識をサポートします。
UNB Stepup-P150データセットは、圧力ベースの歩行分析と認識のための新しいベンチマークを設定します。
Cifshareのデータセットへのハイパーテキストリンクは、ドキュメントのレビュー中に休止状態のままであることに注意してください。

要約(オリジナル)

Gait refers to the patterns of limb movement generated during walking, which are unique to each individual due to both physical and behavioural traits. Walking patterns have been widely studied in biometrics, biomechanics, sports, and rehabilitation. While traditional methods rely on video and motion capture, advances in underfoot pressure sensing technology now offer deeper insights into gait. However, underfoot pressures during walking remain underexplored due to the lack of large, publicly accessible datasets. To address this, the UNB StepUP database was created, featuring gait pressure data collected with high-resolution pressure sensing tiles (4 sensors/cm$^2$, 1.2m by 3.6m). Its first release, UNB StepUP-P150, includes over 200,000 footsteps from 150 individuals across various walking speeds (preferred, slow-to-stop, fast, and slow) and footwear types (barefoot, standard shoes, and two personal shoes). As the largest and most comprehensive dataset of its kind, it supports biometric gait recognition while presenting new research opportunities in biomechanics and deep learning. The UNB StepUP-P150 dataset sets a new benchmark for pressure-based gait analysis and recognition. Please note that the hypertext links to the dataset on FigShare remain dormant while the document is under review.

arxiv情報

著者 Robyn Larracy,Angkoon Phinyomark,Ala Salehi,Eve MacDonald,Saeed Kazemi,Shikder Shafiul Bashar,Aaron Tabor,Erik Scheme
発行日 2025-02-26 17:51:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | UNB StepUP: A footStep database for gait analysis and recognition using Underfoot Pressure はコメントを受け付けていません

Deep Compression Autoencoder for Efficient High-Resolution Diffusion Models

要約

高解像度の拡散モデルを加速するための自動エンコーダーモデルの新しいファミリであるディープ圧縮オートエンコーダー(DC-AE)を提示します。
既存の自動エンコーダーモデルは、中程度の空間圧縮比(8x)で印象的な結果を示していますが、高空間圧縮比(例:64x)の満足のいく再構築精度を維持できません。
2つの重要な手法を導入することにより、この課題に対処します。(1)残留自動エンコード。スペースからチャネルへの変換された特徴に基づいて残差を学習するモデルを設計して、高空間圧縮自動エンコーダーの最適化の難易度を軽減します。
(2)分離された高解像度の適応、高空間圧縮自動エンコーダーの一般化ペナルティを緩和するための効率的な分離3相トレーニング戦略。
これらの設計により、再構築品質を維持しながら、自動エンコーダーの空間圧縮率を最大128に改善します。
DC-AEを潜在的な拡散モデルに適用すると、精度の低下なしで大幅なスピードアップを実現します。
たとえば、Imagenet 512×512では、DC-AEは、広く使用されているSD-VAE-F8オートエンコーダーと比較して、より良いFIDを達成しながら、UVIT-HのH100 GPUで19.1倍の推論スピードアップと17.9xトレーニングスピードアップを提供します。
私たちのコードは、https://github.com/mit-han-lab/efficientvitで入手できます。

要約(オリジナル)

We present Deep Compression Autoencoder (DC-AE), a new family of autoencoder models for accelerating high-resolution diffusion models. Existing autoencoder models have demonstrated impressive results at a moderate spatial compression ratio (e.g., 8x), but fail to maintain satisfactory reconstruction accuracy for high spatial compression ratios (e.g., 64x). We address this challenge by introducing two key techniques: (1) Residual Autoencoding, where we design our models to learn residuals based on the space-to-channel transformed features to alleviate the optimization difficulty of high spatial-compression autoencoders; (2) Decoupled High-Resolution Adaptation, an efficient decoupled three-phases training strategy for mitigating the generalization penalty of high spatial-compression autoencoders. With these designs, we improve the autoencoder’s spatial compression ratio up to 128 while maintaining the reconstruction quality. Applying our DC-AE to latent diffusion models, we achieve significant speedup without accuracy drop. For example, on ImageNet 512×512, our DC-AE provides 19.1x inference speedup and 17.9x training speedup on H100 GPU for UViT-H while achieving a better FID, compared with the widely used SD-VAE-f8 autoencoder. Our code is available at https://github.com/mit-han-lab/efficientvit.

arxiv情報

著者 Junyu Chen,Han Cai,Junsong Chen,Enze Xie,Shang Yang,Haotian Tang,Muyang Li,Yao Lu,Song Han
発行日 2025-02-26 17:56:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Deep Compression Autoencoder for Efficient High-Resolution Diffusion Models はコメントを受け付けていません

OASIS Uncovers: High-Quality T2I Models, Same Old Stereotypes

要約

テキストからイメージ(T2I)モデルによって生成された画像は、しばしば文化や職業などの概念の視覚的バイアスとステレオタイプを示します。
ステレオタイプの既存の定量的尺度は、ステレオタイプの社会学的定義と一致しない統計的平等に基づいており、したがって、バイアスをステレオタイプとして分類します。
ステレオタイプをバイアスとして単純化する代わりに、その社会学的定義と一致するステレオタイプの定量的な尺度を提案します。
次に、OASISを提案して、生成されたデータセットでステレオタイプを測定し、T2Iモデル内のそれらの起源を理解します。
OASISには、生成された画像データセットからステレオタイプを測定するための2つのスコアが含まれています。(M1)ステレオタイプの属性の分布違反を測定するステレオタイプスコア、および(M2)WALは、ステレオタイプの属性に沿った画像のスペクトル分散を測定します。
OASISには、T2Iモデルのステレオタイプの起源を理解するための2つの方法も含まれています。(U1)T2Iモデルが特定の概念と内部的に関連する属性を発見し、(U2)SPIが画像生成中のT2Iモデルの潜在空間におけるステレオタイプの属性の出現を定量化する。
OASISを使用して、画像の忠実度のかなりの進歩にもかかわらず、Flux.1やSDV3などの新しいT2Iモデルには、概念に関する強力なステレオタイプの素因が含まれており、広範囲にわたるステレオタイプの属性を持つ画像を生成すると結論付けています。
さらに、ステレオタイプの量は、インターネットのフットプリントが低い国籍のために悪化します。

要約(オリジナル)

Images generated by text-to-image (T2I) models often exhibit visual biases and stereotypes of concepts such as culture and profession. Existing quantitative measures of stereotypes are based on statistical parity that does not align with the sociological definition of stereotypes and, therefore, incorrectly categorizes biases as stereotypes. Instead of oversimplifying stereotypes as biases, we propose a quantitative measure of stereotypes that aligns with its sociological definition. We then propose OASIS to measure the stereotypes in a generated dataset and understand their origins within the T2I model. OASIS includes two scores to measure stereotypes from a generated image dataset: (M1) Stereotype Score to measure the distributional violation of stereotypical attributes, and (M2) WALS to measure spectral variance in the images along a stereotypical attribute. OASIS also includes two methods to understand the origins of stereotypes in T2I models: (U1) StOP to discover attributes that the T2I model internally associates with a given concept, and (U2) SPI to quantify the emergence of stereotypical attributes in the latent space of the T2I model during image generation. Despite the considerable progress in image fidelity, using OASIS, we conclude that newer T2I models such as FLUX.1 and SDv3 contain strong stereotypical predispositions about concepts and still generate images with widespread stereotypical attributes. Additionally, the quantity of stereotypes worsens for nationalities with lower Internet footprints.

arxiv情報

著者 Sepehr Dehdashtian,Gautam Sreekumar,Vishnu Naresh Boddeti
発行日 2025-02-26 18:04:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.CY, cs.LG | OASIS Uncovers: High-Quality T2I Models, Same Old Stereotypes はコメントを受け付けていません