Image-Perfect Imperfections: Safety, Bias, and Authenticity in the Shadow of Text-To-Image Model Evolution

要約

安定拡散 (SD) などのテキストから画像へのモデルは、画質を向上させ、安全性などの懸念事項に対処するために反復更新されます。
画質の向上は簡単に評価できます。
ただし、モデルの更新によって既存の懸念がどのように解決されるか、また新たな疑問が生じるかどうかはまだ解明されていません。
この研究は、安全性、バイアス、信頼性の観点からテキストから画像へのモデルの進化を調査する最初の一歩となります。
安定拡散を中心とした私たちの調査結果は、モデルの更新によってさまざまな状況が描かれることを示しています。
アップデートにより、安全でない画像の生成は徐々に減少していますが、特に性別に関する偏見の問題は激化しています。
また、否定的な固定観念が同じ非白人人種グループ内に存続するか、SD アップデートを通じて他の非白人人種グループに移行するものの、これらの特性と白人人種グループとの関連性は最小限であることもわかりました。
さらに、私たちの評価では、SD アップデートに起因する新たな懸念も明らかになりました。最先端の偽画像検出器は、最初は初期の SD バージョン用にトレーニングされていましたが、更新されたバージョンによって生成された偽画像を識別するのに苦労しています。
更新されたバージョンによって生成された偽のイメージに対してこれらの検出器を微調整すると、さまざまな SD バージョンにわたって少なくとも 96.6\% の精度が達成され、この問題が解決されることを示します。
私たちの洞察は、進化するテキストから画像へのモデルにおけるバイアスと脆弱性を軽減するための継続的な取り組みの重要性を強調しています。

要約(オリジナル)

Text-to-image models, such as Stable Diffusion (SD), undergo iterative updates to improve image quality and address concerns such as safety. Improvements in image quality are straightforward to assess. However, how model updates resolve existing concerns and whether they raise new questions remain unexplored. This study takes an initial step in investigating the evolution of text-to-image models from the perspectives of safety, bias, and authenticity. Our findings, centered on Stable Diffusion, indicate that model updates paint a mixed picture. While updates progressively reduce the generation of unsafe images, the bias issue, particularly in gender, intensifies. We also find that negative stereotypes either persist within the same Non-White race group or shift towards other Non-White race groups through SD updates, yet with minimal association of these traits with the White race group. Additionally, our evaluation reveals a new concern stemming from SD updates: State-of-the-art fake image detectors, initially trained for earlier SD versions, struggle to identify fake images generated by updated versions. We show that fine-tuning these detectors on fake images generated by updated versions achieves at least 96.6\% accuracy across various SD versions, addressing this issue. Our insights highlight the importance of continued efforts to mitigate biases and vulnerabilities in evolving text-to-image models.

arxiv情報

著者 Yixin Wu,Yun Shen,Michael Backes,Yang Zhang
発行日 2024-08-30 13:33:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG パーマリンク