要約
最近の視覚合成の進歩により、憎悪、差別、プライバシー侵害などの有害な影響を伴う画像に遭遇するリスクが高まっています。
有害な画像を責任のある画像に変換する研究はまだ解明されていません。
この論文では、責任あるビジュアル編集という新しいタスクを定式化します。これには、変更を最小限に抑えながら画像内の特定の概念を変更して、より責任のあるものにすることが含まれます。
ただし、編集が必要な概念は抽象的なことが多く、変更する必要があるものを特定し、それを変更する方法を計画することが困難になります。
これらの課題に取り組むために、我々は、2 段階の認知プロセスを通じて大規模なマルチモーダル モデルを活用する認知エディター (CoEditor) を提案します: (1) 変更する必要があるものに焦点を当てるための知覚的認知プロセス、および (2) 行動的認知プロセス
変更方法を戦略化するため。
研究に対する有害な画像の悪影響を軽減するために、私たちは人間の代わりにテディベアを使用して有害な情報を表現する透明な公開データセット AltBear を作成しました。
実験では、CoEditor が複雑なシーン内の抽象的な概念を効果的に理解し、責任あるビジュアル編集においてベースライン モデルのパフォーマンスを大幅に上回ることが実証されました。
AltBear データセットは実際の画像に含まれる有害なコンテンツによく対応しており、一貫した実験的評価を提供するため、将来の研究のためのより安全なベンチマークとなることがわかりました。
さらに、CoEditor は一般的な編集でも優れた結果を示します。
コードとデータセットは https://github.com/kodenii/Responsible-Visual-Editing でリリースされています。
要約(オリジナル)
With recent advancements in visual synthesis, there is a growing risk of encountering images with detrimental effects, such as hate, discrimination, or privacy violations. The research on transforming harmful images into responsible ones remains unexplored. In this paper, we formulate a new task, responsible visual editing, which entails modifying specific concepts within an image to render it more responsible while minimizing changes. However, the concept that needs to be edited is often abstract, making it challenging to locate what needs to be modified and plan how to modify it. To tackle these challenges, we propose a Cognitive Editor (CoEditor) that harnesses the large multimodal model through a two-stage cognitive process: (1) a perceptual cognitive process to focus on what needs to be modified and (2) a behavioral cognitive process to strategize how to modify. To mitigate the negative implications of harmful images on research, we create a transparent and public dataset, AltBear, which expresses harmful information using teddy bears instead of humans. Experiments demonstrate that CoEditor can effectively comprehend abstract concepts within complex scenes and significantly surpass the performance of baseline models for responsible visual editing. We find that the AltBear dataset corresponds well to the harmful content found in real images, offering a consistent experimental evaluation, thereby providing a safer benchmark for future research. Moreover, CoEditor also shows great results in general editing. We release our code and dataset at https://github.com/kodenii/Responsible-Visual-Editing.
arxiv情報
著者 | Minheng Ni,Yeli Shen,Lei Zhang,Wangmeng Zuo |
発行日 | 2024-04-08 14:56:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google