GOAT-Bench: Safety Insights to Large Multimodal Models through Meme-Based Social Abuse

要約

ソーシャル・メディアの急激な成長は、情報の創造、拡散、吸収の方法を大きく変え、デジタル時代における前例がないほどである。残念なことに、この爆発的な成長は、ミームのオンライン上での濫用も著しく増加させている。ミームはしばしば微妙で暗黙的な意味を持つため、あからさまなテキストや画像では直接伝わらない。このような背景から、大規模マルチモーダルモデル(LMM)は、多様なマルチモーダルタスクを処理する顕著な能力により、注目の的となっている。本論文では、このような進展を受け、様々なLMM(GPT-4Vなど)が、ミームに現れる社会的悪用のニュアンス的側面を識別し、対応する能力を徹底的に検証することを目的とする。暗黙のヘイトスピーチ、性差別、ネットいじめなどのテーマを含む6K以上の様々なミームからなる包括的なミームベンチマークGOAT-Benchを紹介する。GOAT-Benchを利用し、LMMが憎悪、女性嫌悪、不快、皮肉、有害な内容を正確に評価する能力を掘り下げる。様々なLMMを対象とした広範な実験により、現在のLMMは依然として安全性認識が不十分であり、様々な暗黙の悪用に対して鈍感であることが明らかになった。この欠点は、安全な人工知能の実現にとって重大な障害となる。GOAT-Benchとそれに付随するリソースは、https://goatlmm.github.io/ で一般に公開されており、この重要な分野における継続的な研究に貢献している。

要約(オリジナル)

The exponential growth of social media has profoundly transformed how information is created, disseminated, and absorbed, exceeding any precedent in the digital age. Regrettably, this explosion has also spawned a significant increase in the online abuse of memes. Evaluating the negative impact of memes is notably challenging, owing to their often subtle and implicit meanings, which are not directly conveyed through the overt text and imagery. In light of this, large multimodal models (LMMs) have emerged as a focal point of interest due to their remarkable capabilities in handling diverse multimodal tasks. In response to this development, our paper aims to thoroughly examine the capacity of various LMMs (e.g. GPT-4V) to discern and respond to the nuanced aspects of social abuse manifested in memes. We introduce the comprehensive meme benchmark, GOAT-Bench, comprising over 6K varied memes encapsulating themes such as implicit hate speech, sexism, and cyberbullying, etc. Utilizing GOAT-Bench, we delve into the ability of LMMs to accurately assess hatefulness, misogyny, offensiveness, sarcasm, and harmful content. Our extensive experiments across a range of LMMs reveal that current models still exhibit a deficiency in safety awareness, showing insensitivity to various forms of implicit abuse. We posit that this shortfall represents a critical impediment to the realization of safe artificial intelligence. The GOAT-Bench and accompanying resources are publicly accessible at https://goatlmm.github.io/, contributing to ongoing research in this vital field.

arxiv情報

著者 Hongzhan Lin,Ziyang Luo,Bo Wang,Ruichao Yang,Jing Ma
発行日 2024-01-03 03:28:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL パーマリンク