Disturbing Image Detection Using LMM-Elicited Emotion Embeddings

要約

この論文では、大規模マルチモーダル モデル (LMM) にエンコードされた知識を利用して、妨害画像検出 (DID) のタスクを扱います。
具体的には、LMM 知識を 2 つの方法で活用することを提案します。1 つ目は一般的な意味記述を抽出し、2 つ目は引き出した感情を抽出することです。
次に、CLIP のテキスト エンコーダを使用して、一般的な意味記述と LMM によって誘発された感情の両方のテキスト埋め込みを取得します。
最後に、DID タスクを実行するために、前述のテキスト埋め込みを、対応する CLIP の画像埋め込みとともに使用します。
提案された方法は、ベースライン分類精度を大幅に向上させ、拡張された妨害画像検出データセットで最先端のパフォーマンスを達成します。

要約(オリジナル)

In this paper we deal with the task of Disturbing Image Detection (DID), exploiting knowledge encoded in Large Multimodal Models (LMMs). Specifically, we propose to exploit LMM knowledge in a two-fold manner: first by extracting generic semantic descriptions, and second by extracting elicited emotions. Subsequently, we use the CLIP’s text encoder in order to obtain the text embeddings of both the generic semantic descriptions and LMM-elicited emotions. Finally, we use the aforementioned text embeddings along with the corresponding CLIP’s image embeddings for performing the DID task. The proposed method significantly improves the baseline classification accuracy, achieving state-of-the-art performance on the augmented Disturbing Image Detection dataset.

arxiv情報

著者 Maria Tzelepi,Vasileios Mezaris
発行日 2024-06-18 14:41:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク