要約
画像ミーム、特にその広く知られているバリエーション画像マクロは、テキストと画像を組み合わせた特別な新しいメディア タイプであり、ソーシャル メディアでユーモア、皮肉、皮肉、さらにはヘイトをふざけてまたは微妙に表現するために使用されます。
ソーシャル メディアから画像ミームを正確に取得して、オンライン現象の文化的および社会的側面をより適切に捉え、潜在的な問題 (ヘイトスピーチ、偽情報) を検出することが重要です。
基本的に、画像マクロの背景画像は、人間が簡単に認識できる通常の画像ですが、完全な画像マクロと特徴マップが類似しているため、マシンがそうするのは面倒です。
したがって、そのような場合に適切な特徴マップを蓄積することで、画像ミームの概念を深く理解することができます。
この目的のために、私たちは視覚的部分利用と呼ばれる方法論を提案します。これは、画像ミームの視覚的部分を通常の画像クラスのインスタンスとして利用し、最初の画像ミームを画像ミーム クラスのインスタンスとして利用して、モデルが重要な部分に集中するように強制するものです。
イメージミームを特徴づける部分。
さらに、標準の ViT アーキテクチャの上にトレーニング可能なアテンション メカニズムを採用して、これらの重要な部分に焦点を当て、予測を解釈可能にするモデルの能力を強化します。
堅牢性と精度の観点からモデルを評価するために、制御されたテキストの存在の Web スクレイピングされた通常の画像を含むいくつかのトレーニングとテストのシナリオが考慮されます。
調査結果は、トレーニング中の十分なテキストの存在と組み合わせた軽い視覚的部分の利用が、最先端の技術を凌駕する、最良かつ最も堅牢なモデルを提供することを示しています。
ソース コードとデータセットは、https://github.com/mever-team/memetector で入手できます。
要約(オリジナル)
Image memes and specifically their widely-known variation image macros, is a special new media type that combines text with images and is used in social media to playfully or subtly express humour, irony, sarcasm and even hate. It is important to accurately retrieve image memes from social media to better capture the cultural and social aspects of online phenomena and detect potential issues (hate-speech, disinformation). Essentially, the background image of an image macro is a regular image easily recognized as such by humans but cumbersome for the machine to do so due to feature map similarity with the complete image macro. Hence, accumulating suitable feature maps in such cases can lead to deep understanding of the notion of image memes. To this end, we propose a methodology, called Visual Part Utilization, that utilizes the visual part of image memes as instances of the regular image class and the initial image memes as instances of the image meme class to force the model to concentrate on the critical parts that characterize an image meme. Additionally, we employ a trainable attention mechanism on top of a standard ViT architecture to enhance the model’s ability to focus on these critical parts and make the predictions interpretable. Several training and test scenarios involving web-scraped regular images of controlled text presence are considered for evaluating the model in terms of robustness and accuracy. The findings indicate that light visual part utilization combined with sufficient text presence during training provides the best and most robust model, surpassing state of the art. Source code and dataset are available at https://github.com/mever-team/memetector.
arxiv情報
著者 | Christos Koutlis,Manos Schinas,Symeon Papadopoulos |
発行日 | 2023-01-20 14:00:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google