要約
NLP の分野における多くの研究では、計算手法を使用してテキストの社会言語学的変動を調査してきました。
この論文では、視覚的なテンプレートとテキストから構成される言語の多峰性形式としてのミームも、意味のある社会的変動を示すと主張します。
私たちは、マルチモーダル構造を利用して、ミームの個々のインスタンスをテンプレートと意味変数にクラスター化する計算パイプラインを構築します。
この方法を Reddit からのミーム画像の大規模なコレクションに適用し、セマンティック関数によってクラスター化された 380 万個の画像からなる \textsc{SemanticMemes} データセットを利用できるようにします。
私たちはこれらのクラスターを使用してミームの言語変動を分析し、サブレディット間でミームの使用法に社会的に意味のある変動が存在することだけでなく、これらのコミュニティ内でのミームの革新と文化変容のパターンが書き言葉に関する以前の発見と一致していることを発見しました。
要約(オリジナル)
Much work in the space of NLP has used computational methods to explore sociolinguistic variation in text. In this paper, we argue that memes, as multimodal forms of language comprised of visual templates and text, also exhibit meaningful social variation. We construct a computational pipeline to cluster individual instances of memes into templates and semantic variables, taking advantage of their multimodal structure in doing so. We apply this method to a large collection of meme images from Reddit and make available the resulting \textsc{SemanticMemes} dataset of 3.8M images clustered by their semantic function. We use these clusters to analyze linguistic variation in memes, discovering not only that socially meaningful variation in meme usage exists between subreddits, but that patterns of meme innovation and acculturation within these communities align with previous findings on written language.
arxiv情報
著者 | Naitian Zhou,David Jurgens,David Bamman |
発行日 | 2023-11-15 17:20:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google