要約
大規模マルチモーダル モデル (LMM) を活用して、特にソーシャル メディアのコンテキストでマルチモーダル情報を処理する際の人間の行動をシミュレートすることは、その幅広い可能性と広範な影響により、非常に大きな関心を集めています。
絵文字は、デジタル コミュニケーションの最もユニークな側面の 1 つであり、感情や音色の側面を豊かにし、明確にする上で極めて重要です。
しかし、GPT-4V などの高度なモデルが、オンライン インタラクションの微妙な文脈で絵文字をどのように解釈して使用するかを理解するには、顕著なギャップがあります。
この研究は、人間のような絵文字の使用を再現する際の GPT-4V の動作を調べることで、このギャップを埋めることを目的としています。
この調査結果は、人間と GPT-4V の行動の間に明らかな不一致があることを明らかにしており、これはおそらく人間の解釈の主観的な性質と GPT-4V の英語中心のトレーニングの限界によるものであり、文化的な偏見と非英語文化の不適切な表現を示唆しています。
要約(オリジナル)
Leveraging Large Multimodal Models (LMMs) to simulate human behaviors when processing multimodal information, especially in the context of social media, has garnered immense interest due to its broad potential and far-reaching implications. Emojis, as one of the most unique aspects of digital communication, are pivotal in enriching and often clarifying the emotional and tonal dimensions. Yet, there is a notable gap in understanding how these advanced models, such as GPT-4V, interpret and employ emojis in the nuanced context of online interaction. This study intends to bridge this gap by examining the behavior of GPT-4V in replicating human-like use of emojis. The findings reveal a discernible discrepancy between human and GPT-4V behaviors, likely due to the subjective nature of human interpretation and the limitations of GPT-4V’s English-centric training, suggesting cultural biases and inadequate representation of non-English cultures.
arxiv情報
著者 | Hanjia Lyu,Weihong Qi,Zhongyu Wei,Jiebo Luo |
発行日 | 2024-01-16 08:56:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google