Contrastive Learning-based Multi Modal Architecture for Emoticon Prediction by Employing Image-Text Pairs

要約

絵文字は、一般にテキスト コンテンツに付随して、書かれたメッセージの真の意図を視覚的に強化または要約する象徴的な表現です。
ソーシャル メディアの領域で広く利用されていますが、これらの絵文字の中核となるセマンティクスは、複数のモダリティに基づいて広く調査されていません。
単一のメッセージ内にテキスト情報と視覚情報を組み込むことで、高度な情報伝達方法が開発されます。
そこで本研究は、文章、ビジュアル、顔文字の関係を分析することを目的としています。
秩序ある解説として、このホワイトペーパーではまず、マルチモーダルな特徴を抽出するためのさまざまな手法を詳細に検討し、各手法の長所と短所を強調します。
融合アプローチに特に重点を置いた、いくつかのマルチモーダル アルゴリズムの包括的な検査を実施することにより、私たちは、新しい対比学習ベースのマルチモーダル アーキテクチャを提案しました。
提案されたモデルは、テキストと画像を共通の潜在空間に正確にマッピングするために、対照学習とともにデュアルブランチ エンコーダーの共同トレーニングを採用しています。
私たちの重要な発見は、対照学習の原理を他の 2 つの分野の原理と統合することで優れた結果が得られるということです。
実験結果は、私たちが提案した方法論が精度と堅牢性の点で既存のマルチモーダルアプローチを上回っていることを示しています。
提案されたモデルは、Twitter から取得した Multimodal-Twitter Emoticon データセットを使用して絵文字を評価しながら、91% の精度と 90% の MCC スコアを達成しました。
我々は、対照学習によって取得された深い特徴がより効率的であるという証拠を提供し、提案された融合技術がいくつかのモードにわたって顔文字を認識するための強力な一般化機能も備えていることを示唆しています。

要約(オリジナル)

The emoticons are symbolic representations that generally accompany the textual content to visually enhance or summarize the true intention of a written message. Although widely utilized in the realm of social media, the core semantics of these emoticons have not been extensively explored based on multiple modalities. Incorporating textual and visual information within a single message develops an advanced way of conveying information. Hence, this research aims to analyze the relationship among sentences, visuals, and emoticons. For an orderly exposition, this paper initially provides a detailed examination of the various techniques for extracting multimodal features, emphasizing the pros and cons of each method. Through conducting a comprehensive examination of several multimodal algorithms, with specific emphasis on the fusion approaches, we have proposed a novel contrastive learning based multimodal architecture. The proposed model employs the joint training of dual-branch encoder along with the contrastive learning to accurately map text and images into a common latent space. Our key finding is that by integrating the principle of contrastive learning with that of the other two branches yields superior results. The experimental results demonstrate that our suggested methodology surpasses existing multimodal approaches in terms of accuracy and robustness. The proposed model attained an accuracy of 91% and an MCC-score of 90% while assessing emoticons using the Multimodal-Twitter Emoticon dataset acquired from Twitter. We provide evidence that deep features acquired by contrastive learning are more efficient, suggesting that the proposed fusion technique also possesses strong generalisation capabilities for recognising emoticons across several modes.

arxiv情報

著者 Ananya Pandey,Dinesh Kumar Vishwakarma
発行日 2024-08-05 15:45:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク