要約
ソーシャル メディアは、画像とテキストを組み合わせた大規模なマルチメディア コンテンツを毎日作成しており、さまざまなマルチモーダル分類タスクの視覚と言語の理解を自動化する差し迫った必要性を示しています。
一般的に研究されている視覚言語データと比較すると、ソーシャル メディアの投稿は、より暗黙的な画像とテキストの関係を示す傾向があります。
クロスモーダル セマンティクスをより適切に接着するために、ユーザー コメントからヒント機能をキャプチャします。これらの機能は、視覚的および言語的類似性を共同で活用することによって取得されます。
その後、分類タスクは、教師と生徒のフレームワークで自己トレーニングを介して調査されます。これは、既存のベンチマークで通常制限されているラベル付きデータ スケールによって動機付けられます。
画像テキスト関係分類、皮肉検出、感情分類、ヘイト スピーチ検出の 4 つのマルチモーダル ソーシャル メディア ベンチマークで実質的な実験が行われます。
結果は、私たちの方法が、コメントモデリングやセルフトレーニングを採用していない以前の最先端モデルのパフォーマンスをさらに向上させることを示しています。
要約(オリジナル)
Social media is daily creating massive multimedia content with paired image and text, presenting the pressing need to automate the vision and language understanding for various multimodal classification tasks. Compared to the commonly researched visual-lingual data, social media posts tend to exhibit more implicit image-text relations. To better glue the cross-modal semantics therein, we capture hinting features from user comments, which are retrieved via jointly leveraging visual and lingual similarity. Afterwards, the classification tasks are explored via self-training in a teacher-student framework, motivated by the usually limited labeled data scales in existing benchmarks. Substantial experiments are conducted on four multimodal social media benchmarks for image text relation classification, sarcasm detection, sentiment classification, and hate speech detection. The results show that our method further advances the performance of previous state-of-the-art models, which do not employ comment modeling or self-training.
arxiv情報
著者 | Chunpu Xu,Jing Li |
発行日 | 2023-03-27 08:59:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google