Synthesizing Sentiment-Controlled Feedback For Multimodal Text and Image Data

要約

テキストと画像の両方を含むマルチモーダルな入力に応じて感情制御されたフィードバックを生成する機能により、システムが共感的で正確かつ魅力的な応答を提供できるようになり、人間とコンピューターの対話における重大なギャップに対処できます。
この機能は、医療、マーケティング、教育に幅広く応用できます。
この目的のために、我々は大規模な制御可能なマルチモーダルフィードバック合成 (CMFeed) データセットを構築し、制御可能なフィードバック合成システムを提案します。
提案されたシステムには、エンコーダ、デコーダ、およびテキストおよび視覚入力用の制御ブロックが含まれています。
トランスフォーマーと Faster R-CNN ネットワークを使用してテキストとビジュアルの特徴を抽出し、それらを組み合わせてフィードバックを生成します。
CMFeed データセットには、画像、テキスト、投稿に対する反応、関連性スコアのある人間のコメント、コメントに対する反応が含まれます。
投稿やコメントに対する反応は、特定の (肯定的または否定的な) 感情を伴うフィードバックを生成するように提案されたモデルをトレーニングするために利用されます。
感情分類精度は 77.23% に達し、制御性を使用しない場合の精度より 18.82% 向上しました。
さらに、このシステムには、ランクベースの指標を通じてフィードバックの関連性を評価するための類似性モジュールが組み込まれています。
これは、制御されていないフィードバックと制御されたフィードバックの生成中にテキストおよび視覚的な特徴の寄与を分析するための解釈可能性手法を実装しています。

要約(オリジナル)

The ability to generate sentiment-controlled feedback in response to multimodal inputs, comprising both text and images, addresses a critical gap in human-computer interaction by enabling systems to provide empathetic, accurate, and engaging responses. This capability has profound applications in healthcare, marketing, and education. To this end, we construct a large-scale Controllable Multimodal Feedback Synthesis (CMFeed) dataset and propose a controllable feedback synthesis system. The proposed system includes an encoder, decoder, and controllability block for textual and visual inputs. It extracts textual and visual features using a transformer and Faster R-CNN networks and combines them to generate feedback. The CMFeed dataset encompasses images, text, reactions to the post, human comments with relevance scores, and reactions to the comments. The reactions to the post and comments are utilized to train the proposed model to produce feedback with a particular (positive or negative) sentiment. A sentiment classification accuracy of 77.23% has been achieved, 18.82% higher than the accuracy without using the controllability. Moreover, the system incorporates a similarity module for assessing feedback relevance through rank-based metrics. It implements an interpretability technique to analyze the contribution of textual and visual features during the generation of uncontrolled and controlled feedback.

arxiv情報

著者 Puneet Kumar,Sarthak Malik,Balasubramanian Raman,Xiaobai Li
発行日 2024-02-12 13:27:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.MM パーマリンク