要約
我々は、マルチモーダルレビュー有用性(MRHP)タスクのためのマルチモーダル分野でのマッチングに基づく学習のための新しいアーキテクチャであるPREMISE(PREdict with Matching ScorEs)を発表する。PREMISEは、マルチモーダル領域におけるマッチングに基づく学習を行う新しいアーキテクチャであり、マルチモーダル領域におけるマッチングに基づく学習を行う新しいアーキテクチャである。この新しいアーキテクチャは、文脈マッチング内容がそのタスクのターゲットと高い相関を持つようなマルチモーダルなタスクの性能を、最先端の融合ベースの手法に比べて大幅に向上させる。一般に公開されている2つのデータセットを用いた実験結果から、PREMISEはより少ない計算コストで有望な性能を達成することが示される。
要約(オリジナル)
We present PREMISE (PREdict with Matching ScorEs), a new architecture for the matching-based learning in the multimodal fields for the multimodal review helpfulness (MRHP) task. Distinct to previous fusion-based methods which obtains multimodal representations via cross-modal attention for downstream tasks, PREMISE computes the multi-scale and multi-field representations, filters duplicated semantics, and then obtained a set of matching scores as feature vectors for the downstream recommendation task. This new architecture significantly boosts the performance for such multimodal tasks whose context matching content are highly correlated to the targets of that task, compared to the state-of-the-art fusion-based methods. Experimental results on two publicly available datasets show that PREMISE achieves promising performance with less computational cost.
arxiv情報
著者 | Wei Han,Hui Chen,Soujanya Poria |
発行日 | 2025-05-02 13:23:13+00:00 |
arxivサイト | arxiv_id(pdf) |