Code and Pixels: Multi-Modal Contrastive Pre-training for Enhanced Tabular Data Analysis

要約

表形式データからの学習は、包括的な理解と意思決定プロセスに重要な構造化情報の豊富なソースを提供することで、画像データやビデオ データの従来の分析を補完するため、非常に重要です。
表データと対応する画像間の相関を利用して表モデルを強化することを目的とした新しい方法であるマルチタスク対比マスク表モデリング (MT-CMTM) を紹介します。
MT-CMTM は、対比学習とマスクされた表形式モデリングを組み合わせた二重戦略を採用し、これらのデータ モダリティ間の相乗効果を最適化します。
私たちのアプローチの中心となるのは、画像に依存せずに表形式のデータを効率的に処理するように設計された、残余接続とアテンション メカニズム (1D-ResNet-CBAM) を備えた 1D 畳み込みニューラル ネットワークです。
これにより、MT-CMTM は下流タスク用に純粋に表形式のデータを処理できるようになり、コストがかかる可能性がある画像の取得と処理が不要になります。
私たちは、この特定のシナリオに独自に適した DVM 車データセットと、膜製造パラメータと画像データを結び付ける新しく開発された HIPMP データセットで MT-CMTM を評価しました。
当社の MT-CMTM モデルは、ゼロからトレーニングされた提案された表形式の 1D-ResNet-CBAM よりも優れており、HIPMP で相対 MSE が 1.48% 向上し、DVM で絶対精度が 2.38% 向上しました。
これらの結果は、MT-CMTM の堅牢性と、マルチモーダル学習の分野を進歩させる可能性を示しています。

要約(オリジナル)

Learning from tabular data is of paramount importance, as it complements the conventional analysis of image and video data by providing a rich source of structured information that is often critical for comprehensive understanding and decision-making processes. We present Multi-task Contrastive Masked Tabular Modeling (MT-CMTM), a novel method aiming to enhance tabular models by leveraging the correlation between tabular data and corresponding images. MT-CMTM employs a dual strategy combining contrastive learning with masked tabular modeling, optimizing the synergy between these data modalities. Central to our approach is a 1D Convolutional Neural Network with residual connections and an attention mechanism (1D-ResNet-CBAM), designed to efficiently process tabular data without relying on images. This enables MT-CMTM to handle purely tabular data for downstream tasks, eliminating the need for potentially costly image acquisition and processing. We evaluated MT-CMTM on the DVM car dataset, which is uniquely suited for this particular scenario, and the newly developed HIPMP dataset, which connects membrane fabrication parameters with image data. Our MT-CMTM model outperforms the proposed tabular 1D-ResNet-CBAM, which is trained from scratch, achieving a relative 1.48% improvement in relative MSE on HIPMP and a 2.38% increase in absolute accuracy on DVM. These results demonstrate MT-CMTM’s robustness and its potential to advance the field of multi-modal learning.

arxiv情報

著者 Kankana Roy,Lars Krämer,Sebastian Domaschke,Malik Haris,Roland Aydin,Fabian Isensee,Martin Held
発行日 2025-01-13 13:12:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク