Training Transitive and Commutative Multimodal Transformers with LoReTTa

要約

2 つのペアのモダリティ A と B、または B と C を含むマルチモーダル データセットを収集することは、実際には困難です。
3 つのモダリティ A、B、C が調整されたデータセットを取得することはさらに困難です。
たとえば、一部の公開医療データセットには、ある患者については遺伝子配列と顕微鏡画像のみが含まれ、別の患者については遺伝子配列と放射線画像のみが含まれていますが、同じ患者について顕微鏡画像と放射線画像の両方が含まれるデータセットはありません。
このため、すべてのモダリティを事前に訓練された大規模なニューラル ネットワークに統合して組み合わせることが困難になります。
我々は、この十分に研究されていない問題に対処するために、LoReTTa (モダリティをトランジティブかつ可換的な事前トレーニング戦略とリンクする) を導入します。
私たちの自己教師ありフレームワークは、因果マスクモデリングと可換性および推移性のルールを組み合わせて、異なるモダリティ内およびモダリティ間を遷移します。
したがって、A -> B -> C を使用して A -> C の関係をモデル化できます。素の組み合わせ (A、B) と (B、C) のみを含むデータセットが与えられた場合、トランスフォーマーが LoReTTa で事前トレーニングされていることを示します。
見たことのないペア (A、C) やトリプレット (A、B、C) を含む、推論時にあらゆるモダリティの組み合わせを処理できます。
私たちは、音声、視覚、言語を含む MNIST から派生したマルチモーダル データセットと、TCGA からの mRNA、miRNA、および RPPA サンプルを含む現実世界の医療データセットに対するアプローチを評価します。
従来の事前トレーニング方法と比較して、事前トレーニング段階で、自己回帰生成タスクの混乱が最大 100 ポイント減少し、これまで見られなかったモダリティ ペアの分類精度が最大 15% 向上したことが観察されています。

要約(オリジナル)

Collecting a multimodal dataset with two paired modalities A and B or B and C is difficult in practice. Obtaining a dataset with three aligned modalities A, B, and C is even more challenging. For example, some public medical datasets have only genetic sequences and microscopic images for one patient, and only genetic sequences and radiological images for another – but no dataset includes both microscopic and radiological images for the same patient. This makes it difficult to integrate and combine all modalities into a large pre-trained neural network. We introduce LoReTTa (Linking mOdalities with a tRansitive and commutativE pre-Training sTrAtegy) to address this understudied problem. Our self-supervised framework combines causal masked modeling with the rules of commutativity and transitivity to transition within and between different modalities. Thus, it can model the relation A -> C with A -> B -> C. Given a dataset containing only the disjoint combinations (A, B) and (B, C), we show that a transformer pre-trained with LoReTTa can handle any modality combination at inference time, including the never-seen pair (A, C) and the triplet (A, B, C). We evaluate our approach on a multimodal dataset derived from MNIST containing speech, vision, and language, as well as a real-world medical dataset containing mRNA, miRNA, and RPPA samples from TCGA. Compared to traditional pre-training methods, we observe up to a 100-point reduction in perplexity for autoregressive generation tasks and up to a 15% improvement in classification accuracy for previously unseen modality pairs during the pre-training phase.

arxiv情報

著者 Manuel Tran,Amal Lahiani,Yashin Dicente Cid,Fabian J. Theis,Tingying Peng,Eldad Klaiman
発行日 2023-05-23 16:58:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク