Multimodal Pathway: Improve Transformers with Irrelevant Data from Other Modalities

要約

他のモダリティからの無関係なデータを使用して特定のモダリティのトランスフォーマーを改善することを提案します。たとえば、音声または点群データセットを使用して ImageNet モデルを改善します。
ターゲットモダリティのデータサンプルは他のモダリティとは無関係であることを強調したいと思います。これにより、異なるモダリティのペア(CLIPなど)またはインターリーブされたデータを利用する他の研究とは私たちの方法が区別されます。
私たちは、マルチモーダル パスウェイと呼ばれる方法論を提案します。ターゲット モダリティとそのために設計されたトランスフォーマーが与えられた場合、別のモダリティのデータでトレーニングされた補助トランスフォーマーを使用し、ターゲット モダリティのデータを処理できるように 2 つのモデルのコンポーネントを接続するパスウェイを構築します。
両方のモデルで。
このようにして、2 つのモダリティから得られるトランスフォーマーの普遍的なシーケンス間モデリング能力を利用します。
具体的な実装としては、通常どおりモダリティ固有のトークナイザーとタスク固有のヘッドを使用しますが、クロスモーダル再パラメーター化と呼ばれる提案された方法を介して補助モデルの変換ブロックを利用します。これは、推論コストなしで補助の重みを活用します。
画像、点群、ビデオ、および音声の認識タスクでは、他のモダリティからの無関係なデータを使用して、大幅かつ一貫したパフォーマンスの向上が観察されています。
コードとモデルは https://github.com/AILab-CVC/M2PT で入手できます。

要約(オリジナル)

We propose to improve transformers of a specific modality with irrelevant data from other modalities, e.g., improve an ImageNet model with audio or point cloud datasets. We would like to highlight that the data samples of the target modality are irrelevant to the other modalities, which distinguishes our method from other works utilizing paired (e.g., CLIP) or interleaved data of different modalities. We propose a methodology named Multimodal Pathway – given a target modality and a transformer designed for it, we use an auxiliary transformer trained with data of another modality and construct pathways to connect components of the two models so that data of the target modality can be processed by both models. In this way, we utilize the universal sequence-to-sequence modeling abilities of transformers obtained from two modalities. As a concrete implementation, we use a modality-specific tokenizer and task-specific head as usual but utilize the transformer blocks of the auxiliary model via a proposed method named Cross-Modal Re-parameterization, which exploits the auxiliary weights without any inference costs. On the image, point cloud, video, and audio recognition tasks, we observe significant and consistent performance improvements with irrelevant data from other modalities. The code and models are available at https://github.com/AILab-CVC/M2PT.

arxiv情報

著者 Yiyuan Zhang,Xiaohan Ding,Kaixiong Gong,Yixiao Ge,Ying Shan,Xiangyu Yue
発行日 2024-01-25 18:59:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク