要約
クロスモーダル表現学習では、2 つ以上のモダリティ間の共有埋め込みを学習して、モダリティの 1 つだけを使用する場合と比較して、特定のタスクのパフォーマンスを向上させます。
画像や時系列データ (音声やテキスト データなど) など、さまざまなデータ タイプからのクロスモーダル表現学習には、モダリティ埋め込み間の距離を最小化する深いメトリック学習損失が必要です。
この論文では、画像と時系列モダリティ間のクロスモーダル表現学習 (CMR-IS) のために、正と負のアイデンティティを使用して異なるラベルを持つサンプルペアを作成するトリプレット損失の使用を提案します。
クロスモーダル表現学習にトリプレット損失を適応させることにより、補助 (画像分類) タスクの追加情報を活用することで、メイン (時系列分類) タスクの精度を高めることができます。
センサー強化ペンからの合成データと手書き認識データに関する私たちの実験では、分類精度の向上、収束の高速化、および一般化の向上が示されました。
要約(オリジナル)
Cross-modal representation learning learns a shared embedding between two or more modalities to improve performance in a given task compared to using only one of the modalities. Cross-modal representation learning from different data types — such as images and time-series data (e.g., audio or text data) — requires a deep metric learning loss that minimizes the distance between the modality embeddings. In this paper, we propose to use the triplet loss, which uses positive and negative identities to create sample pairs with different labels, for cross-modal representation learning between image and time-series modalities (CMR-IS). By adapting the triplet loss for cross-modal representation learning, higher accuracy in the main (time-series classification) task can be achieved by exploiting additional information of the auxiliary (image classification) task. Our experiments on synthetic data and handwriting recognition data from sensor-enhanced pens show improved classification accuracy, faster convergence, and better generalizability.
arxiv情報
著者 | Felix Ott,David Rügamer,Lucas Heublein,Bernd Bischl,Christopher Mutschler |
発行日 | 2023-01-18 08:00:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google