Auxiliary Cross-Modal Representation Learning with Triplet Loss Functions for Online Handwriting Recognition

要約

クロスモーダル表現学習は、2つ以上のモダリティ間で共有される埋め込みを学習することで、1つのモダリティのみを使用する場合と比較して、与えられたタスクにおける性能を向上させる。画像や時系列データ(例えば音声やテキストデータ)のような異なるデータ型からのクロスモーダル表現学習には、モダリティ埋め込み間の距離を最小化する深いメトリック学習損失が必要である。本論文では、画像と時系列モダリティ間のクロスモダリティ表現学習(CMR-IS)のために、正負の同一性を用いて異なるラベルを持つサンプルペアを作成する、対照的損失(triplet loss)を用いることを提案する。三重項損失をクロスモーダル表現学習に適応することで、補助(画像分類)タスクの追加情報を利用することで、主タスク(時系列分類)においてより高い精度を達成することができる。本論文では、単一ラベルおよび系列間分類タスクのための動的マージンを持つトリプレット損失を提案する。我々は、合成画像と時系列データ、オフライン手書き認識(HWR)のデータ、および筆記された単語を分類するためのセンサー強化ペンからのオンラインHWRのデータについて、広範な評価を行った。我々の実験は、改善されたクロスモーダル表現により、分類精度の向上、収束の高速化、および汎化性の向上を示している。さらに、より適切な汎化可能性は、オンラインHWRのライター間のより良い適応性につながる。

要約(オリジナル)

Cross-modal representation learning learns a shared embedding between two or more modalities to improve performance in a given task compared to using only one of the modalities. Cross-modal representation learning from different data types — such as images and time-series data (e.g., audio or text data) — requires a deep metric learning loss that minimizes the distance between the modality embeddings. In this paper, we propose to use the contrastive or triplet loss, which uses positive and negative identities to create sample pairs with different labels, for cross-modal representation learning between image and time-series modalities (CMR-IS). By adapting the triplet loss for cross-modal representation learning, higher accuracy in the main (time-series classification) task can be achieved by exploiting additional information of the auxiliary (image classification) task. We present a triplet loss with a dynamic margin for single label and sequence-to-sequence classification tasks. We perform extensive evaluations on synthetic image and time-series data, and on data for offline handwriting recognition (HWR) and on online HWR from sensor-enhanced pens for classifying written words. Our experiments show an improved classification accuracy, faster convergence, and better generalizability due to an improved cross-modal representation. Furthermore, the more suitable generalizability leads to a better adaptability between writers for online HWR.

arxiv情報

著者 Felix Ott,David Rügamer,Lucas Heublein,Bernd Bischl,Christopher Mutschler
発行日 2023-08-03 11:36:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: 68T30, 68T35, cs.CV, cs.LG, I.2.4 パーマリンク