Cross-Modality Clustering-based Self-Labeling for Multimodal Data Classification

要約

技術の進歩により、マルチモーダルなデータの取得が容易になり、認識システムに課題が生じると同時に、情報の異質な性質を利用してモデルの汎化能力を高める機会も提供されます。
見落とされがちな問題は、ラベル付けプロセスのコストです。人間の専門家に多大な時間と費用を投資する必要があるため、通常はコストが高くなります。
既存の半教師あり学習手法は、多くの場合、利用可能なモダリティの融合によって作成された特徴空間での操作に焦点を当てており、各モダリティで利用可能な補完的な情報を相互利用する可能性を無視しています。
この問題に対処するために、クロスモダリティ クラスタリングベースの自己ラベル付け (CMCSL) を提案します。
CMCSL は、事前にラベル付けされたデータの小さなセットに基づいて、深部特徴空間内の各モダリティに属するインスタンスをグループ化し、結果として得られるクラスター内に既知のラベルを伝播します。
次に、各モダリティにおけるインスタンスのクラス メンバーシップに関する情報がユークリッド距離に基づいて交換され、より正確なラベル付けが保証されます。
MM-IMDb データセットから派生した 20 のデータセットに対して行われた実験評価では、特に事前にラベル付けされたインスタンスの数が少ない場合、モダリティ間でのラベルの相互伝播により、より信頼性の高いラベル付けが可能になり、分類パフォーマンスが向上することが示されています。
それぞれのモダリティ。

要約(オリジナル)

Technological advances facilitate the ability to acquire multimodal data, posing a challenge for recognition systems while also providing an opportunity to use the heterogeneous nature of the information to increase the generalization capability of models. An often overlooked issue is the cost of the labeling process, which is typically high due to the need for a significant investment in time and money associated with human experts. Existing semi-supervised learning methods often focus on operating in the feature space created by the fusion of available modalities, neglecting the potential for cross-utilizing complementary information available in each modality. To address this problem, we propose Cross-Modality Clustering-based Self-Labeling (CMCSL). Based on a small set of pre-labeled data, CMCSL groups instances belonging to each modality in the deep feature space and then propagates known labels within the resulting clusters. Next, information about the instances’ class membership in each modality is exchanged based on the Euclidean distance to ensure more accurate labeling. Experimental evaluation conducted on 20 datasets derived from the MM-IMDb dataset indicates that cross-propagation of labels between modalities — especially when the number of pre-labeled instances is small — can allow for more reliable labeling and thus increase the classification performance in each modality.

arxiv情報

著者 Paweł Zyblewski,Leandro L. Minku
発行日 2024-08-05 15:43:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク