ERASMO: Leveraging Large Language Models for Enhanced Clustering Segmentation

要約

クラスター分析は、マーケティングにおける顧客セグメンテーションなど、様々な領域やアプリケーションにおいて重要な役割を果たしている。このような文脈では、表データとテキストデータの両方を含むマルチモーダルデータが使われることが多く、意味のあるクラスタを得るための隠れたパターンを表現することが困難である。本研究では、ERASMOを紹介する。ERASMOは、テキスト符号化された表データ上で事前学習された言語モデルを微調整し、微調整されたモデルから埋め込みを生成するように設計されたフレームワークである。ERASMOは、表形式データをテキスト形式に変換するテキストコンバータを採用し、言語モデルがデータをより効果的に処理し理解できるようにする。さらにERASMOは、ランダムな特徴列のシャッフルや数値の言語化などの技術により、文脈に富み、構造的に代表的な埋め込みを生成します。複数のデータセットとベースラインアプローチを用いて、広範な実験的評価を行った。その結果、ERASMOが各表データセット固有のコンテキストを完全に活用し、正確なクラスタリングのための、より正確でニュアンスに富んだ埋め込みを導くことが実証された。このアプローチは、多様な表データ内の複雑な関係パターンを捉えることにより、クラスタリング性能を向上させる。

要約(オリジナル)

Cluster analysis plays a crucial role in various domains and applications, such as customer segmentation in marketing. These contexts often involve multimodal data, including both tabular and textual datasets, making it challenging to represent hidden patterns for obtaining meaningful clusters. This study introduces ERASMO, a framework designed to fine-tune a pretrained language model on textually encoded tabular data and generate embeddings from the fine-tuned model. ERASMO employs a textual converter to transform tabular data into a textual format, enabling the language model to process and understand the data more effectively. Additionally, ERASMO produces contextually rich and structurally representative embeddings through techniques such as random feature sequence shuffling and number verbalization. Extensive experimental evaluations were conducted using multiple datasets and baseline approaches. Our results demonstrate that ERASMO fully leverages the specific context of each tabular dataset, leading to more precise and nuanced embeddings for accurate clustering. This approach enhances clustering performance by capturing complex relationship patterns within diverse tabular data.

arxiv情報

著者 Fillipe dos Santos Silva,Gabriel Kenzo Kakimoto,Julio Cesar dos Reis,Marcelo S. Reis
発行日 2025-02-04 15:06:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: 68T01, 68T50, cs.AI, cs.CL パーマリンク