A Scalable Unsupervised Framework for multi-aspect labeling of Multilingual and Multi-Domain Review Data

要約

オンラインレビューデータを効果的に分析することは、業界全体で不可欠です。
ただし、多くの既存の研究は、特定のドメインと言語に限定されているか、大規模なラベル付きデータセットを必要とする監視された学習アプローチに依存しています。
これらの制限に対処するために、クロスドメインのアスペクト検出のための多言語、スケーラブル、および監視なしのフレームワークを提案します。
このフレームワークは、多言語およびマルチドメインレビューデータのマルチアスペクトラベル付けのために設計されています。
この研究では、さまざまなドメインにまたがる韓国および英語のレビューデータセットに自動ラベル付けを適用し、広範な実験を通じて生成されたラベルの品質を評価します。
アスペクトカテゴリ候補は、最初にクラスタリングを通じて抽出され、各レビューはネガティブサンプリングを使用してアスペクト認識埋め込みベクターとして表されます。
フレームワークを評価するために、マルチアスペクトのラベル付けを実施し、いくつかの前提条件の言語モデルを微調整して、自動生成されたラベルの有効性を測定します。
結果は、これらのモデルが高性能を達成し、ラベルがトレーニングに適していることを示していることを示しています。
さらに、公開されている大規模な言語モデルとの比較は、大規模なデータを処理する際のフレームワークの優れた一貫性とスケーラビリティを強調しています。
人間の評価は、自動ラベルの品質が手動で作成されたラベルに匹敵することも確認しています。
この研究は、監視された方法の制限を克服し、多言語の多干渉環境に適応できる堅牢なマルチアスペクトラベル付けアプローチの可能性を示しています。
将来の研究では、自動レビューの要約と人工知能エージェントの統合を調査して、レビュー分析の効率と深さをさらに改善します。

要約(オリジナル)

Effectively analyzing online review data is essential across industries. However, many existing studies are limited to specific domains and languages or depend on supervised learning approaches that require large-scale labeled datasets. To address these limitations, we propose a multilingual, scalable, and unsupervised framework for cross-domain aspect detection. This framework is designed for multi-aspect labeling of multilingual and multi-domain review data. In this study, we apply automatic labeling to Korean and English review datasets spanning various domains and assess the quality of the generated labels through extensive experiments. Aspect category candidates are first extracted through clustering, and each review is then represented as an aspect-aware embedding vector using negative sampling. To evaluate the framework, we conduct multi-aspect labeling and fine-tune several pretrained language models to measure the effectiveness of the automatically generated labels. Results show that these models achieve high performance, demonstrating that the labels are suitable for training. Furthermore, comparisons with publicly available large language models highlight the framework’s superior consistency and scalability when processing large-scale data. A human evaluation also confirms that the quality of the automatic labels is comparable to those created manually. This study demonstrates the potential of a robust multi-aspect labeling approach that overcomes limitations of supervised methods and is adaptable to multilingual, multi-domain environments. Future research will explore automatic review summarization and the integration of artificial intelligence agents to further improve the efficiency and depth of review analysis.

arxiv情報

著者 Jiin Park,Misuk Kim
発行日 2025-05-14 11:11:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク