BanglishRev: A Large-Scale Bangla-English and Code-mixed Dataset of Product Reviews in E-Commerce

要約

この研究では、BanglishRev データセットを紹介します。これは、英語のベンガル語と英語のアルファベットで書かれたベンガル語の単語の両方を組み合わせた、英語のベンガル語で書かれたレビューに関するこれまでで最大の e コマース製品レビュー データセットです。
このデータセットは、ベンガル人を対象としたオンライン電子商取引プラットフォームで販売されている合計 128,000 個の製品から収集された 320 万件の評価情報に基づく 174 万件の書面レビューで構成されています。
これには、レビュアーによって与えられた評価、レビューの投稿日と購入日、いいね数、嫌い数、販売者からの反応、レビューに関連付けられた画像などを含む、各レビューの広範な関連メタデータが含まれています。
センチメント分析はレビュー データセットの最も顕著な使用方法であり、ポジティブまたはネガティブなセンチメントの指標として機能するレビュー評価を使用したバイナリセンチメント分析モデルの実験が、BanglishRev で提示された大量のデータのセンチメント分析タスクに対する有効性を評価するために実施されました。

BanglishBERT モデルは、BanglishRev のデータに基づいてトレーニングされ、レビューは評価が 3 より大きい場合はポジティブ、評価が 3 以下の場合はネガティブとラベル付けされます。モデルは、以前に公開された手動で注釈が付けられたデータセットに対してテストすることによって評価されます。
バングラ語、英語、バングル語が混在して書かれた電子商取引レビューの場合。
実験モデルは 94\% という優れた精度と 0.94 の F1 スコアを達成し、センチメント分析におけるデータセットの有効性を実証しました。
データセット内で見られる興味深いパターンと観察のいくつか、およびデータセットを利用できる将来の研究の方向性についても議論し、検討します。
データセットには、https://huggingface.co/datasets/BanglishRev/bangla-english-and-code-mixed-ecommerce-review-dataset からアクセスできます。

要約(オリジナル)

This work presents the BanglishRev Dataset, the largest e-commerce product review dataset to date for reviews written in Bengali, English, a mixture of both and Banglish, Bengali words written with English alphabets. The dataset comprises of 1.74 million written reviews from 3.2 million ratings information collected from a total of 128k products being sold in online e-commerce platforms targeting the Bengali population. It includes an extensive array of related metadata for each of the reviews including the rating given by the reviewer, date the review was posted and date of purchase, number of likes, dislikes, response from the seller, images associated with the review etc. With sentiment analysis being the most prominent usage of review datasets, experimentation with a binary sentiment analysis model with the review rating serving as an indicator of positive or negative sentiment was conducted to evaluate the effectiveness of the large amount of data presented in BanglishRev for sentiment analysis tasks. A BanglishBERT model is trained on the data from BanglishRev with reviews being considered labeled positive if the rating is greater than 3 and negative if the rating is less than or equal to 3. The model is evaluated by being testing against a previously published manually annotated dataset for e-commerce reviews written in a mixture of Bangla, English and Banglish. The experimental model achieved an exceptional accuracy of 94\% and F1 score of 0.94, demonstrating the dataset’s efficacy for sentiment analysis. Some of the intriguing patterns and observations seen within the dataset and future research directions where the dataset can be utilized is also discussed and explored. The dataset can be accessed through https://huggingface.co/datasets/BanglishRev/bangla-english-and-code-mixed-ecommerce-review-dataset.

arxiv情報

著者 Mohammad Nazmush Shamael,Sabila Nawshin,Swakkhar Shatabda,Salekul Islam
発行日 2024-12-18 05:51:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG パーマリンク