要約
【タイトル】ペルシャ語広告データの分析のためのBERTとParsBERTの評価
【要約】
– 本論文では、インターネットが現代の取引に与える影響と、組織が自社のマーケティング努力を改善するためにこれらの取引から生成されるデータの重要性について説明する。
– 本論文は、イランの商品やサービスを売買するオンラインマーケットプレイスであるDivarのような例を使用し、Divarのウェブサイトに掲載される車の販売広告の割合を予測する競技会を紹介する。
– データセットがペルシャ語のテキストデータの豊富な情報源を提供しているため、著者は、ペルシャ語テキストの処理に特化したPythonライブラリであるHazmライブラリと、2つの最新言語モデルであるmBERTとParsBERTを使用して分析を行う。
– 本論文の主な目的は、mBERTとParsBERTのDivarデータセットでのパフォーマンスを比較することである。
– 著者は、データマイニング、ペルシャ語、そして2つの言語モデルについての背景を提供し、データセットの構成と統計的特徴を調べ、両方の方法のファインチューニングとトレーニングの設定の詳細を提供する。
– 分析の結果を提示し、ペルシャ語テキストデータに適用する場合の2つの言語モデルの強みと弱みを強調する。そして、ペルシャ語のような低リソース言語でのテキストデータの分析に対する言語モデルやデータマイニング技術のチャレンジと機会、BERTのように高度な言語モデルの可能性について価値ある洞察を提供する。
– 最後に、論文はデータクリーニングや正規化技術などのステップを含むデータマイニングプロセス、監督学習、非監督学習、強化学習などの機械学習問題タイプ、そして混同行列などのパターン評価技術についても説明する。
– 全体的に、この論文は、Divarデータセットを例に、低リソース言語でのテキストデータの分析における言語モデルやデータマイニング技術の使用についての情報提供を行っている。
要約(オリジナル)
This paper discusses the impact of the Internet on modern trading and the importance of data generated from these transactions for organizations to improve their marketing efforts. The paper uses the example of Divar, an online marketplace for buying and selling products and services in Iran, and presents a competition to predict the percentage of a car sales ad that would be published on the Divar website. Since the dataset provides a rich source of Persian text data, the authors use the Hazm library, a Python library designed for processing Persian text, and two state-of-the-art language models, mBERT and ParsBERT, to analyze it. The paper’s primary objective is to compare the performance of mBERT and ParsBERT on the Divar dataset. The authors provide some background on data mining, Persian language, and the two language models, examine the dataset’s composition and statistical features, and provide details on their fine-tuning and training configurations for both approaches. They present the results of their analysis and highlight the strengths and weaknesses of the two language models when applied to Persian text data. The paper offers valuable insights into the challenges and opportunities of working with low-resource languages such as Persian and the potential of advanced language models like BERT for analyzing such data. The paper also explains the data mining process, including steps such as data cleaning and normalization techniques. Finally, the paper discusses the types of machine learning problems, such as supervised, unsupervised, and reinforcement learning, and the pattern evaluation techniques, such as confusion matrix. Overall, the paper provides an informative overview of the use of language models and data mining techniques for analyzing text data in low-resource languages, using the example of the Divar dataset.
arxiv情報
| 著者 | Ali Mehrban,Pegah Ahadian |
| 発行日 | 2023-05-03 20:50:05+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI