Utilizing Large Language Models to Synthesize Product Desirability Datasets

要約

この研究では、ユーザー感情と製品エクスペリエンスを評価する際の重要なコンポーネントである製品満足度ツールキット (PDT) テスト用の合成データセットを生成するための大規模言語モデル (LLM) のアプリケーションを調査します。
大規模な商用 LLM に代わる費用対効果の高い代替手段である gpt-4o-mini を利用し、Word+Review、Review+Word、Supply-Word の 3 つの方法をそれぞれ使用して 1,000 件の製品レビューを統合しました。
生成されたデータセットは、感情の一致、テキストの多様性、データ生成コストについて評価されました。
結果は、ピアソン相関が 0.93 ~ 0.97 の範囲であり、すべての手法にわたって感情の一致が高いことを示しました。
Supply-Word は、生成コストが増加しましたが、PDT 用語の多様性と網羅性が最も高かったです。
ポジティブな感情へのわずかなバイアスにもかかわらず、テストデータが限られている状況では、LLM で生成された合成データには、スケーラビリティ、コスト削減、データセット作成の柔軟性などの大きな利点があります。

要約(オリジナル)

This research explores the application of large language models (LLMs) to generate synthetic datasets for Product Desirability Toolkit (PDT) testing, a key component in evaluating user sentiment and product experience. Utilizing gpt-4o-mini, a cost-effective alternative to larger commercial LLMs, three methods, Word+Review, Review+Word, and Supply-Word, were each used to synthesize 1000 product reviews. The generated datasets were assessed for sentiment alignment, textual diversity, and data generation cost. Results demonstrated high sentiment alignment across all methods, with Pearson correlations ranging from 0.93 to 0.97. Supply-Word exhibited the highest diversity and coverage of PDT terms, although with increased generation costs. Despite minor biases toward positive sentiments, in situations with limited test data, LLM-generated synthetic data offers significant advantages, including scalability, cost savings, and flexibility in dataset production.

arxiv情報

著者 John D. Hastings,Sherri Weitl-Harms,Joseph Doty,Zachary L. Myers,Warren Thompson
発行日 2024-11-20 17:35:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, H.3.3 パーマリンク