JaccDiv: A Metric and Benchmark for Quantifying Diversity of Generated Marketing Text in the Music Industry

要約

オンラインプラットフォームは、コンテンツを生成し、ユーザーを支援するために、データからテキストのテクノロジーを使用することにますます関心があります。
残念ながら、従来の生成方法はしばしば繰り返しパターンに分類され、数回の反復後に単調なテキストのギャラリーになります。
このホワイトペーパーでは、LLMベースのデータからテキストへのアプローチを調査して、十分な品質で多様なマーケティングテキストを自動的に生成し、幅広い採用に十分なほど生成します。
T5、GPT-3.5、GPT-4、LLAMA2などの言語モデルを活用して、微調整、少ないショット、およびゼロショットアプローチと組み合わせて、多様なマーケティングテキストのベースラインを設定します。
また、テキストのセットの多様性を評価するために、メトリックJACCDIVを紹介します。
この研究は、音楽業界を超えてその関連性を拡大し、繰り返し自動化されたコンテンツ生成が一般的なさまざまな分野で有益であることが証明されています。

要約(オリジナル)

Online platforms are increasingly interested in using Data-to-Text technologies to generate content and help their users. Unfortunately, traditional generative methods often fall into repetitive patterns, resulting in monotonous galleries of texts after only a few iterations. In this paper, we investigate LLM-based data-to-text approaches to automatically generate marketing texts that are of sufficient quality and diverse enough for broad adoption. We leverage Language Models such as T5, GPT-3.5, GPT-4, and LLaMa2 in conjunction with fine-tuning, few-shot, and zero-shot approaches to set a baseline for diverse marketing texts. We also introduce a metric JaccDiv to evaluate the diversity of a set of texts. This research extends its relevance beyond the music industry, proving beneficial in various fields where repetitive automated content generation is prevalent.

arxiv情報

著者 Anum Afzal,Alexandre Mercier,Florian Matthes
発行日 2025-04-29 15:19:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク