CAMERA: A Multimodal Dataset and Benchmark for Ad Text Generation

要約

手動によるオンライン広告制作の限界に対応して、自動広告テキスト生成 (ATG) の分野で重要な研究が行われてきました。
しかし、分野全体を網羅するベンチマークが不足しており、明確なモデルの入力と出力を備えた明確に定義された問題セットが存在しないため、さまざまな手法を比較することは困難でした。
これらの課題に対処するために、このホワイト ペーパーは、再設計されたタスクを導入し、ベンチマークを構築することによって、ATG の分野を前進させることを目的としています。
具体的には、ATG をインターネット広告のさまざまな側面を含むアプリケーション間のタスクとして定義しました。
私たちの貢献の一環として、最初のベンチマーク データセットである CA Multimodal Evaluation for Ad Text GeneRAtion (CAMERA) を提案します。このデータセットは、ATG がマルチモーダル情報を活用して業界全体の評価を実施できるように慎重に設計されています。
さらに、使用される事前学習済み言語モデルの種類とマルチモーダル情報の組み込みに関して異なる複数のベースライン モデルを使用した評価実験を通じて、提案したベンチマークの有用性を実証します。
課題の現状と今後の課題についてもお話します。

要約(オリジナル)

In response to the limitations of manual online ad production, significant research has been conducted in the field of automatic ad text generation (ATG). However, comparing different methods has been challenging because of the lack of benchmarks encompassing the entire field and the absence of well-defined problem sets with clear model inputs and outputs. To address these challenges, this paper aims to advance the field of ATG by introducing a redesigned task and constructing a benchmark. Specifically, we defined ATG as a cross-application task encompassing various aspects of the Internet advertising. As part of our contribution, we propose a first benchmark dataset, CA Multimodal Evaluation for Ad Text GeneRAtion (CAMERA), carefully designed for ATG to be able to leverage multi-modal information and conduct an industry-wise evaluation. Furthermore, we demonstrate the usefulness of our proposed benchmark through evaluation experiments using multiple baseline models, which vary in terms of the type of pre-trained language model used and the incorporation of multi-modal information. We also discuss the current state of the task and the future challenges.

arxiv情報

著者 Masato Mita,Soichiro Murakami,Akihiko Kato,Peinan Zhang
発行日 2023-09-21 12:51:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク