要約
このペーパーでは、デジタル形式で入手可能な米国大統領キャンペーンテレビ広告の最大かつ最も包括的なデータセットを紹介します。
データセットには、さまざまな学術研究を促進するために設計された機械検索可能なトランスクリプトと高品質の要約も含まれています。
現在までに、米国の大統領選挙キャンペーン広告の収集と分析には大きな関心がありましたが、手動調達と注釈の必要性により多くの人が小さなサブセットに依存するようになりました。
ビデオの準備、転写、および要約の面倒なプロセスを自動化する大規模な並列化されたAIベースの分析パイプラインを設計します。
次に、この方法論を、ジュリアンP.カンターの政治的商業アーカイブの9,707の大統領広告に適用します。
これらの転写と要約は、手動で生成された代替品の品質と一致することを示すために、広範な人間の評価を実施します。
70年にわたる大統領選挙にわたる現在の焦点問題領域の起源と進化を追跡するアプリケーションを含めることにより、このデータの価値を説明します。
分析パイプラインとコードベースは、LLMベースのツールを使用して他のビデオデータセットの高品質の要約を取得する方法も示しています。
要約(オリジナル)
This paper introduces the largest and most comprehensive dataset of US presidential campaign television advertisements, available in digital format. The dataset also includes machine-searchable transcripts and high-quality summaries designed to facilitate a variety of academic research. To date, there has been great interest in collecting and analyzing US presidential campaign advertisements, but the need for manual procurement and annotation led many to rely on smaller subsets. We design a large-scale parallelized, AI-based analysis pipeline that automates the laborious process of preparing, transcribing, and summarizing videos. We then apply this methodology to the 9,707 presidential ads from the Julian P. Kanter Political Commercial Archive. We conduct extensive human evaluations to show that these transcripts and summaries match the quality of manually generated alternatives. We illustrate the value of this data by including an application that tracks the genesis and evolution of current focal issue areas over seven decades of presidential elections. Our analysis pipeline and codebase also show how to use LLM-based tools to obtain high-quality summaries for other video datasets.
arxiv情報
著者 | Adam Breuer,Bryce J. Dietrich,Michael H. Crespin,Matthew Butler,J. A. Pyrse,Kosuke Imai |
発行日 | 2025-03-28 16:36:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google