要約
LLMは、人間が消費するコンテンツを生成するワークフロー(マーケティングなど)や、人間と直接対話するワークフロー(チャットボットなど)で使用されるようになってきている。検証可能な説得力のあるメッセージを生成できるこのようなシステムの開発は、社会にとってチャンスであると同時に課題でもある。一方では、このようなシステムは、広告や薬物中毒への対処のような社会的善のような領域にプラスの影響を与える可能性があり、他方では、誤った情報の拡散や政治的意見の形成に悪用される可能性がある。LLMが社会に与える影響を調整するために、我々はLLMの説得力を測定し、ベンチマークするシステムを開発する必要がある。このような動機から、我々は、生成モデルの説得力を自動的に測定するためのタスク群を含む、初の大規模ベンチマークとアリーナであるPersuasionBenchとPersuasionArenaを紹介する。我々は、LLMがより説得力のある言語を生成するのに役立つ言語パターンをどの程度知っており、活用しているかを調査する。その結果、LLMの説得力はモデルの大きさと正の相関があるが、より小さなモデルでも、より大きなモデルよりも高い説得力を持たせることができることがわかった。注目すべきは、合成データセットと自然データセットを用いた的を絞った訓練が、小規模モデルの説得力を著しく向上させ、規模依存の仮定に挑戦することである。我々の発見は、モデル開発者と政策立案者の双方に重要な示唆を与える。例えば、EUのAI法やカリフォルニア州のSB-1047は、浮動小数点演算の数に基づいてAIモデルを規制することを目指しているが、我々は、このような単純な指標だけではAIの社会的影響の全容を捉えることができないことを実証している。我々は、AIによる説得とその社会的意味合いについての理解を深めるために、https://bit.ly/measure-persuasion で利用可能な PersuasionArena と PersuasionBench を探求し、貢献することをコミュニティに呼びかける。
要約(オリジナル)
LLMs are increasingly being used in workflows involving generating content to be consumed by humans (e.g., marketing) and also in directly interacting with humans (e.g., through chatbots). The development of such systems that are capable of generating verifiably persuasive messages presents both opportunities and challenges for society. On the one hand, such systems could positively impact domains like advertising and social good, such as addressing drug addiction, and on the other, they could be misused for spreading misinformation and shaping political opinions. To channel LLMs’ impact on society, we need to develop systems to measure and benchmark their persuasiveness. With this motivation, we introduce PersuasionBench and PersuasionArena, the first large-scale benchmark and arena containing a battery of tasks to measure the persuasion ability of generative models automatically. We investigate to what extent LLMs know and leverage linguistic patterns that can help them generate more persuasive language. Our findings indicate that the persuasiveness of LLMs correlates positively with model size, but smaller models can also be made to have a higher persuasiveness than much larger models. Notably, targeted training using synthetic and natural datasets significantly enhances smaller models’ persuasive capabilities, challenging scale-dependent assumptions. Our findings carry key implications for both model developers and policymakers. For instance, while the EU AI Act and California’s SB-1047 aim to regulate AI models based on the number of floating point operations, we demonstrate that simple metrics like this alone fail to capture the full scope of AI’s societal impact. We invite the community to explore and contribute to PersuasionArena and PersuasionBench, available at https://bit.ly/measure-persuasion, to advance our understanding of AI-driven persuasion and its societal implications.
arxiv情報
著者 | Somesh Singh,Yaman K Singla,Harini SI,Balaji Krishnamurthy |
発行日 | 2024-10-03 16:36:35+00:00 |
arxivサイト | arxiv_id(pdf) |