AI and the Problem of Knowledge Collapse

要約

人工知能は、膨大な量のデータを処理し、新たな洞察を生成し、生産性を向上させる可能性を秘めていますが、その普及は予期せぬ結果を伴う可能性があります。
私たちは、AI が特定の知識モードへのアクセスのコストを削減することで、逆説的に国民の理解を傷つける可能性がある条件を特定します。
大規模な言語モデルは膨大な量の多様なデータに基づいてトレーニングされますが、自然に分布の「中心」に向けて出力を生成します。
これは一般に便利ですが、再帰的 AI システムへの依存が広範に行われると、私たちが「知識の崩壊」と定義するプロセスが引き起こされる可能性があり、これがイノベーションや人間の理解と文化の豊かさに悪影響を与える可能性があると主張しています。
ただし、トレーニングに使用するデータを選択できない AI モデルとは異なり、人間は、価値があると判断した場合、さまざまな形の知識を戦略的に探し出す可能性があります。
これを調査するために、学習者またはイノベーターのコミュニティが従来の方法を使用するか、割引価格の AI 支援プロセスに依存するかを選択し、知識の崩壊が発生する条件を特定する単純なモデルを提供します。
デフォルト モデルでは、AI が生成したコンテンツを 20% 割引すると、割引がない場合に比べて真実から 2.3 倍遠ざかる世間の信念が生成されます。
LLM 出力の分布を測定するための経験的アプローチが理論的に提供され、さまざまなモデルおよびプロンプト スタイルにわたる出力の多様性を比較する特定の例を通じて説明されます。
最後に、結果に基づいて、そのような結果に対抗するためのさらなる研究の方向性を検討します。

要約(オリジナル)

While artificial intelligence has the potential to process vast amounts of data, generate new insights, and unlock greater productivity, its widespread adoption may entail unforeseen consequences. We identify conditions under which AI, by reducing the cost of access to certain modes of knowledge, can paradoxically harm public understanding. While large language models are trained on vast amounts of diverse data, they naturally generate output towards the ‘center’ of the distribution. This is generally useful, but widespread reliance on recursive AI systems could lead to a process we define as ‘knowledge collapse’, and argue this could harm innovation and the richness of human understanding and culture. However, unlike AI models that cannot choose what data they are trained on, humans may strategically seek out diverse forms of knowledge if they perceive them to be worthwhile. To investigate this, we provide a simple model in which a community of learners or innovators choose to use traditional methods or to rely on a discounted AI-assisted process and identify conditions under which knowledge collapse occurs. In our default model, a 20% discount on AI-generated content generates public beliefs 2.3 times further from the truth than when there is no discount. An empirical approach to measuring the distribution of LLM outputs is provided in theoretical terms and illustrated through a specific example comparing the diversity of outputs across different models and prompting styles. Finally, based on the results, we consider further research directions to counteract such outcomes.

arxiv情報

著者 Andrew J. Peterson
発行日 2024-04-22 14:18:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY, I.2.0 パーマリンク