ProgressGym: Alignment with a Millennium of Moral Progress

要約

大規模言語モデル (LLM) を含むフロンティア AI システムは、人間のユーザーの認識論に対してますます影響力を持っています。
このような影響力は、一般的な社会的価値観を強化し、誤った道徳的信念の固定化に寄与する可能性があり、その結果、広範な規模で問題のある道徳的実践が永続することになります。
この差し迫ったリスクを軽減するための技術的ソリューションとして、進捗調整を導入します。
進歩調整アルゴリズムは、人間の道徳的進歩の仕組みをエミュレートすることを学習し、それによって現代の道徳的盲点に対する既存の調整方法の脆弱性に対処します。
進行状況の調整における研究を強化するために、現実世界の道徳的決定における将来の進歩を促進するために、歴史から道徳的進歩の仕組みを学習できる実験的フレームワークである ProgressGym を導入します。
ProgressGym は、9 世紀にわたる歴史的文書と 18 の歴史的 LLM を活用して、現実世界の進捗調整の課題を具体的なベンチマークに体系化することを可能にします。
具体的には、進化する価値観の追跡 (PG-Follow)、道徳的進歩の先制予測 (PG-Predict)、人間と AI の価値観の変化の間のフィードバック ループの調整 (PG-Coevolve) という 3 つの主要な課題を導入します。
時間的次元を持たない位置合わせ方法は、これらのタスクには適用できません。
これに応えて、私たちは進捗状況を調整するためのベースライン方法として生涯にわたる外挿アルゴリズムを提示し、新しいアルゴリズムと課題を募集するオープンなリーダーボードを構築します。
フレームワークとリーダーボードは、それぞれ https://github.com/PKU-Alignment/ProgressGym と https://huggingface.co/spaces/PKU-Alignment/ProgressGym-LeaderBoard から入手できます。

要約(オリジナル)

Frontier AI systems, including large language models (LLMs), hold increasing influence over the epistemology of human users. Such influence can reinforce prevailing societal values, potentially contributing to the lock-in of misguided moral beliefs and, consequently, the perpetuation of problematic moral practices on a broad scale. We introduce progress alignment as a technical solution to mitigate this imminent risk. Progress alignment algorithms learn to emulate the mechanics of human moral progress, thereby addressing the susceptibility of existing alignment methods to contemporary moral blindspots. To empower research in progress alignment, we introduce ProgressGym, an experimental framework allowing the learning of moral progress mechanics from history, in order to facilitate future progress in real-world moral decisions. Leveraging 9 centuries of historical text and 18 historical LLMs, ProgressGym enables codification of real-world progress alignment challenges into concrete benchmarks. Specifically, we introduce three core challenges: tracking evolving values (PG-Follow), preemptively anticipating moral progress (PG-Predict), and regulating the feedback loop between human and AI value shifts (PG-Coevolve). Alignment methods without a temporal dimension are inapplicable to these tasks. In response, we present lifelong and extrapolative algorithms as baseline methods of progress alignment, and build an open leaderboard soliciting novel algorithms and challenges. The framework and the leaderboard are available at https://github.com/PKU-Alignment/ProgressGym and https://huggingface.co/spaces/PKU-Alignment/ProgressGym-LeaderBoard respectively.

arxiv情報

著者 Tianyi Qiu,Yang Zhang,Xuchuan Huang,Jasmine Xinze Li,Jiaming Ji,Yaodong Yang
発行日 2024-06-28 17:55:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY, cs.HC, cs.LG パーマリンク