要約
このホワイトペーパーでは、複雑な社会的文脈において動的に進化する態度と価値観を通じて、拡張言語モデル (ALM) の創発的調整行動を分析するためのプラットフォームである SurveyLM に関する当社の取り組みを紹介します。
ALM などの社会人工知能 (AI) システムは、単一の正しい応答が存在しない場合や、応答が状況要因に大きく依存する場合など、微妙な社会シナリオ内で機能することが多いため、その調整ダイナミクスを深く理解する必要があります。
これに対処するために、私たちは社会的行動の研究に伝統的に使用されてきた調査と実験の方法論を適用して、ALM を体系的に評価し、その結果、ALM の整合性と新たな行動について前例のない洞察を提供します。
さらに、SurveyLM プラットフォームは、ALM 自身のフィードバックを活用して調査と実験の設計を強化し、ALM の十分に活用されていない側面を活用し、リソースを節約しながら高品質の調査フレームワークの開発とテストを加速します。
SurveyLM を通じて、ALM の新たな行動に影響を与える要因を明らかにし、人間の意図や期待との整合を促進し、それによって高度なソーシャル AI システムの責任ある開発と展開に貢献することを目指しています。
このホワイトペーパーでは、このプラットフォームが確実な結果をもたらす可能性を強調し、アライメント研究に対するプラットフォームの重要性と将来のソーシャル AI システムへの影響を強調しています。
要約(オリジナル)
This white paper presents our work on SurveyLM, a platform for analyzing augmented language models’ (ALMs) emergent alignment behaviors through their dynamically evolving attitude and value perspectives in complex social contexts. Social Artificial Intelligence (AI) systems, like ALMs, often function within nuanced social scenarios where there is no singular correct response, or where an answer is heavily dependent on contextual factors, thus necessitating an in-depth understanding of their alignment dynamics. To address this, we apply survey and experimental methodologies, traditionally used in studying social behaviors, to evaluate ALMs systematically, thus providing unprecedented insights into their alignment and emergent behaviors. Moreover, the SurveyLM platform leverages the ALMs’ own feedback to enhance survey and experiment designs, exploiting an underutilized aspect of ALMs, which accelerates the development and testing of high-quality survey frameworks while conserving resources. Through SurveyLM, we aim to shed light on factors influencing ALMs’ emergent behaviors, facilitate their alignment with human intentions and expectations, and thereby contributed to the responsible development and deployment of advanced social AI systems. This white paper underscores the platform’s potential to deliver robust results, highlighting its significance to alignment research and its implications for future social AI systems.
arxiv情報
著者 | Steve J. Bickley,Ho Fai Chan,Bang Dao,Benno Torgler,Son Tran |
発行日 | 2023-08-01 12:59:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google