Machine Psychology: Investigating Emergent Capabilities and Behavior in Large Language Models Using Psychological Methods

要約

大規模言語モデル (LLM) は現在、AI システムと人間のコミュニケーションおよび日常生活との絡み合いの最前線にあります。
急速な技術の進歩とその極端な汎用性により、LLM は現在何百万人ものユーザーを抱えており、情報検索、コンテンツ生成、問題解決などの主要な頼りになるテクノロジーになりつつあります。したがって、LLM は非常に重要です。
彼らの能力を徹底的に評価し、精査します。
現在の LLM ではますます複雑で斬新な行動パターンが生じているため、もともと人間をテストするために設計された心理学実験の参加者として LLM を扱うことでこれを行うことができます。
この目的のために、この論文は「機械心理学」と呼ばれる新しい研究分野を紹介しています。
この論文では、心理学のさまざまなサブフィールドがどのように LLM の行動テストに情報を提供できるかについて概説しています。
特に迅速な設計のためのポリシーに焦点を当てることにより、機械心理学研究の方法論的基準を定義します。
さらに、LLM で発見された行動パターンがどのように解釈されるかについても説明します。
要するに、機械心理学は、ほとんどの従来の自然言語処理ベンチマークでは検出できない LLM の創発的能力を発見することを目的としています。

要約(オリジナル)

Large language models (LLMs) are currently at the forefront of intertwining AI systems with human communication and everyday life. Due to rapid technological advances and their extreme versatility, LLMs nowadays have millions of users and are at the cusp of being the main go-to technology for information retrieval, content generation, problem-solving, etc. Therefore, it is of great importance to thoroughly assess and scrutinize their capabilities. Due to increasingly complex and novel behavioral patterns in current LLMs, this can be done by treating them as participants in psychology experiments that were originally designed to test humans. For this purpose, the paper introduces a new field of research called ‘machine psychology’. The paper outlines how different subfields of psychology can inform behavioral tests for LLMs. It defines methodological standards for machine psychology research, especially by focusing on policies for prompt designs. Additionally, it describes how behavioral patterns discovered in LLMs are to be interpreted. In sum, machine psychology aims to discover emergent abilities in LLMs that cannot be detected by most traditional natural language processing benchmarks.

arxiv情報

著者 Thilo Hagendorff
発行日 2023-03-24 13:24:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク