要約
最近の生成言語モデルと大規模言語モデル (LLM) の開発により、研究コミュニティと業界が取り組んでいるモデル評価に新たな課題が生じています。
これらのモデルの多用途な機能は興奮を呼び起こしますが、必然的に均質化への飛躍ももたらします。つまり、単一の、しばしば「汎用」と呼ばれるモデルで幅広いアプリケーションを強化します。
このポジションペーパーでは、モデル評価の実践は、この均質化によってもたらされる課題と責任に対処するための重要なタスクを引き受ける必要があると主張します。それは、下流のユースケースにおける人間のニーズが特定のモデルによって満たされるかどうか、またどの程度満たされるかについての有効な評価を提供することです。
(社会技術的ギャップ)。
社会科学、ヒューマン コンピューター インタラクション (HCI)、および説明可能な AI (XAI) の学際的分野からの教訓を活用することで、私たちはコミュニティに対し、現実世界の社会的要件に基づいた評価方法を開発し、さまざまな評価方法を採用するよう促しています。
社会的要件に対する現実主義と、評価を実施するための実際的なコストとの間のトレードオフの認識。
HCI と現在の NLG 評価方法をマッピングすることにより、LLM の評価方法が社会技術的ギャップを縮め、未解決の疑問を提起する機会を特定します。
要約(オリジナル)
The recent development of generative and large language models (LLMs) poses new challenges for model evaluation that the research community and industry are grappling with. While the versatile capabilities of these models ignite excitement, they also inevitably make a leap toward homogenization: powering a wide range of applications with a single, often referred to as “general-purpose”, model. In this position paper, we argue that model evaluation practices must take on a critical task to cope with the challenges and responsibilities brought by this homogenization: providing valid assessments for whether and how much human needs in downstream use cases can be satisfied by the given model (socio-technical gap). By drawing on lessons from the social sciences, human-computer interaction (HCI), and the interdisciplinary field of explainable AI (XAI), we urge the community to develop evaluation methods based on real-world socio-requirements and embrace diverse evaluation methods with an acknowledgment of trade-offs between realism to socio-requirements and pragmatic costs to conduct the evaluation. By mapping HCI and current NLG evaluation methods, we identify opportunities for evaluation methods for LLMs to narrow the socio-technical gap and pose open questions.
arxiv情報
著者 | Q. Vera Liao,Ziang Xiao |
発行日 | 2023-06-29 02:33:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google