Assessing Language Model Deployment with Risk Cards

要約

タイトル:RiskCardsを用いた言語モデルの展開の評価

要約:
– 本論文では、言語モデルの適用に関連するリスクの構造化された評価と文書化のためのフレームワークであるRiskCardsを紹介する。
– 言語モデルが生成するテキストは、すべての言語と同様に有害であり、また有害に利用されることがある。自動生成の言語モデルには、スケールの要素が加わり、生成されたテキストにはより微妙な、あるいは新たな有害性が生じる可能性がある。
– これまでの研究では、さまざまなアクターによる言語モデルの損害の広範な分類や、これらの損害を自動化テストするための基準、モデル、タスク、データセットの文書化基準が確立されてきたが、リスクの複雑さを文書化するためのリスク中心のフレームワークは存在しなかった。
– RiskCardsは、あるシナリオにおける特定の言語モデルの使用を評価するための汎用的なフレームワークを提供し、リスクがどのように有害になるか、損害分類での位置、例のプロンプト出力ペアが明確に示される。
– RiskCardsはオープンソースであり、動的かつ参加型であるが、「スターターセット」として、広範な文献調査から得られた具体的なリスクに関するRiskCardsを提示している。言語モデルのRiskCardsは、リスクと損害を特定のモデルまたはその適用シナリオにマッピングすることを可能とし、最終的にリスクのランドスケープに対するより良い、より安全で共有された理解に貢献する。

要約(オリジナル)

This paper introduces RiskCards, a framework for structured assessment and documentation of risks associated with an application of language models. As with all language, text generated by language models can be harmful, or used to bring about harm. Automating language generation adds both an element of scale and also more subtle or emergent undesirable tendencies to the generated text. Prior work establishes a wide variety of language model harms to many different actors: existing taxonomies identify categories of harms posed by language models; benchmarks establish automated tests of these harms; and documentation standards for models, tasks and datasets encourage transparent reporting. However, there is no risk-centric framework for documenting the complexity of a landscape in which some risks are shared across models and contexts, while others are specific, and where certain conditions may be required for risks to manifest as harms. RiskCards address this methodological gap by providing a generic framework for assessing the use of a given language model in a given scenario. Each RiskCard makes clear the routes for the risk to manifest harm, their placement in harm taxonomies, and example prompt-output pairs. While RiskCards are designed to be open-source, dynamic and participatory, we present a ‘starter set’ of RiskCards taken from a broad literature survey, each of which details a concrete risk presentation. Language model RiskCards initiate a community knowledge base which permits the mapping of risks and harms to a specific model or its application scenario, ultimately contributing to a better, safer and shared understanding of the risk landscape.

arxiv情報

著者 Leon Derczynski,Hannah Rose Kirk,Vidhisha Balachandran,Sachin Kumar,Yulia Tsvetkov,M. R. Leiser,Saif Mohammad
発行日 2023-03-31 16:45:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク