要約
機械学習/AI におけるモデルとデータの急増の時代、特にオープンソース テクノロジの急速な進歩によって特徴づけられる時代では、標準化された一貫したドキュメントの重要なニーズが生じています。
私たちの取り組みは、現在の人間が生成したモデルとデータカードの情報の不完全性に対処しています。
私たちは、Large Language Model (LLM) を使用した自動生成アプローチを提案します。
私たちの主な貢献には、4.8,000 を超えるモデル カードと 1.4,000 のデータ カードから集約された包括的なデータセットである CardBench の確立と、2 段階の検索プロセスで構成される CardGen パイプラインの開発が含まれます。
私たちのアプローチは、生成されたモデルとデータ カードの完全性、客観性、忠実性の強化を示しており、責任ある AI 文書化実践における重要な一歩であり、より優れた説明責任とトレーサビリティを保証します。
要約(オリジナル)
In an era of model and data proliferation in machine learning/AI especially marked by the rapid advancement of open-sourced technologies, there arises a critical need for standardized consistent documentation. Our work addresses the information incompleteness in current human-generated model and data cards. We propose an automated generation approach using Large Language Models (LLMs). Our key contributions include the establishment of CardBench, a comprehensive dataset aggregated from over 4.8k model cards and 1.4k data cards, coupled with the development of the CardGen pipeline comprising a two-step retrieval process. Our approach exhibits enhanced completeness, objectivity, and faithfulness in generated model and data cards, a significant step in responsible AI documentation practices ensuring better accountability and traceability.
arxiv情報
著者 | Jiarui Liu,Wenkai Li,Zhijing Jin,Mona Diab |
発行日 | 2024-05-10 06:14:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google