A Fourth Wave of Open Data? Exploring the Spectrum of Scenarios for Open Data and Generative AI

要約

2022 年後半以降、生成 AI が世界を席巻し、ChatGPT、Gemini、Claude などのツールが広く使用されています。
生成 AI と大規模言語モデル (LLM) アプリケーションは、個人がデータと知識を見つけてアクセスする方法を変革しています。
しかし、オープンデータと生成 AI の複雑な関係、およびこの分野でイノベーションを推進するためにオープンデータが持つ膨大な可能性は、依然として未開拓の領域です。
このホワイトペーパーでは、オープン データと生成 AI の関係を解き明かし、オープン データの新しい第 4 の波の考えられる要素を探ることを目指しています: オープン データは AI に対応していますか?
オープンデータはデータ・コモンズ・アプローチに向かって進んでいますか?
生成 AI はオープン データをより会話的なものにしますか?
生成 AI はオープン データの品質と来歴を向上させるでしょうか?
この目的を達成するために、新しい Spectrum of Scenarios フレームワークを提供します。
このフレームワークは、オープン データと生成 AI が交差する可能性のあるさまざまなシナリオと、それらの特定のシナリオにオープン データを対応させるためにデータの品質と来歴の観点から何が必要かを概説します。
これらのシナリオには、関連性、適応、推論と洞察の生成、データ拡張、および無制限の探索が含まれます。
このプロセスを通じて、データ所有者が生成 AI を活用してオープン データ アクセスを改善し、オープン データからより優れた洞察を得るには、まず 5 つの主要領域を中心に進歩する必要があることがわかりました。透明性と文書化の強化、品質と完全性の維持、データの管理
相互運用性と標準、アクセシビリティと使いやすさを向上させ、倫理的考慮事項に対処します。

要約(オリジナル)

Since late 2022, generative AI has taken the world by storm, with widespread use of tools including ChatGPT, Gemini, and Claude. Generative AI and large language model (LLM) applications are transforming how individuals find and access data and knowledge. However, the intricate relationship between open data and generative AI, and the vast potential it holds for driving innovation in this field remain underexplored areas. This white paper seeks to unpack the relationship between open data and generative AI and explore possible components of a new Fourth Wave of Open Data: Is open data becoming AI ready? Is open data moving towards a data commons approach? Is generative AI making open data more conversational? Will generative AI improve open data quality and provenance? Towards this end, we provide a new Spectrum of Scenarios framework. This framework outlines a range of scenarios in which open data and generative AI could intersect and what is required from a data quality and provenance perspective to make open data ready for those specific scenarios. These scenarios include: pertaining, adaptation, inference and insight generation, data augmentation, and open-ended exploration. Through this process, we found that in order for data holders to embrace generative AI to improve open data access and develop greater insights from open data, they first must make progress around five key areas: enhance transparency and documentation, uphold quality and integrity, promote interoperability and standards, improve accessibility and useability, and address ethical considerations.

arxiv情報

著者 Hannah Chafetz,Sampriti Saxena,Stefaan G. Verhulst
発行日 2024-05-07 14:01:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク