Do Not Trust Licenses You See — Dataset Compliance Requires Massive-Scale AI-Powered Lifecycle Tracing

要約

このペーパーでは、データセットの法的リスクは、ライセンス条件だけでは正確に評価できないと主張しています。
代わりに、データセットの再分配とその完全なライフサイクルの追跡が不可欠です。
ただし、このプロセスは、法律専門家が大規模に手動で処理するには複雑すぎます。
データセットの起源の追跡、再分配権の検証、および複数の段階で進化する法的リスクの評価には、人間の能力を超えるレベルの精度と効率が必要です。
この課題に対処するには、データセットの再分配を体系的に追跡し、コンプライアンスを分析し、法的リスクを特定できるAIエージェントが効果的に要求されます。
Nexusと呼ばれる自動データコンプライアンスシステムを開発し、AIがこれらのタスクを人間の専門家よりも高い精度、効率、費用対効果で実行できることを示しています。
このアプローチを使用した17,429のユニークなエンティティと8,072のライセンス条件の当社の大規模な法的分析は、再分配前の元のデータセットとその再配布されたサブセット間の法的権利の矛盾を明らかにし、データライフサイクルに認識されたコンプライアンスの必要性を強調しています。
たとえば、商業的に実行可能な個別のライセンス条件を持つ2,852のデータセットのうち、商業化には法的に許可されているのは605(21%)のみであることがわかります。
この作業は、AIデータガバナンスの新しい基準を設定し、データセットの再分配のライフサイクル全体を体系的に調べて、透明性、法的、責任あるデータセット管理を確保するフレームワークを提唱します。

要約(オリジナル)

This paper argues that a dataset’s legal risk cannot be accurately assessed by its license terms alone; instead, tracking dataset redistribution and its full lifecycle is essential. However, this process is too complex for legal experts to handle manually at scale. Tracking dataset provenance, verifying redistribution rights, and assessing evolving legal risks across multiple stages require a level of precision and efficiency that exceeds human capabilities. Addressing this challenge effectively demands AI agents that can systematically trace dataset redistribution, analyze compliance, and identify legal risks. We develop an automated data compliance system called NEXUS and show that AI can perform these tasks with higher accuracy, efficiency, and cost-effectiveness than human experts. Our massive legal analysis of 17,429 unique entities and 8,072 license terms using this approach reveals the discrepancies in legal rights between the original datasets before redistribution and their redistributed subsets, underscoring the necessity of the data lifecycle-aware compliance. For instance, we find that out of 2,852 datasets with commercially viable individual license terms, only 605 (21%) are legally permissible for commercialization. This work sets a new standard for AI data governance, advocating for a framework that systematically examines the entire lifecycle of dataset redistribution to ensure transparent, legal, and responsible dataset management.

arxiv情報

著者 Jaekyeom Kim,Sungryull Sohn,Gerrard Jeongwon Jo,Jihoon Choi,Kyunghoon Bae,Hwayoung Lee,Yongmin Park,Honglak Lee
発行日 2025-03-04 16:57:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY パーマリンク