An In-Depth Investigation of Data Collection in LLM App Ecosystems

要約

LLMアプリ(ツール)エコシステムは急速に進化して、広範なユーザーデータ収集が必要な洗練されたユースケースをサポートしています。
LLMアプリは、第三者とLLMプラットフォームによるポリシーの一貫性のない施行を示す逸話的な証拠によって開発されていることを考えると、これらのアプリとユーザーデータを共有すると、大きなプライバシーリスクがあります。
この論文では、LLMアプリエコシステムのデータプラクティスに透明性をもたらすことを目指しています。
OpenaiのGPTアプリエコシステムをケーススタディとして調べます。
GPTアクション(カスタムツール)の自然言語仕様を分析し、データ収集の実践を評価するためのLLMベースのフレームワークを提案します。
私たちの分析により、アクションは24のカテゴリと145のデータ型にわたって過剰なデータを収集し、サードパーティのアクションが平均で6.03%のデータを収集することが明らかになりました。
いくつかのアクションは、OpenAIによって明示的に禁止されているパスワードなどの機密情報を収集することにより、OpenAIのポリシーに違反していることがわかります。
最後に、LLMベースのプライバシーポリシー分析フレームワークを開発して、プライバシーポリシーの開示を使用したアクションによるデータ収集の一貫性を自動的に確認します。
私たちの測定では、収集されたデータ型のほとんどの開示が省略されており、アクションの5.8%のみがデータ収集慣行を明らかに開示していることを示しています。

要約(オリジナル)

LLM app (tool) ecosystems are rapidly evolving to support sophisticated use cases that often require extensive user data collection. Given that LLM apps are developed by third parties and anecdotal evidence indicating inconsistent enforcement of policies by LLM platforms, sharing user data with these apps presents significant privacy risks. In this paper, we aim to bring transparency in data practices of LLM app ecosystems. We examine OpenAI’s GPT app ecosystem as a case study. We propose an LLM-based framework to analyze the natural language specifications of GPT Actions (custom tools) and assess their data collection practices. Our analysis reveals that Actions collect excessive data across 24 categories and 145 data types, with third-party Actions collecting 6.03% more data on average. We find that several Actions violate OpenAI’s policies by collecting sensitive information, such as passwords, which is explicitly prohibited by OpenAI. Lastly, we develop an LLM-based privacy policy analysis framework to automatically check the consistency of data collection by Actions with disclosures in their privacy policies. Our measurements indicate that the disclosures for most of the collected data types are omitted, with only 5.8% of Actions clearly disclosing their data collection practices.

arxiv情報

著者 Yuhao Wu,Evin Jaff,Ke Yang,Ning Zhang,Umar Iqbal
発行日 2025-05-21 17:58:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR, cs.CY, cs.LG パーマリンク