Data Exposure from LLM Apps: An In-depth Investigation of OpenAI’s GPTs

要約

LLM アプリのエコシステムは急速に成熟しており、過剰なユーザー データを収集する必要がある幅広いユースケースをサポートしています。
LLM アプリがサードパーティによって開発されており、LLM プラットフォームが現在そのポリシーを厳密に施行していないことを示す事例証拠があることを考えると、任意のサードパーティと共有されるユーザー データは重大なプライバシー リスクを引き起こします。
このペーパーでは、LLM アプリのデータ実践に透明性をもたらすことを目指しています。
ケーススタディとして、OpenAI の GPT アプリ エコシステムを研究します。
GPT とそのアクション (外部サービス) の自然言語ベースのソース コードの静的分析を実行して、データ収集の実践を特徴付ける LLM ベースのフレームワークを開発します。
私たちの調査結果は、Actions がパスワードなどの OpenAI によって禁止されている機密情報を含む、ユーザーに関する広範なデータを収集していることを示しています。
広告や分析に関連するものを含む一部のアクションが複数の GPT に埋め込まれており、GPT 間でのユーザー アクティビティを追跡できることがわかりました。
さらに、アクションが同時に発生すると、個々のアクションにさらされるデータよりも 9.5 倍多くのデータがアクションにさらされます。
最後に、アクションによるデータ収集とプライバシー ポリシーの開示との一貫性を自動的にチェックする、LLM ベースのプライバシー ポリシー分析フレームワークを開発します。
私たちの測定によると、収集されたデータの種類のほとんどはプライバシー ポリシーで開示が省略されており、データ収集の実践を明確に開示しているアクションは 5.8% のみです。

要約(オリジナル)

LLM app ecosystems are quickly maturing and supporting a wide range of use cases, which requires them to collect excessive user data. Given that the LLM apps are developed by third-parties and that anecdotal evidence suggests LLM platforms currently do not strictly enforce their policies, user data shared with arbitrary third-parties poses a significant privacy risk. In this paper we aim to bring transparency in data practices of LLM apps. As a case study, we study OpenAI’s GPT app ecosystem. We develop an LLM-based framework to conduct the static analysis of natural language-based source code of GPTs and their Actions (external services) to characterize their data collection practices. Our findings indicate that Actions collect expansive data about users, including sensitive information prohibited by OpenAI, such as passwords. We find that some Actions, including related to advertising and analytics, are embedded in multiple GPTs, which allow them to track user activities across GPTs. Additionally, co-occurrence of Actions exposes as much as 9.5x more data to them, than it is exposed to individual Actions. Lastly, we develop an LLM-based privacy policy analysis framework to automatically check the consistency of data collection by Actions with disclosures in their privacy policies. Our measurements indicate that the disclosures for most of the collected data types are omitted in privacy policies, with only 5.8% of Actions clearly disclosing their data collection practices.

arxiv情報

著者 Evin Jaff,Yuhao Wu,Ning Zhang,Umar Iqbal
発行日 2024-08-23 17:42:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR, cs.CY, cs.LG パーマリンク