Data Encoding For Healthcare Data Democratisation and Information Leakage Prevention

要約

【タイトル】ヘルスケアデータ民主化と情報漏洩防止のためのデータエンコーディング

【要約】
-ディープラーニングを用いたヘルスケアソリューションの開発と受け入れを妨げる要因として、データの民主化不足とトレーニングされたモデルからの情報漏洩がある。
-この論文は、不可逆的なデータエンコーディングが、ヘルスケアデータやクリニカルモデルに課されたプライバシー制約を犯すことなく、データ民主化を実現するための効果的な解決策を提供できると主張している。
-理想的なエンコーディングフレームワークは、データを手動または計算検査で不可視になる新しい空間に変換することができる。ただし、エンコードされたデータは、ディープラーニングモデルを効果的にトレーニングするために元のデータの意味を保持する必要がある。
-この論文は望ましいエンコーディングフレームワークの特性を仮説し、そのためにランダム投影とランダム量子エンコーディングを活用して密集型および長期間の時系列データのためのこのフレームワークを実現している。
-実験的評価は、エンコードされた時系列データでトレーニングされたモデルが情報のボトルネック原理を効果的に保持し、そのためトレーニングされたモデルからの情報漏洩が少ないことを示している。

要約(オリジナル)

The lack of data democratization and information leakage from trained models hinder the development and acceptance of robust deep learning-based healthcare solutions. This paper argues that irreversible data encoding can provide an effective solution to achieve data democratization without violating the privacy constraints imposed on healthcare data and clinical models. An ideal encoding framework transforms the data into a new space where it is imperceptible to a manual or computational inspection. However, encoded data should preserve the semantics of the original data such that deep learning models can be trained effectively. This paper hypothesizes the characteristics of the desired encoding framework and then exploits random projections and random quantum encoding to realize this framework for dense and longitudinal or time-series data. Experimental evaluation highlights that models trained on encoded time-series data effectively uphold the information bottleneck principle and hence, exhibit lesser information leakage from trained models.

arxiv情報

著者 Anshul Thakur,Tingting Zhu,Vinayak Abrol,Jacob Armstrong,Yujiang Wang,David A. Clifton
発行日 2023-05-05 17:50:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CR, cs.LG パーマリンク