要約
タイトル:PADME-SoSci:社会科学のための分析と分散機械学習のためのプラットフォーム
要約:
– 社会データサイエンスでは、データプライバシーや所有権に関する問題がある。
– データの異なる部分を所有する異なる当事者がいる場合、データ共有や分析が困難である。
– この課題に対処する方法の1つは、データを収集する前に非特定化または匿名化技術を適用することであるが、これによりデータの有用性が低下し、再識別のリスクが増加する。
– これらの制限に対処するために、我々は、モデルの実装とトレーニングを統合する分散分析ツールであるPADMEを提案している。
– PADMEは、モデルがすべての当事者によって実装および展開され、訓練のために各データロケーションを逐次訪問する分散アプローチを使用する。
– これにより、ロケーション全体のデータがあるかのようにモデルをトレーニングすることができ、他の方法とは異なり、モデルは元のロケーションのデータに基づいてトレーニングされ、データ所有権が保持される。
– さらに、分析がすべてのデータロケーションで完了するまで結果は提供されず、プライバシーが保護され、結果に偏りが生じないようになる。
要約(オリジナル)
Data privacy and ownership are significant in social data science, raising legal and ethical concerns. Sharing and analyzing data is difficult when different parties own different parts of it. An approach to this challenge is to apply de-identification or anonymization techniques to the data before collecting it for analysis. However, this can reduce data utility and increase the risk of re-identification. To address these limitations, we present PADME, a distributed analytics tool that federates model implementation and training. PADME uses a federated approach where the model is implemented and deployed by all parties and visits each data location incrementally for training. This enables the analysis of data across locations while still allowing the model to be trained as if all data were in a single location. Training the model on data in its original location preserves data ownership. Furthermore, the results are not provided until the analysis is completed on all data locations to ensure privacy and avoid bias in the results.
arxiv情報
| 著者 | Zeyd Boukhers,Arnim Bleier,Yeliz Ucer Yediel,Mio Hienstorfer-Heitmann,Mehrshad Jaberansary,Adamantios Koumpis,Oya Beyan |
| 発行日 | 2023-04-03 07:27:28+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI