Promise and Peril of Collaborative Code Generation Models: Balancing Effectiveness and Memorization


さらに、集中型トレーニング、連合トレーニング、増分トレーニングなど、さまざまな共同トレーニング設定全体でさまざまな参加者のトレーニング データの記憶を評価し、データ漏洩の潜在的なリスクを強調しています。
私たちの調査結果は、コード データセットのサイズと多様性が、共同してトレーニングされたコード モデルの成功に影響を与える極めて重要な要素であることを示しています。
生成されたコードの記憶率が低いことから明らかなように、フェデレーテッド ラーニングは、より優れたデータ保護を提供しながら、集中型トレーニングと比較して競争力のあるパフォーマンスを達成できることを示します。
ただし、フェデレーテッド ラーニングでは、隠されたトレーニング データから逐語的なコード スニペットが生成される可能性があり、プライバシーや著作権を侵害する可能性があります。
私たちの調査結果は、たとえトレーニング データが見えないままであっても、推論中にデータ漏洩の永続的なリスクが存在することを浮き彫りにしました。
最後に、実務者と研究者がマルチソース データセットを最適化し、組織間のコラボレーションを推進するための推奨事項を述べます。


In the rapidly evolving field of machine learning, training models with datasets from various locations and organizations presents significant challenges due to privacy and legal concerns. The exploration of effective collaborative training settings capable of leveraging valuable knowledge from distributed and isolated datasets is increasingly crucial. This study investigates key factors that impact the effectiveness of collaborative training methods in code next-token prediction, as well as the correctness and utility of the generated code, demonstrating the promise of such methods. Additionally, we evaluate the memorization of different participant training data across various collaborative training settings, including centralized, federated, and incremental training, highlighting their potential risks in leaking data. Our findings indicate that the size and diversity of code datasets are pivotal factors influencing the success of collaboratively trained code models. We show that federated learning achieves competitive performance compared to centralized training while offering better data protection, as evidenced by lower memorization ratios in the generated code. However, federated learning can still produce verbatim code snippets from hidden training data, potentially violating privacy or copyright. Our study further explores effectiveness and memorization patterns in incremental learning, emphasizing the sequence in which individual participant datasets are introduced. We also identify cross-organizational clones as a prevalent challenge in both centralized and federated learning scenarios. Our findings highlight the persistent risk of data leakage during inference, even when training data remains unseen. We conclude with recommendations for practitioners and researchers to optimize multisource datasets, propelling cross-organizational collaboration forward.


著者 Zhi Chen,Lingxiao Jiang
発行日 2024-09-18 14:30:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.AI, cs.LG, cs.SE パーマリンク