DP-NMT: Scalable Differentially-Private Machine Translation

要約

ニューラル機械翻訳 (NMT) はテキスト生成タスクとして広く普及していますが、NMT システムにはデータ プライバシーに関する重大な懸念があるにもかかわらず、プライバシーを保護する NMT モデルの開発にはかなりの研究ギャップがあります。
差分プライベート確率的勾配降下法 (DP-SGD) は、具体的なプライバシー保証を備えた機械学習モデルをトレーニングするための一般的な方法です。
ただし、DP-SGD を使用したモデルのトレーニングの実装詳細は、使用されるソフトウェア ライブラリが異なるため、既存のモデルでは必ずしも明確にされておらず、コード ベースが必ずしも公開されているわけではないため、再現性の問題が発生します。
これに取り組むために、DP-NMT を導入します。これは、DP-SGD を使用してプライバシー保護 NMT の研究を実行するためのオープンソース フレームワークであり、多数のモデル、データセット、評価指標を 1 つの体系的なソフトウェア パッケージにまとめています。
私たちの目標は、研究者がプライバシーを保護する NMT システムの開発を進めるためのプラットフォームを提供し、DP-SGD アルゴリズムの具体的な詳細を透過的かつ直感的に実装できるようにすることです。
一般ドメインとプライバシー関連ドメインの両方のデータセットに対して一連の実験を実行し、使用中のフレームワークを実証します。
私たちはフレームワークを公開し、コミュニティからのフィードバックを歓迎します。

要約(オリジナル)

Neural machine translation (NMT) is a widely popular text generation task, yet there is a considerable research gap in the development of privacy-preserving NMT models, despite significant data privacy concerns for NMT systems. Differentially private stochastic gradient descent (DP-SGD) is a popular method for training machine learning models with concrete privacy guarantees; however, the implementation specifics of training a model with DP-SGD are not always clarified in existing models, with differing software libraries used and code bases not always being public, leading to reproducibility issues. To tackle this, we introduce DP-NMT, an open-source framework for carrying out research on privacy-preserving NMT with DP-SGD, bringing together numerous models, datasets, and evaluation metrics in one systematic software package. Our goal is to provide a platform for researchers to advance the development of privacy-preserving NMT systems, keeping the specific details of the DP-SGD algorithm transparent and intuitive to implement. We run a set of experiments on datasets from both general and privacy-related domains to demonstrate our framework in use. We make our framework publicly available and welcome feedback from the community.

arxiv情報

著者 Timour Igamberdiev,Doan Nam Long Vu,Felix Künnecke,Zhuo Yu,Jannik Holmer,Ivan Habernal
発行日 2023-11-24 13:19:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク