要約
仮想アシスタント、ビデオ会議プラットフォーム、ウェアラブルデバイスなどの音声対応技術の急速な増殖は、特にオーディオデータからの敏感な感情情報の推論に関して、大きなプライバシーの懸念を提起しました。
既存のプライバシーを提供する方法は、しばしば使いやすさとセキュリティを妥協し、実際のシナリオでの採用を制限します。
このペーパーでは、使いやすさを犠牲にすることなく感情的なプライバシーを保護するために、おなじみのオーディオ編集技術、特にピッチとテンポの操作を活用する、ユーザー中心の新しいアプローチを紹介します。
AndroidプラットフォームとiOSプラットフォームで人気のあるオーディオ編集アプリケーションを分析することにより、これらの機能が広く利用可能で使用可能であると特定しました。
ディープニューラルネットワーク(DNNS)、大規模な言語モデル(LLM)、および可逆性テストなど、多様なソースからの敵対的攻撃を考慮して、脅威モデルに対する有効性を厳密に評価しました。
3つの異なるデータセットで実施された実験は、ピッチとテンポの操作が感情データを効果的に難読化することを示しています。
さらに、さまざまなデバイスやプラットフォームにわたる幅広い適用性を確保するために、軽量でデバイス上の実装の設計原則を探ります。
要約(オリジナル)
The rapid proliferation of speech-enabled technologies, including virtual assistants, video conferencing platforms, and wearable devices, has raised significant privacy concerns, particularly regarding the inference of sensitive emotional information from audio data. Existing privacy-preserving methods often compromise usability and security, limiting their adoption in practical scenarios. This paper introduces a novel, user-centric approach that leverages familiar audio editing techniques, specifically pitch and tempo manipulation, to protect emotional privacy without sacrificing usability. By analyzing popular audio editing applications on Android and iOS platforms, we identified these features as both widely available and usable. We rigorously evaluated their effectiveness against a threat model, considering adversarial attacks from diverse sources, including Deep Neural Networks (DNNs), Large Language Models (LLMs), and and reversibility testing. Our experiments, conducted on three distinct datasets, demonstrate that pitch and tempo manipulation effectively obfuscates emotional data. Additionally, we explore the design principles for lightweight, on-device implementation to ensure broad applicability across various devices and platforms.
arxiv情報
著者 | Mohd. Farhan Israk Soumik,W. K. M. Mithsara,Abdur R. Shahid,Ahmed Imteaj |
発行日 | 2025-02-10 17:27:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google