Side Eye: Characterizing the Limits of POV Acoustic Eavesdropping from Smartphone Cameras with Rolling Shutters and Movable Lenses

要約

私たちの研究では、スマートフォンのカメラに広く見られるローリング シャッターと可動レンズ構造がどのように構造伝播音をカメラ画像に変調し、音響盗聴のための視点 (POV) 光音響サイド チャネルを作成するかを発見しました。
スマートフォンのカメラ ハードウェアの動きは、画像が無意識のうちに周囲の音を知覚できない歪みとして変調するため、音響情報を漏らします。
私たちの実験では、光学式手ぶれ補正 (OIS) やオート フォーカス (AF) などにおける、相補型金属酸化物半導体 (CMOS) ローリング シャッターや可動レンズの固有の動作によって、サイド チャネルがさらに増幅されることがわかりました。
私たちの論文は、スマートフォン カメラの POV を乱す構造伝達音によって引き起こされる音響情報漏えいの限界を特徴付けています。
振動する物体に対する従来の光音響盗聴とは対照的に、このサイド チャネルでは、カメラの視野内に視線も物体も必要ありません (天井の画像で十分です)。
私たちの実験では、漏洩した音響情報を抽出して認識する新しい信号処理パイプラインを使用して、このサイド チャネルの限界をテストします。
音声数字データセットで 10 台のスマートフォンを使用した評価では、10 の音声数字、20 人の話者、および 2 つの性別の認識で、それぞれ 80.66%、91.28%、および 99.67% の精度が報告されています。
さらに、可能な防御戦略と実装について体系的に議論します。
スマートフォンのカメラ画像ストリームからの音響盗聴の限界をモデル化、測定、および実証することにより、私たちの貢献は、物理学に基づく因果関係と、現在および将来のデバイスに対する脅威を軽減する可能な方法を説明しています。

要約(オリジナル)

Our research discovers how the rolling shutter and movable lens structures widely found in smartphone cameras modulate structure-borne sounds onto camera images, creating a point-of-view (POV) optical-acoustic side channel for acoustic eavesdropping. The movement of smartphone camera hardware leaks acoustic information because images unwittingly modulate ambient sound as imperceptible distortions. Our experiments find that the side channel is further amplified by intrinsic behaviors of Complementary metal-oxide-semiconductor (CMOS) rolling shutters and movable lenses such as in Optical Image Stabilization (OIS) and Auto Focus (AF). Our paper characterizes the limits of acoustic information leakage caused by structure-borne sound that perturbs the POV of smartphone cameras. In contrast with traditional optical-acoustic eavesdropping on vibrating objects, this side channel requires no line of sight and no object within the camera’s field of view (images of a ceiling suffice). Our experiments test the limits of this side channel with a novel signal processing pipeline that extracts and recognizes the leaked acoustic information. Our evaluation with 10 smartphones on a spoken digit dataset reports 80.66%, 91.28%, and 99.67% accuracies on recognizing 10 spoken digits, 20 speakers, and 2 genders respectively. We further systematically discuss the possible defense strategies and implementations. By modeling, measuring, and demonstrating the limits of acoustic eavesdropping from smartphone camera image streams, our contributions explain the physics-based causality and possible ways to reduce the threat on current and future devices.

arxiv情報

著者 Yan Long,Pirouz Naghavi,Blas Kojusner,Kevin Butler,Sara Rampazzi,Kevin Fu
発行日 2023-01-24 15:00:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.CV, cs.MM, cs.SD, eess.AS パーマリンク