ReVision: A Dataset and Baseline VLM for Privacy-Preserving Task-Oriented Visual Instruction Rewriting

要約

AR、VR、および強力なカメラを備えた最新のスマートフォンが人間コンピューターコミュニケーションのための主要なインターフェイスになるため、効率的かつプライバシーを提供するマルチモーダル相互作用は不可欠です。
既存の強力な大型ビジョン言語モデル(VLMS)マルチモーダル相互作用を可能にすることができることが多いことが多く、クラウドベースの処理に依存し、(1)機密性ビジョンデータをサーバーに送信することによる視覚的プライバシー、および(2)限られたリアルタイムでオンになります。
デバイスの使いやすさ。
このペーパーでは、マルチモーダル命令をテキストのみのコマンドに変換する新しいアプローチである視覚命令の書き換えを調査し、軽量のオンデバイス命令ライターVLMS(250mパラメーター)と既存の会話型AIシステムとのシームレスな統合を可能にし、ビジョンデータプライバシーを強化します。
これを実現するために、14のドメインにわたって39,000を超える例のデータセットを提示し、画像キャプションデータセットで事前に処理され、命令の書き換えのために微調整されたコンパクトなVLMを開発します。
BLEU、Meteor、RougeなどのNLGメトリックを介して評価された実験結果は、セマンティック解析分析とともに、モデルの量子化バージョン(<500MBストレージフットプリント)でさえ効果的な指導の書き換えを実現し、プライバシーに焦点を合わせたマルチモダルを有効にすることができることを示しています。 AIアプリケーション。

要約(オリジナル)

Efficient and privacy-preserving multimodal interaction is essential as AR, VR, and modern smartphones with powerful cameras become primary interfaces for human-computer communication. Existing powerful large vision-language models (VLMs) enabling multimodal interaction often rely on cloud-based processing, raising significant concerns about (1) visual privacy by transmitting sensitive vision data to servers, and (2) their limited real-time, on-device usability. This paper explores Visual Instruction Rewriting, a novel approach that transforms multimodal instructions into text-only commands, allowing seamless integration of lightweight on-device instruction rewriter VLMs (250M parameters) with existing conversational AI systems, enhancing vision data privacy. To achieve this, we present a dataset of over 39,000 examples across 14 domains and develop a compact VLM, pretrained on image captioning datasets and fine-tuned for instruction rewriting. Experimental results, evaluated through NLG metrics such as BLEU, METEOR, and ROUGE, along with semantic parsing analysis, demonstrate that even a quantized version of the model (<500MB storage footprint) can achieve effective instruction rewriting, thus enabling privacy-focused, multimodal AI applications.

arxiv情報

著者 Abhijit Mishra,Richard Noh,Hsiang Fu,Mingda Li,Minji Kim
発行日 2025-02-20 18:01:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク