EXIF as Language: Learning Cross-Modal Associations Between Images and Camera Metadata

要約

タイトル:「EXIF as Language: Learning Cross-Modal Associations Between Images and Camera Metadata」

要約:
– 写真撮影時に取得されるカメラメタデータ(Exif)を利用し、画像の特徴抽出を行う手法を提唱している研究。
– 画像の一部分(パッチ)とExif情報を関連付ける多重モダルな埋め込みを学習させ、Exif情報を自然言語変換器で処理したテキストとして表現することで、カメラ情報を可視化する方法を提案。
– 著者らが開発したモデルは、他の半教師あり・なしの特徴量を上回る精度を実現。さらに、画像フォーレンジックやキャリブレーションタスクに良好な成果を示し、特に画像の“スパイス”された領域を分析する際に効果的であることが分かった。

要約(オリジナル)

We learn a visual representation that captures information about the camera that recorded a given photo. To do this, we train a multimodal embedding between image patches and the EXIF metadata that cameras automatically insert into image files. Our model represents this metadata by simply converting it to text and then processing it with a transformer. The features that we learn significantly outperform other self-supervised and supervised features on downstream image forensics and calibration tasks. In particular, we successfully localize spliced image regions ‘zero shot’ by clustering the visual embeddings for all of the patches within an image.

arxiv情報

著者 Chenhao Zheng,Ayush Shrivastava,Andrew Owens
発行日 2023-04-18 02:03:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.CV パーマリンク