要約
数億人がスマートフォンをPoint and Shoot(PAS)カメラとして使用して日常的に写真を撮っていますが、シーンの良いショットを構成するための写真スキルを持っている人はほとんどいません。
従来のPASカメラには、写真が十分に焦点を合わせ、適切な明るさを確保するための組み込み機能が組み込まれていますが、シーンのベストショットを作成する方法をユーザーに伝えることはできません。
このペーパーでは、ユーザーが良い写真を撮るのを助けるために、この種のスマートポイントと撮影(スパ)システムの最初のものを紹介します。
私たちのスパは、ユーザーがシーンでカメラのポーズをライブで調整するように自動的にガイドすることにより、ユーザーがシーンの良いショットを構成するのを支援することを提案しています。
最初に、4000シーンからのカメラポーズ情報を含む320K画像を含む大きなデータセットを構築しました。
次に、これらの画像に擬似ラベルを割り当てるために、革新的なクリップベースの構成品質評価(CCQA)モデルを開発しました。
CCQAは、5つのレベルの品質説明単語でカバーされている範囲の微妙な視覚品質の違いを識別できる継続的な単語埋め込みを学習するためのユニークな学習可能なテキスト埋め込み手法を導入します{悪い、貧弱、公正、良い、完璧}。
最後に、カメラポーズ調整モデル(CPAM)を開発しました。これは、現在のビューをさらに改善できるかどうかを最初に決定し、2つのカメラポーズ調整角の形で調整提案を出力します。
CPAMの2つのタスクは、順次決定を行い、それぞれが異なるトレーニングサンプルを伴うことを伴います。エンドツーエンドの方法でCPAMを訓練するためのゲート損失関数を備えた混合物モデルを開発しました。
広範な結果を提示して、公開されている画像構成データセットを使用して、SPASシステムのパフォーマンスを実証します。
要約(オリジナル)
Hundreds of millions of people routinely take photos using their smartphones as point and shoot (PAS) cameras, yet very few would have the photography skills to compose a good shot of a scene. While traditional PAS cameras have built-in functions to ensure a photo is well focused and has the right brightness, they cannot tell the users how to compose the best shot of a scene. In this paper, we present a first of its kind smart point and shoot (SPAS) system to help users to take good photos. Our SPAS proposes to help users to compose a good shot of a scene by automatically guiding the users to adjust the camera pose live on the scene. We first constructed a large dataset containing 320K images with camera pose information from 4000 scenes. We then developed an innovative CLIP-based Composition Quality Assessment (CCQA) model to assign pseudo labels to these images. The CCQA introduces a unique learnable text embedding technique to learn continuous word embeddings capable of discerning subtle visual quality differences in the range covered by five levels of quality description words {bad, poor, fair, good, perfect}. And finally we have developed a camera pose adjustment model (CPAM) which first determines if the current view can be further improved and if so it outputs the adjust suggestion in the form of two camera pose adjustment angles. The two tasks of CPAM make decisions in a sequential manner and each involves different sets of training samples, we have developed a mixture-of-experts model with a gated loss function to train the CPAM in an end-to-end manner. We will present extensive results to demonstrate the performances of our SPAS system using publicly available image composition datasets.
arxiv情報
著者 | Jiawan Li,Fei Zhou,Zhipeng Zhong,Jiongzhi Lin,Guoping Qiu |
発行日 | 2025-05-06 15:40:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google