SketchRef: A Benchmark Dataset and Evaluation Metrics for Automated Sketch Synthesis

要約

スケッチは、現実世界のオブジェクトに関する重要な視覚情報をキャプチャするための強力な芸術的手法であり、画像合成分野でますます注目を集めています。
ただし、合成されたスケッチの品質を評価するには、未解決の特有の課題が存在します。
スケッチ合成の現在の評価方法は、統一されたベンチマーク データセットの欠如、認識可能性の分類精度への過度の依存、およびさまざまなレベルの簡略化によるスケッチの不公平な評価により、不十分です。
これらの問題に対処するために、動物、人の顔、人体、一般的な物体の 4 つのカテゴリの参照写真と新しい評価指標で構成されるベンチマーク データセットである SketchRef を導入します。
スケッチとその参照写真の間の構造的一貫性を測定するには分類精度が不十分であることを考慮して、姿勢推定を利用して構造レベルの認識可能性を評価する、平均オブジェクト キーポイント類似性 (mOKS) メトリクスを提案します。
簡略化レベルの異なるスケッチを公平に評価するために、簡略化に制約された認識可能性計算手法を提案する。
また、芸術愛好家から 8K の回答を収集し、提案した評価方法の有効性を検証します。
私たちは、この研究がスケッチ合成アルゴリズムの包括的な評価を提供し、それによってアルゴリズムのパフォーマンスを人間の理解にさらに近づけることを願っています。

要約(オリジナル)

Sketch, a powerful artistic technique to capture essential visual information about real-world objects, is increasingly gaining attention in the image synthesis field. However, evaluating the quality of synthesized sketches presents unique unsolved challenges. Current evaluation methods for sketch synthesis are inadequate due to the lack of a unified benchmark dataset, over-reliance on classification accuracy for recognizability, and unfair evaluation of sketches with different levels of simplification. To address these issues, we introduce SketchRef, a benchmark dataset comprising 4 categories of reference photos–animals, human faces, human bodies, and common objects–alongside novel evaluation metrics. Considering that classification accuracy is insufficient to measure the structural consistency between a sketch and its reference photo, we propose the mean Object Keypoint Similarity (mOKS) metric, utilizing pose estimation to assess structure-level recognizability. To ensure fair evaluation sketches with different simplification levels, we propose a recognizability calculation method constrained by simplicity. We also collect 8K responses from art enthusiasts, validating the effectiveness of our proposed evaluation methods. We hope this work can provide a comprehensive evaluation of sketch synthesis algorithms, thereby aligning their performance more closely with human understanding.

arxiv情報

著者 Xingyue Lin,Xingjian Hu,Shuai Peng,Jianhua Zhu,Liangcai Gao
発行日 2024-08-16 09:32:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク