要約
最近の視覚合成の改善により、生成された人物写真の描写が大幅に強化されました。これは、幅広い応用性と需要があるため極めて重要です。
それにもかかわらず、既存のテキストから画像へのモデルやテキストからビデオへのモデルは、「異常な人体」と呼ばれる、現実世界の身体構造とは大幅に異なる可能性がある低品質の人物写真を生成することがよくあります。
このような異常は、通常は容認できないと考えられており、人間の写真内で異常を検出し修復する際に大きな課題となります。
これらの課題には、正確な異常認識機能が必要であり、これには位置と異常の種類の両方を正確に特定する必要があります。
直感的には、さまざまな視覚タスクで顕著なパフォーマンスを実現しているビジュアル言語モデル (VLM) が、このタスクに非常に適しています。
ただし、人物写真の異常検出のパフォーマンスは非常に悪いです。
したがって、研究コミュニティに対してこの課題を強調することは非常に重要です。
この論文では、最初に単純だがやりがいのあるタスク、つまり \textbf{F} 粒度の高い \textbf{H}uman-body \textbf{A}bnormality \textbf{D}etection \textbf{(FHAD)} を紹介します。
、評価用に 2 つの高品質のデータセットを構築します。
次に、他の内容を維持しながら人体の構造の異常を特定して修復する、HumanCalibrator という綿密なフレームワークを提案します。
実験によれば、当社の HumanCalibrator は異常検出において高い精度を達成し、他の視覚コンテンツを維持しながら視覚比較の増加を実現します。
要約(オリジナル)
Recent improvements in visual synthesis have significantly enhanced the depiction of generated human photos, which are pivotal due to their wide applicability and demand. Nonetheless, the existing text-to-image or text-to-video models often generate low-quality human photos that might differ considerably from real-world body structures, referred to as ‘abnormal human bodies’. Such abnormalities, typically deemed unacceptable, pose considerable challenges in the detection and repair of them within human photos. These challenges require precise abnormality recognition capabilities, which entail pinpointing both the location and the abnormality type. Intuitively, Visual Language Models (VLMs) that have obtained remarkable performance on various visual tasks are quite suitable for this task. However, their performance on abnormality detection in human photos is quite poor. Hence, it is quite important to highlight this task for the research community. In this paper, we first introduce a simple yet challenging task, i.e., \textbf{F}ine-grained \textbf{H}uman-body \textbf{A}bnormality \textbf{D}etection \textbf{(FHAD)}, and construct two high-quality datasets for evaluation. Then, we propose a meticulous framework, named HumanCalibrator, which identifies and repairs abnormalities in human body structures while preserving the other content. Experiments indicate that our HumanCalibrator achieves high accuracy in abnormality detection and accomplishes an increase in visual comparisons while preserving the other visual content.
arxiv情報
著者 | Zeqing Wang,Qingyang Ma,Wentao Wan,Haojie Li,Keze Wang,Yonghong Tian |
発行日 | 2024-11-21 15:13:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google