cs.CV」カテゴリーアーカイブ

Enhancing Person-to-Person Virtual Try-On with Multi-Garment Virtual Try-Off

要約 コンピュータービジョンは、Virtual Try-On(VTON)と仮想ト … 続きを読む

カテゴリー: cs.AI, cs.CV | Enhancing Person-to-Person Virtual Try-On with Multi-Garment Virtual Try-Off はコメントを受け付けていません

EventVAD: Training-Free Event-Aware Video Anomaly Detection

要約 ビデオアノマリー検出〜(VAD)は、ビデオ内の異常の識別に焦点を当てていま … 続きを読む

カテゴリー: cs.CV | EventVAD: Training-Free Event-Aware Video Anomaly Detection はコメントを受け付けていません

RF-DETR Object Detection vs YOLOv12 : A Study of Transformer-based and CNN-based Architectures for Single-Class and Multi-Class Greenfruit Detection in Complex Orchard Environments Under Label Ambiguity

要約 この研究では、ラベルのあいまいさ、オクルージョン、およびバックグラウンドブ … 続きを読む

カテゴリー: cs.CV | RF-DETR Object Detection vs YOLOv12 : A Study of Transformer-based and CNN-based Architectures for Single-Class and Multi-Class Greenfruit Detection in Complex Orchard Environments Under Label Ambiguity はコメントを受け付けていません

Multimodal LLMs Can Reason about Aesthetics in Zero-Shot

要約 生成芸術の急速な進歩は、視覚的に心地よいイメージの作成を民主化しました。 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | Multimodal LLMs Can Reason about Aesthetics in Zero-Shot はコメントを受け付けていません

UniEdit-Flow: Unleashing Inversion and Editing in the Era of Flow Models

要約 フローマッチングモデルは、拡散モデルの強力な代替品として浮上していますが、 … 続きを読む

カテゴリー: cs.CV | UniEdit-Flow: Unleashing Inversion and Editing in the Era of Flow Models はコメントを受け付けていません

Probing and Inducing Combinational Creativity in Vision-Language Models

要約 既存の概念を斬新なアイデアに組み合わせる能力は、人間の知性の基本的な特徴と … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | Probing and Inducing Combinational Creativity in Vision-Language Models はコメントを受け付けていません

VistaDPO: Video Hierarchical Spatial-Temporal Direct Preference Optimization for Large Video Models

要約 大規模な言語モデル(LLM)に基づいて構築された大規模なビデオモデル(LV … 続きを読む

カテゴリー: cs.CV, cs.LG | VistaDPO: Video Hierarchical Spatial-Temporal Direct Preference Optimization for Large Video Models はコメントを受け付けていません

Low-hallucination Synthetic Captions for Large-Scale Vision-Language Model Pre-training

要約 近年、ビジョン言語モデルのプリトレーニングの分野は、主に大規模な言語モデル … 続きを読む

カテゴリー: cs.AI, cs.CV | Low-hallucination Synthetic Captions for Large-Scale Vision-Language Model Pre-training はコメントを受け付けていません

Science-T2I: Addressing Scientific Illusions in Image Synthesis

要約 科学的知識を生成モデルに統合し、画像統合のリアリズムと一貫性を高めるための … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Science-T2I: Addressing Scientific Illusions in Image Synthesis はコメントを受け付けていません

NTIRE 2025 Challenge on Short-form UGC Video Quality Assessment and Enhancement: Methods and Results

要約 このペーパーでは、短編UGCビデオ品質評価と強化に関するNTIRE 202 … 続きを読む

カテゴリー: cs.AI, cs.CV, eess.IV | NTIRE 2025 Challenge on Short-form UGC Video Quality Assessment and Enhancement: Methods and Results はコメントを受け付けていません