cs.CV」カテゴリーアーカイブ

ImageFolder: Autoregressive Image Generation with Folded Tokens

要約 画像トークナイザーは、モデリング用の潜在表現を構築するため、拡散モデル ( … 続きを読む

カテゴリー: cs.CV | ImageFolder: Autoregressive Image Generation with Folded Tokens はコメントを受け付けていません

OKAMI: Teaching Humanoid Robots Manipulation Skills through Single Video Imitation

要約 私たちは、単一のビデオデモンストレーションを模倣して人型ロボットの操作スキ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | OKAMI: Teaching Humanoid Robots Manipulation Skills through Single Video Imitation はコメントを受け付けていません

Efficient Diffusion Models: A Comprehensive Survey from Principles to Practices

要約 拡散モデルは、近年最も人気があり人気の生成モデルの 1 つとして、多くの研 … 続きを読む

カテゴリー: cs.CV, I.4.9 | Efficient Diffusion Models: A Comprehensive Survey from Principles to Practices はコメントを受け付けていません

Active Label Refinement for Robust Training of Imbalanced Medical Image Classification Tasks in the Presence of High Label Noise

要約 教師あり深層学習ベースの医用画像分類の堅牢性は、ラベル ノイズによって大幅 … 続きを読む

カテゴリー: cs.CV, cs.LG | Active Label Refinement for Robust Training of Imbalanced Medical Image Classification Tasks in the Presence of High Label Noise はコメントを受け付けていません

VIA: Unified Spatiotemporal Video Adaptation Framework for Global and Local Video Editing

要約 ビデオ編集は、エンターテインメントや教育からプロフェッショナルなコミュニケ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM | VIA: Unified Spatiotemporal Video Adaptation Framework for Global and Local Video Editing はコメントを受け付けていません

Advancements in Road Lane Mapping: Comparative Fine-Tuning Analysis of Deep Learning-based Semantic Segmentation Methods Using Aerial Imagery

要約 この研究は、航空画像から得られる道路車線情報に焦点を当て、自動運転車 (A … 続きを読む

カテゴリー: cs.CV | Advancements in Road Lane Mapping: Comparative Fine-Tuning Analysis of Deep Learning-based Semantic Segmentation Methods Using Aerial Imagery はコメントを受け付けていません

SGEdit: Bridging LLM with Text2Image Generative Model for Scene Graph-based Image Editing

要約 シーン グラフは、オブジェクトとそれらの間の関係を象徴するノードとエッジを … 続きを読む

カテゴリー: cs.CV | SGEdit: Bridging LLM with Text2Image Generative Model for Scene Graph-based Image Editing はコメントを受け付けていません

Jigsaw++: Imagining Complete Shape Priors for Object Reassembly

要約 自動アセンブリの問題は、3D 表現を伴う複雑な課題のため、ますます関心を集 … 続きを読む

カテゴリー: cs.CV | Jigsaw++: Imagining Complete Shape Priors for Object Reassembly はコメントを受け付けていません

Improving Long-Text Alignment for Text-to-Image Diffusion Models

要約 テキストから画像への (T2I) 拡散モデルの急速な進歩により、与えられた … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.MM | Improving Long-Text Alignment for Text-to-Image Diffusion Models はコメントを受け付けていません

KITTEN: A Knowledge-Intensive Evaluation of Image Generation on Visual Entities

要約 テキストから画像への生成における最近の進歩により、合成画像の品質が大幅に向 … 続きを読む

カテゴリー: cs.CV | KITTEN: A Knowledge-Intensive Evaluation of Image Generation on Visual Entities はコメントを受け付けていません