cs.CV」カテゴリーアーカイブ

FluxSpace: Disentangled Semantic Editing in Rectified Flow Transformers

要約 整流フロー モデルは、画像生成における主要なアプローチとして台頭しており、 … 続きを読む

カテゴリー: cs.CV | FluxSpace: Disentangled Semantic Editing in Rectified Flow Transformers はコメントを受け付けていません

Context Canvas: Enhancing Text-to-Image Diffusion Models with Knowledge Graph-Based RAG

要約 グラフベースの RAG を組み込むことで、テキストから画像へのモデルの機能 … 続きを読む

カテゴリー: cs.CL, cs.CV | Context Canvas: Enhancing Text-to-Image Diffusion Models with Knowledge Graph-Based RAG はコメントを受け付けていません

V2PE: Improving Multimodal Long-Context Capability of Vision-Language Models with Variable Visual Position Encoding

要約 ビジョン言語モデル (VLM) は、さまざまなマルチモーダル タスクの処理 … 続きを読む

カテゴリー: cs.CV | V2PE: Improving Multimodal Long-Context Capability of Vision-Language Models with Variable Visual Position Encoding はコメントを受け付けていません

EasyRef: Omni-Generalized Group Image Reference for Diffusion Models via Multimodal LLM

要約 普及モデルのパーソナライゼーションにおける重要な成果が確認されています。 … 続きを読む

カテゴリー: cs.CV | EasyRef: Omni-Generalized Group Image Reference for Diffusion Models via Multimodal LLM はコメントを受け付けていません

SnapGen: Taming High-Resolution Text-to-Image Models for Mobile Devices with Efficient Architectures and Training

要約 既存のテキストから画像への (T2I) 拡散モデルは、モデル サイズが大き … 続きを読む

カテゴリー: cs.CV | SnapGen: Taming High-Resolution Text-to-Image Models for Mobile Devices with Efficient Architectures and Training はコメントを受け付けていません

Stereo4D: Learning How Things Move in 3D from Internet Stereo Videos

要約 画像から動的な 3D シーンを理解する方法を学ぶことは、ロボット工学からシ … 続きを読む

カテゴリー: cs.CV | Stereo4D: Learning How Things Move in 3D from Internet Stereo Videos はコメントを受け付けていません

Learning Camera Movement Control from Real-World Drone Videos

要約 この研究では、ピクセルを直接生成して存在しないコンテンツを作成するのとは対 … 続きを読む

カテゴリー: cs.CV, cs.RO | Learning Camera Movement Control from Real-World Drone Videos はコメントを受け付けていません

LoRACLR: Contrastive Adaptation for Customization of Diffusion Models

要約 テキストから画像へのカスタマイズの最近の進歩により、高忠実度でコンテキスト … 続きを読む

カテゴリー: cs.CV | LoRACLR: Contrastive Adaptation for Customization of Diffusion Models はコメントを受け付けていません

OmniDrag: Enabling Motion Control for Omnidirectional Image-to-Video Generation

要約 仮想現実の人気が高まるにつれて、没入型でダイナミックな全方向ビデオ (OD … 続きを読む

カテゴリー: cs.CV | OmniDrag: Enabling Motion Control for Omnidirectional Image-to-Video Generation はコメントを受け付けていません

GenEx: Generating an Explorable World

要約 3D の物理的な現実世界を理解し、ナビゲートし、探索することは、長い間、人 … 続きを読む

カテゴリー: cs.CV, cs.RO | GenEx: Generating an Explorable World はコメントを受け付けていません