月別アーカイブ: 2024年2月

GPU-Accelerated 3D Polygon Visibility Volumes for Synergistic Perception and Navigation

要約 UAVミッションでは、地上位置と機体位置の間に特定の幾何学的制約を満たす必 … 続きを読む

カテゴリー: cs.CG, cs.CV, cs.RO | GPU-Accelerated 3D Polygon Visibility Volumes for Synergistic Perception and Navigation はコメントを受け付けていません

Large Multilingual Models Pivot Zero-Shot Multimodal Learning across Languages

要約 最近、画像からテキスト、テキストから画像の生成という点で、マルチモーダル学 … 続きを読む

カテゴリー: cs.CL, cs.CV | Large Multilingual Models Pivot Zero-Shot Multimodal Learning across Languages はコメントを受け付けていません

Memory-Assisted Sub-Prototype Mining for Universal Domain Adaptation

要約 ユニバーサル・ドメイン適応は、クラスを整列させ、ソース・ドメインとターゲッ … 続きを読む

カテゴリー: cs.CV | Memory-Assisted Sub-Prototype Mining for Universal Domain Adaptation はコメントを受け付けていません

Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization

要約 最近のマルチモーダル大規模言語モデル(LLM)の進歩に伴い、画像-テキスト … 続きを読む

カテゴリー: cs.CL, cs.CV | Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization はコメントを受け付けていません

Direct-a-Video: Customized Video Generation with User-Directed Camera Movement and Object Motion

要約 最近のテキストから映像への拡散モデルは目覚しい進歩を遂げている。実際には、 … 続きを読む

カテゴリー: cs.CV | Direct-a-Video: Customized Video Generation with User-Directed Camera Movement and Object Motion はコメントを受け付けていません

DiffusionWorldViewer: Exposing and Broadening the Worldview Reflected by Generative Text-to-Image Models

要約 テキストから画像への生成(TTI)モデルは、短いテキスト記述から高品質の画 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.CY, cs.LG | DiffusionWorldViewer: Exposing and Broadening the Worldview Reflected by Generative Text-to-Image Models はコメントを受け付けていません

RRWNet: Recursive Refinement Network for Effective Retinal Artery/Vein Segmentation and Classification

要約 網膜血管の太さや形状は、様々な疾患や病状の重要なバイオマーカーとなる。網膜 … 続きを読む

カテゴリー: cs.CV | RRWNet: Recursive Refinement Network for Effective Retinal Artery/Vein Segmentation and Classification はコメントを受け付けていません

Lumiere: A Space-Time Diffusion Model for Video Generation

要約 ビデオ合成における極めて重要な課題である、リアルで多様かつコヒーレントな動 … 続きを読む

カテゴリー: cs.CV | Lumiere: A Space-Time Diffusion Model for Video Generation はコメントを受け付けていません

Multi: Multimodal Understanding Leaderboard with Text and Images

要約 マルチモーダル大規模言語モデル(MLLM)の急速な進歩は、アカデミックコミ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | Multi: Multimodal Understanding Leaderboard with Text and Images はコメントを受け付けていません

Towards mitigating uncann(eye)ness in face swaps via gaze-centric loss terms

要約 顔の入れ替えの進歩により、非常にリアルな顔の自動生成が可能になった。しかし … 続きを読む

カテゴリー: cs.CV | Towards mitigating uncann(eye)ness in face swaps via gaze-centric loss terms はコメントを受け付けていません