月別アーカイブ: 2024年2月

GPU-Accelerated 3D Polygon Visibility Volumes for Synergistic Perception and Navigation

投稿日: 2024年2月6日作成者: jarxiv

要約 UAVミッションでは、地上位置と機体位置の間に特定の幾何学的制約を満たす必 … 続きを読む →

カテゴリー: cs.CG, cs.CV, cs.RO | コメントを受け付けていません

Large Multilingual Models Pivot Zero-Shot Multimodal Learning across Languages

投稿日: 2024年2月6日作成者: jarxiv

要約最近、画像からテキスト、テキストから画像の生成という点で、マルチモーダル学 … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

Memory-Assisted Sub-Prototype Mining for Universal Domain Adaptation

投稿日: 2024年2月6日作成者: jarxiv

要約ユニバーサル・ドメイン適応は、クラスを整列させ、ソース・ドメインとターゲッ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization

投稿日: 2024年2月6日作成者: jarxiv

要約最近のマルチモーダル大規模言語モデル（LLM）の進歩に伴い、画像-テキスト … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

Direct-a-Video: Customized Video Generation with User-Directed Camera Movement and Object Motion

投稿日: 2024年2月6日作成者: jarxiv

要約最近のテキストから映像への拡散モデルは目覚しい進歩を遂げている。実際には、 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

DiffusionWorldViewer: Exposing and Broadening the Worldview Reflected by Generative Text-to-Image Models

投稿日: 2024年2月6日作成者: jarxiv

要約テキストから画像への生成（TTI）モデルは、短いテキスト記述から高品質の画 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.CY, cs.LG | コメントを受け付けていません

RRWNet: Recursive Refinement Network for Effective Retinal Artery/Vein Segmentation and Classification

投稿日: 2024年2月6日作成者: jarxiv

要約網膜血管の太さや形状は、様々な疾患や病状の重要なバイオマーカーとなる。網膜 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Lumiere: A Space-Time Diffusion Model for Video Generation

投稿日: 2024年2月6日作成者: jarxiv

要約ビデオ合成における極めて重要な課題である、リアルで多様かつコヒーレントな動 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Multi: Multimodal Understanding Leaderboard with Text and Images

投稿日: 2024年2月6日作成者: jarxiv

要約マルチモーダル大規模言語モデル(MLLM)の急速な進歩は、アカデミックコミ … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV | コメントを受け付けていません

Towards mitigating uncann(eye)ness in face swaps via gaze-centric loss terms

投稿日: 2024年2月6日作成者: jarxiv

要約顔の入れ替えの進歩により、非常にリアルな顔の自動生成が可能になった。しかし … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

月別アーカイブ: 2024年2月

GPU-Accelerated 3D Polygon Visibility Volumes for Synergistic Perception and Navigation

Large Multilingual Models Pivot Zero-Shot Multimodal Learning across Languages

Memory-Assisted Sub-Prototype Mining for Universal Domain Adaptation

Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization

Direct-a-Video: Customized Video Generation with User-Directed Camera Movement and Object Motion

DiffusionWorldViewer: Exposing and Broadening the Worldview Reflected by Generative Text-to-Image Models

RRWNet: Recursive Refinement Network for Effective Retinal Artery/Vein Segmentation and Classification

Lumiere: A Space-Time Diffusion Model for Video Generation

Multi: Multimodal Understanding Leaderboard with Text and Images

Towards mitigating uncann(eye)ness in face swaps via gaze-centric loss terms

最近の投稿

最近のコメント

アーカイブ

カテゴリー