-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
月別アーカイブ: 2024年2月
GPU-Accelerated 3D Polygon Visibility Volumes for Synergistic Perception and Navigation
要約 UAVミッションでは、地上位置と機体位置の間に特定の幾何学的制約を満たす必 … 続きを読む
Large Multilingual Models Pivot Zero-Shot Multimodal Learning across Languages
要約 最近、画像からテキスト、テキストから画像の生成という点で、マルチモーダル学 … 続きを読む
Memory-Assisted Sub-Prototype Mining for Universal Domain Adaptation
要約 ユニバーサル・ドメイン適応は、クラスを整列させ、ソース・ドメインとターゲッ … 続きを読む
カテゴリー: cs.CV
Memory-Assisted Sub-Prototype Mining for Universal Domain Adaptation はコメントを受け付けていません
Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization
要約 最近のマルチモーダル大規模言語モデル(LLM)の進歩に伴い、画像-テキスト … 続きを読む
Direct-a-Video: Customized Video Generation with User-Directed Camera Movement and Object Motion
要約 最近のテキストから映像への拡散モデルは目覚しい進歩を遂げている。実際には、 … 続きを読む
カテゴリー: cs.CV
Direct-a-Video: Customized Video Generation with User-Directed Camera Movement and Object Motion はコメントを受け付けていません
DiffusionWorldViewer: Exposing and Broadening the Worldview Reflected by Generative Text-to-Image Models
要約 テキストから画像への生成(TTI)モデルは、短いテキスト記述から高品質の画 … 続きを読む
RRWNet: Recursive Refinement Network for Effective Retinal Artery/Vein Segmentation and Classification
要約 網膜血管の太さや形状は、様々な疾患や病状の重要なバイオマーカーとなる。網膜 … 続きを読む
カテゴリー: cs.CV
RRWNet: Recursive Refinement Network for Effective Retinal Artery/Vein Segmentation and Classification はコメントを受け付けていません
Lumiere: A Space-Time Diffusion Model for Video Generation
要約 ビデオ合成における極めて重要な課題である、リアルで多様かつコヒーレントな動 … 続きを読む
カテゴリー: cs.CV
Lumiere: A Space-Time Diffusion Model for Video Generation はコメントを受け付けていません
Multi: Multimodal Understanding Leaderboard with Text and Images
要約 マルチモーダル大規模言語モデル(MLLM)の急速な進歩は、アカデミックコミ … 続きを読む
Towards mitigating uncann(eye)ness in face swaps via gaze-centric loss terms
要約 顔の入れ替えの進歩により、非常にリアルな顔の自動生成が可能になった。しかし … 続きを読む
カテゴリー: cs.CV
Towards mitigating uncann(eye)ness in face swaps via gaze-centric loss terms はコメントを受け付けていません