-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.CV」カテゴリーアーカイブ
LoFi: Scalable Local Image Reconstruction with Implicit Neural Representation
要約 ニューラル フィールドまたは暗黙的ニューラル表現 (INR) は、画像と … 続きを読む
HourVideo: 1-Hour Video-Language Understanding
要約 1 時間のビデオ言語理解のためのベンチマーク データセットである Hour … 続きを読む
LLM2CLIP: Powerful Language Model Unlock Richer Visual Representation
要約 CLIP は、今日最も重要なマルチモーダル基礎モデルの 1 つです。 CL … 続きを読む
Analyzing The Language of Visual Tokens
要約 LLaVA や Chameleon など、視覚および言語タスク用のトランス … 続きを読む
ReCapture: Generative Video Camera Controls for User-Provided Videos using Masked Video Fine-Tuning
要約 最近、ビデオ モデリングの進歩により、生成されたビデオ内でカメラの軌道を制 … 続きを読む
Diff-2-in-1: Bridging Generation and Dense Perception with Diffusion Models
要約 高忠実度の画像合成を超えて、拡散モデルは最近、密な視覚認識タスクにおいて有 … 続きを読む
ProEdit: Simple Progression is All You Need for High-Quality 3D Scene Editing
要約 この文書では、ProEdit を提案します。ProEdit は、新しい進歩 … 続きを読む
カテゴリー: cs.CV
ProEdit: Simple Progression is All You Need for High-Quality 3D Scene Editing はコメントを受け付けていません
SVDQunat: Absorbing Outliers by Low-Rank Components for 4-Bit Diffusion Models
要約 拡散モデルは、高品質の画像を生成するのに非常に効果的であることが証明されて … 続きを読む
GS2Pose: Two-stage 6D Object Pose Estimation Guided by Gaussian Splatting
要約 この論文では、GS2Pose と呼ばれる、新しいオブジェクトの正確かつロバ … 続きを読む