-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.CV」カテゴリーアーカイブ
Feed-Forward Bullet-Time Reconstruction of Dynamic Scenes from Monocular Videos
要約 静的なフィードフォワードによるシーン再構成における最近の進歩は、高品質で新 … 続きを読む
Instance-Warp: Saliency Guided Image Warping for Unsupervised Domain Adaptation
要約 夜間、雨、雪などの条件下での運転は難しい。良いラベル付きデータセットがない … 続きを読む
StarVector: Generating Scalable Vector Graphics Code from Images and Text
要約 スケーラブル・ベクター・グラフィックス(SVG)は、そのスケーラビリティと … 続きを読む
VoxNeRF: Bridging Voxel Representation and Neural Radiance Fields for Enhanced Indoor View Synthesis
要約 忠実度の高いビュー合成の生成は、ロボットのナビゲーションとインタラクション … 続きを読む
Perception Tokens Enhance Visual Reasoning in Multimodal Language Models
要約 マルチモーダル言語モデル(MLM)は、特殊なモデルが得意とする基本的な視覚 … 続きを読む
Imagine360: Immersive 360 Video Generation from Perspective Anchor
要約 360^circ$動画は、視聴者が360度全方位からダイナミックなシーンを … 続きを読む
カテゴリー: cs.CV
Imagine360: Immersive 360 Video Generation from Perspective Anchor はコメントを受け付けていません
PaliGemma 2: A Family of Versatile VLMs for Transfer
要約 PaliGemma 2は、Gemma 2言語モデルファミリーをベースにした … 続きを読む
カテゴリー: cs.CV
PaliGemma 2: A Family of Versatile VLMs for Transfer はコメントを受け付けていません
MIDI: Multi-Instance Diffusion for Single Image to 3D Scene Generation
要約 本稿では、1枚の画像から3Dシーンを合成生成する新しいパラダイムであるMI … 続きを読む
カテゴリー: cs.CV
MIDI: Multi-Instance Diffusion for Single Image to 3D Scene Generation はコメントを受け付けていません
FLAIR: VLM with Fine-grained Language-informed Image Representations
要約 CLIPは、画像とテキストを拡大縮小して整列させるという素晴らしい結果を示 … 続きを読む
Inst-IT: Boosting Multimodal Instance Understanding via Explicit Visual Prompt Instruction Tuning
要約 大規模マルチモーダルモデル(LMM)は、インストラクションチューニングの進 … 続きを読む
カテゴリー: cs.CV
Inst-IT: Boosting Multimodal Instance Understanding via Explicit Visual Prompt Instruction Tuning はコメントを受け付けていません