-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.CV」カテゴリーアーカイブ
Grounding Beyond Detection: Enhancing Contextual Understanding in Embodied 3D Grounding
要約 具体化された3D接地は、自我中心の視点から人間の指示に記載されているターゲ … 続きを読む
カテゴリー: cs.CV
Grounding Beyond Detection: Enhancing Contextual Understanding in Embodied 3D Grounding はコメントを受け付けていません
DREAM: Disentangling Risks to Enhance Safety Alignment in Multimodal Large Language Models
要約 マルチモーダル大手言語モデル(MLLM)は、視覚データとテキストデータの統 … 続きを読む
OGGSplat: Open Gaussian Growing for Generalizable Reconstruction with Expanded Field-of-View
要約 スパースビューからセマンティックアウェア3Dシーンを再構築することは、仮想 … 続きを読む
カテゴリー: cs.CV
OGGSplat: Open Gaussian Growing for Generalizable Reconstruction with Expanded Field-of-View はコメントを受け付けていません
Follow-Your-Motion: Video Motion Transfer via Efficient Spatial-Temporal Decoupled Finetuning
要約 最近、ビデオ拡散トランスのブレークスルーは、多様な運動世代に顕著な能力を示 … 続きを読む
カテゴリー: cs.CV
Follow-Your-Motion: Video Motion Transfer via Efficient Spatial-Temporal Decoupled Finetuning はコメントを受け付けていません
Towards Vision-Language-Garment Models For Web Knowledge Garment Understanding and Generation
要約 マルチモーダルファンデーションモデルは強力な一般化を実証していますが、衣服 … 続きを読む
カテゴリー: cs.CV
Towards Vision-Language-Garment Models For Web Knowledge Garment Understanding and Generation はコメントを受け付けていません
DSG-World: Learning a 3D Gaussian World Model from Dual State Videos
要約 限られた観察から効率的で身体的に一貫した世界モデルを構築することは、ビジョ … 続きを読む
カテゴリー: cs.CV
DSG-World: Learning a 3D Gaussian World Model from Dual State Videos はコメントを受け付けていません
MonkeyOCR: Document Parsing with a Structure-Recognition-Relation Triplet Paradigm
要約 構造認識関連(SRR)トリプレットパラダイムを活用することにより、最新のア … 続きを読む
カテゴリー: cs.CV
MonkeyOCR: Document Parsing with a Structure-Recognition-Relation Triplet Paradigm はコメントを受け付けていません
SAM-aware Test-time Adaptation for Universal Medical Image Segmentation
要約 セグメントを使用したユニバーサル医療画像セグメンテーションAnything … 続きを読む
カテゴリー: cs.CV
SAM-aware Test-time Adaptation for Universal Medical Image Segmentation はコメントを受け付けていません
MAC-Gaze: Motion-Aware Continual Calibration for Mobile Gaze Tracking
要約 モバイルの視線追跡は基本的な課題に直面しています。ユーザーが自然に姿勢やデ … 続きを読む