-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.CV」カテゴリーアーカイブ
A Sociotechnical Lens for Evaluating Computer Vision Models: A Case Study on Detecting and Reasoning about Gender and Emotion
要約 コンピューター ビジョン (CV) テクノロジーの進化の状況において、画像 … 続きを読む
Baking Gaussian Splatting into Diffusion Denoiser for Fast and Scalable Single-stage Image-to-3D Generation
要約 既存のフィードフォワード画像から 3D への手法は、主に 2D マルチビュ … 続きを読む
Enhancing Diagnostic Precision in Gastric Bleeding through Automated Lesion Segmentation: A Deep DuS-KFCM Approach
要約 内視鏡画像における胃出血のタイムリーかつ正確な分類とセグメント化は、胃合併 … 続きを読む
Beyond Training: Dynamic Token Merging for Zero-Shot Video Understanding
要約 マルチモーダル大規模言語モデル (MLLM) の最近の進歩により、ビデオ理 … 続きを読む
Multimodal Autoregressive Pre-training of Large Vision Encoders
要約 大規模ビジョンエンコーダの事前トレーニングのための新しい方法を紹介します。 … 続きを読む
Adversarial Poisoning Attack on Quantum Machine Learning Models
要約 量子機械学習 (QML) への関心が高まり、クラウド プロバイダーを通じて … 続きを読む
Multimodal 3D Brain Tumor Segmentation with Adversarial Training and Conditional Random Field
要約 神経膠腫の構造の複雑さと大きな個体差により、脳腫瘍を正確にセグメンテーショ … 続きを読む
Coarse Correspondences Boost Spatial-Temporal Reasoning in Multimodal Language Model
要約 マルチモーダル言語モデル (MLLM) は現実世界の環境でますます適用され … 続きを読む
Unleashing the Potential of Multi-modal Foundation Models and Video Diffusion for 4D Dynamic Physical Scene Simulation
要約 動的シーンのリアルなシミュレーションには、さまざまなマテリアル特性を正確に … 続きを読む
カテゴリー: cs.CV
Unleashing the Potential of Multi-modal Foundation Models and Video Diffusion for 4D Dynamic Physical Scene Simulation はコメントを受け付けていません
Revisiting the Integration of Convolution and Attention for Vision Backbone
要約 コンボリューション (Convs) とマルチヘッド セルフ アテンション … 続きを読む