-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
月別アーカイブ: 2024年7月
Enhancing Cell Instance Segmentation in Scanning Electron Microscopy Images via a Deep Contour Closing Operator
要約 SEM 画像内の細胞を正確にセグメント化し、個別化することは、腫瘍学におけ … 続きを読む
Accelerating Pre-training of Multimodal LLMs via Chain-of-Sight
要約 このペーパーでは、マルチモーダル大規模言語モデル (MLLM) の事前トレ … 続きを読む
カテゴリー: cs.CV
Accelerating Pre-training of Multimodal LLMs via Chain-of-Sight はコメントを受け付けていません
Detecting Brittle Decisions for Free: Leveraging Margin Consistency in Deep Robust Classifiers
要約 堅牢性を向上させるための敵対的トレーニング戦略に関する広範な研究にもかかわ … 続きを読む
NPLMV-PS: Neural Point-Light Multi-View Photometric Stereo
要約 この研究では、新しいマルチビューフォトメトリックステレオ (MVPS) 方 … 続きを読む
カテゴリー: cs.CV
NPLMV-PS: Neural Point-Light Multi-View Photometric Stereo はコメントを受け付けていません
Towards Latent Masked Image Modeling for Self-Supervised Visual Representation Learning
要約 マスク イメージ モデリング (MIM) は、画像のマスクされた部分から欠 … 続きを読む
MMInstruct: A High-Quality Multi-Modal Instruction Tuning Dataset with Extensive Diversity
要約 Vision Large Language Model (VLLM) のパ … 続きを読む
カテゴリー: cs.CV
MMInstruct: A High-Quality Multi-Modal Instruction Tuning Dataset with Extensive Diversity はコメントを受け付けていません
SlowFast-LLaVA: A Strong Training-Free Baseline for Video Large Language Models
要約 私たちは、一般的に使用される LLM のトークン バジェットを超えることな … 続きを読む
カテゴリー: cs.CV
SlowFast-LLaVA: A Strong Training-Free Baseline for Video Large Language Models はコメントを受け付けていません
Artist: Aesthetically Controllable Text-Driven Stylization without Training
要約 拡散モデルはノイズ除去プロセス中にコンテンツとスタイルの生成に絡み合い、ス … 続きを読む
HandDGP: Camera-Space Hand Mesh Prediction with Differentiable Global Positioning
要約 単一の RGB 画像からカメラ空間のハンド メッシュを予測することは、3D … 続きを読む
CarFormer: Self-Driving with Learned Object-Centric Representations
要約 自動運転では表現の選択が重要な役割を果たします。 近年、Bird̵ … 続きを読む