-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.CV」カテゴリーアーカイブ
Robust image classification with multi-modal large language models
要約 ディープ ニューラル ネットワークは、敵対的な例、つまり、モデルが高い信頼 … 続きを読む
Apollo: An Exploration of Video Understanding in Large Multimodal Models
要約 ビデオ認識機能は大規模マルチモーダル モデル (LMM) に急速に統合され … 続きを読む
OP-LoRA: The Blessing of Dimensionality
要約 低ランクのアダプターを使用すると、少数のパラメーターのみで大規模なモデルを … 続きを読む
A Grounded Typology of Word Classes
要約 私たちは言語類型論における意味に対する根拠に基づいたアプローチを提案します … 続きを読む
GaussianAD: Gaussian-Centric End-to-End Autonomous Driving
要約 ビジョンベースの自動運転は、その満足のいく性能と低コストにより、大きな可能 … 続きを読む
UniMed-CLIP: Towards a Unified Image-Text Pretraining Paradigm for Diverse Medical Imaging Modalities
要約 対照学習によってトレーニングされた視覚言語モデル (VLM) は、自然画像 … 続きを読む
カテゴリー: cs.CV
UniMed-CLIP: Towards a Unified Image-Text Pretraining Paradigm for Diverse Medical Imaging Modalities はコメントを受け付けていません
GaussianWorld: Gaussian World Model for Streaming 3D Occupancy Prediction
要約 3D 乗員予測は、周囲の状況を包括的に認識できるため、自動運転にとって重要 … 続きを読む
Olympus: A Universal Task Router for Computer Vision Tasks
要約 マルチモーダル大規模言語モデル (MLLM) を、さまざまなコンピューター … 続きを読む
DriveMM: All-in-One Large Multimodal Model for Autonomous Driving
要約 大規模マルチモーダル モデル (LMM) は、大規模な言語モデルを組み込む … 続きを読む