-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.CV」カテゴリーアーカイブ
RACCooN: A Versatile Instructional Video Editing Framework with Auto-Generated Narratives
要約 最近のビデオ生成モデルは主に、修復やスタイル編集などの特定のタスクについて … 続きを読む
Warped Diffusion: Solving Video Inverse Problems with Image Diffusion Models
要約 逆ビデオ問題を解決するために画像モデルを単純に使用すると、生成されたビデオ … 続きを読む
Pangea: A Fully Open Multilingual Multimodal LLM for 39 Languages
要約 マルチモーダル大規模言語モデル (MLLM) の最近の進歩にもかかわらず、 … 続きを読む
Metric as Transform: Exploring beyond Affine Transform for Interpretable Neural Network
要約 さまざまなアーキテクチャの人工ニューラル ネットワークは、通常、中核でアフ … 続きを読む
Sparkle: Mastering Basic Spatial Capabilities in Vision Language Models Elicits Generalization to Composite Spatial Reasoning
要約 ビジョン言語モデル (VLM) は、幅広い下流タスクにわたって優れたパフォ … 続きを読む
Griffon-G: Bridging Vision-Language and Vision-Centric Tasks via Large Multimodal Models
要約 大規模マルチモーダル モデル (LMM) は、自己回帰モデリングに基づいた … 続きを読む
カテゴリー: cs.CV
Griffon-G: Bridging Vision-Language and Vision-Centric Tasks via Large Multimodal Models はコメントを受け付けていません
Beyond Filtering: Adaptive Image-Text Quality Enhancement for MLLM Pretraining
要約 マルチモーダル大規模言語モデル (MLLM) は、ビジュアル モダリティと … 続きを読む
A Framework for Evaluating Predictive Models Using Synthetic Image Covariates and Longitudinal Data
要約 私たちは、複雑な共変量(目のスキャンなど)と長期的な観察(経時的な視力など … 続きを読む
カテゴリー: cs.CV
A Framework for Evaluating Predictive Models Using Synthetic Image Covariates and Longitudinal Data はコメントを受け付けていません
Training Better Deep Learning Models Using Human Saliency
要約 この研究では、画像の顕著な領域に関する人間の判断をディープ畳み込みニューラ … 続きを読む
カテゴリー: cs.CV
Training Better Deep Learning Models Using Human Saliency はコメントを受け付けていません
Improve Vision Language Model Chain-of-thought Reasoning
要約 ビジョン言語モデル (VLM) における思考連鎖 (CoT) 推論は、解釈 … 続きを読む