-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.CV」カテゴリーアーカイブ
Generation of synthetic gait data: application to multiple sclerosis patients’ gait patterns
要約 多発性硬化症(MS)は、若年成人における重度の非外傷性障害の主な原因であり … 続きを読む
Deep Learning for Micro-Scale Crack Detection on Imbalanced Datasets Using Key Point Localization
要約 内部亀裂の検出は、構造健全性モニタリングの焦点となっています。 構造データ … 続きを読む
On the Foundation Model for Cardiac MRI Reconstruction
要約 近年、機械学習 (ML) ベースの再構成が広く研究され、心臓磁気共鳴 (C … 続きを読む
Repurposing Stable Diffusion Attention for Training-Free Unsupervised Interactive Segmentation
要約 インタラクティブなポイント プロンプト ベースの画像セグメンテーションの最 … 続きを読む
Llama Guard 3 Vision: Safeguarding Human-AI Image Understanding Conversations
要約 画像理解を伴う人間と AI の会話のためのマルチモーダル LLM ベースの … 続きを読む
Treat Visual Tokens as Text? But Your MLLM Only Needs Fewer Efforts to See
要約 マルチモーダル大規模言語モデル (MLLM) は、ビジュアル エンコーダか … 続きを読む
カテゴリー: cs.CV
Treat Visual Tokens as Text? But Your MLLM Only Needs Fewer Efforts to See はコメントを受け付けていません
M-VAR: Decoupled Scale-wise Autoregressive Modeling for High-Quality Image Generation
要約 コンピューター ビジョンには、画像生成のための新しい自己回帰パラダイムを提 … 続きを読む
カテゴリー: cs.CV
M-VAR: Decoupled Scale-wise Autoregressive Modeling for High-Quality Image Generation はコメントを受け付けていません
Mitigating Hallucination in Multimodal Large Language Model via Hallucination-targeted Direct Preference Optimization
要約 マルチモーダル大規模言語モデル (MLLM) は幻覚を起こすことが知られて … 続きを読む
LLaVA-o1: Let Vision Language Models Reason Step-by-Step
要約 OpenAI の o1 などのモデルに示されているように、大規模な言語モデ … 続きを読む
カテゴリー: cs.CV
LLaVA-o1: Let Vision Language Models Reason Step-by-Step はコメントを受け付けていません
Enhancing the Reasoning Ability of Multimodal Large Language Models via Mixed Preference Optimization
要約 既存のオープンソースのマルチモーダル大規模言語モデル (MLLM) は通常 … 続きを読む