cs.CV」カテゴリーアーカイブ

Generation of synthetic gait data: application to multiple sclerosis patients’ gait patterns

要約 多発性硬化症(MS)は、若年成人における重度の非外傷性障害の主な原因であり … 続きを読む

カテゴリー: cs.CV, stat.AP | Generation of synthetic gait data: application to multiple sclerosis patients’ gait patterns はコメントを受け付けていません

Deep Learning for Micro-Scale Crack Detection on Imbalanced Datasets Using Key Point Localization

要約 内部亀裂の検出は、構造健全性モニタリングの焦点となっています。 構造データ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Deep Learning for Micro-Scale Crack Detection on Imbalanced Datasets Using Key Point Localization はコメントを受け付けていません

On the Foundation Model for Cardiac MRI Reconstruction

要約 近年、機械学習 (ML) ベースの再構成が広く研究され、心臓磁気共鳴 (C … 続きを読む

カテゴリー: cs.CV, eess.IV | On the Foundation Model for Cardiac MRI Reconstruction はコメントを受け付けていません

Repurposing Stable Diffusion Attention for Training-Free Unsupervised Interactive Segmentation

要約 インタラクティブなポイント プロンプト ベースの画像セグメンテーションの最 … 続きを読む

カテゴリー: cs.AI, cs.CV | Repurposing Stable Diffusion Attention for Training-Free Unsupervised Interactive Segmentation はコメントを受け付けていません

Llama Guard 3 Vision: Safeguarding Human-AI Image Understanding Conversations

要約 画像理解を伴う人間と AI の会話のためのマルチモーダル LLM ベースの … 続きを読む

カテゴリー: cs.CL, cs.CV | Llama Guard 3 Vision: Safeguarding Human-AI Image Understanding Conversations はコメントを受け付けていません

Treat Visual Tokens as Text? But Your MLLM Only Needs Fewer Efforts to See

要約 マルチモーダル大規模言語モデル (MLLM) は、ビジュアル エンコーダか … 続きを読む

カテゴリー: cs.CV | Treat Visual Tokens as Text? But Your MLLM Only Needs Fewer Efforts to See はコメントを受け付けていません

M-VAR: Decoupled Scale-wise Autoregressive Modeling for High-Quality Image Generation

要約 コンピューター ビジョンには、画像生成のための新しい自己回帰パラダイムを提 … 続きを読む

カテゴリー: cs.CV | M-VAR: Decoupled Scale-wise Autoregressive Modeling for High-Quality Image Generation はコメントを受け付けていません

Mitigating Hallucination in Multimodal Large Language Model via Hallucination-targeted Direct Preference Optimization

要約 マルチモーダル大規模言語モデル (MLLM) は幻覚を起こすことが知られて … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | Mitigating Hallucination in Multimodal Large Language Model via Hallucination-targeted Direct Preference Optimization はコメントを受け付けていません

LLaVA-o1: Let Vision Language Models Reason Step-by-Step

要約 OpenAI の o1 などのモデルに示されているように、大規模な言語モデ … 続きを読む

カテゴリー: cs.CV | LLaVA-o1: Let Vision Language Models Reason Step-by-Step はコメントを受け付けていません

Enhancing the Reasoning Ability of Multimodal Large Language Models via Mixed Preference Optimization

要約 既存のオープンソースのマルチモーダル大規模言語モデル (MLLM) は通常 … 続きを読む

カテゴリー: cs.CL, cs.CV | Enhancing the Reasoning Ability of Multimodal Large Language Models via Mixed Preference Optimization はコメントを受け付けていません