月別アーカイブ: 2024年8月

SLAM for Visually Impaired People: a Survey

要約 ここ数十年で、視覚障害者 (BVI) が自立して安全に移動する能力を向上さ … 続きを読む

カテゴリー: cs.CV | SLAM for Visually Impaired People: a Survey はコメントを受け付けていません

PFDiff: Training-free Acceleration of Diffusion Models through the Gradient Guidance of Past and Future

要約 拡散確率モデル (DPM) は画像生成において顕著な可能性を示していますが … 続きを読む

カテゴリー: cs.CV | PFDiff: Training-free Acceleration of Diffusion Models through the Gradient Guidance of Past and Future はコメントを受け付けていません

RGBT Tracking via All-layer Multimodal Interactions with Progressive Fusion Mamba

要約 既存の RGBT 追跡手法は、多くの場合、各レイヤーのクロスモーダル融合を … 続きを読む

カテゴリー: cs.CV | RGBT Tracking via All-layer Multimodal Interactions with Progressive Fusion Mamba はコメントを受け付けていません

ChemVLM: Exploring the Power of Multimodal Large Language Models in Chemistry Area

要約 大規模言語モデル (LLM) は目覚ましい成功を収め、化学を含むさまざまな … 続きを読む

カテゴリー: cs.CV, cs.LG | ChemVLM: Exploring the Power of Multimodal Large Language Models in Chemistry Area はコメントを受け付けていません

DopQ-ViT: Towards Distribution-Friendly and Outlier-Aware Post-Training Quantization for Vision Transformers

要約 ビジョン トランスフォーマー (ViT) は、ビジョン タスクにおけるパフ … 続きを読む

カテゴリー: cs.CV | DopQ-ViT: Towards Distribution-Friendly and Outlier-Aware Post-Training Quantization for Vision Transformers はコメントを受け付けていません

DivCon: Divide and Conquer for Progressive Text-to-Image Generation

要約 拡散によるテキストから画像への (T2I) 生成は、目覚ましい進歩を遂げま … 続きを読む

カテゴリー: cs.CV | DivCon: Divide and Conquer for Progressive Text-to-Image Generation はコメントを受け付けていません

HistoGym: A Reinforcement Learning Environment for Histopathological Image Analysis

要約 病理学の研究、教育、臨床においては、病理画像に基づく意思決定プロセスが非常 … 続きを読む

カテゴリー: cs.CV, cs.LG, eess.IV | HistoGym: A Reinforcement Learning Environment for Histopathological Image Analysis はコメントを受け付けていません

DPA: Dual Prototypes Alignment for Unsupervised Adaptation of Vision-Language Models

要約 CLIP などの視覚言語モデル (VLM) は、ゼロショット画像分類におい … 続きを読む

カテゴリー: cs.CV | DPA: Dual Prototypes Alignment for Unsupervised Adaptation of Vision-Language Models はコメントを受け付けていません

SAM2-UNet: Segment Anything 2 Makes Strong Encoder for Natural and Medical Image Segmentation

要約 画像のセグメンテーションは視覚の理解において重要な役割を果たします。 最近 … 続きを読む

カテゴリー: cs.CV | SAM2-UNet: Segment Anything 2 Makes Strong Encoder for Natural and Medical Image Segmentation はコメントを受け付けていません

xGen-MM (BLIP-3): A Family of Open Large Multimodal Models

要約 このレポートでは、大規模マルチモーダル モデル (LMM) を開発するため … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | xGen-MM (BLIP-3): A Family of Open Large Multimodal Models はコメントを受け付けていません