cs.CV」カテゴリーアーカイブ

LongHalQA: Long-Context Hallucination Evaluation for MultiModal Large Language Models

要約 幻覚は、マルチモーダル大規模言語モデル (MLLM) が、もっともらしいが … 続きを読む

カテゴリー: cs.CV | LongHalQA: Long-Context Hallucination Evaluation for MultiModal Large Language Models はコメントを受け付けていません

POLO — Point-based, multi-class animal detection

要約 ドローン画像と物体検出技術に基づく自動化された野生動物調査は、保全生物学に … 続きを読む

カテゴリー: cs.CV | POLO — Point-based, multi-class animal detection はコメントを受け付けていません

Latent Action Pretraining from Videos

要約 グランドトゥルースのロボットアクションラベルを使用せずに視覚言語アクション … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.LG, cs.RO | Latent Action Pretraining from Videos はコメントを受け付けていません

Augmentation-aware Self-supervised Learning with Conditioned Projector

要約 自己教師あり学習 (SSL) は、ラベルのないデータから学習するための強力 … 続きを読む

カテゴリー: cs.CV, cs.LG | Augmentation-aware Self-supervised Learning with Conditioned Projector はコメントを受け付けていません

SlideChat: A Large Vision-Language Assistant for Whole-Slide Pathology Image Understanding

要約 計算病理学におけるマルチモーダル大規模言語モデル (MLLM) の進歩にも … 続きを読む

カテゴリー: cs.AI, cs.CV | SlideChat: A Large Vision-Language Assistant for Whole-Slide Pathology Image Understanding はコメントを受け付けていません

DPD-NeuralEngine: A 22-nm 6.6-TOPS/W/mm$^2$ Recurrent Neural Network Accelerator for Wideband Power Amplifier Digital Pre-Distortion

要約 最新の通信システムではディープ ニューラル ネットワーク (DNN) ベー … 続きを読む

カテゴリー: cs.AI, cs.AR, cs.CV | DPD-NeuralEngine: A 22-nm 6.6-TOPS/W/mm$^2$ Recurrent Neural Network Accelerator for Wideband Power Amplifier Digital Pre-Distortion はコメントを受け付けていません

U-MedSAM: Uncertainty-aware MedSAM for Medical Image Segmentation

要約 Medical Image Foundation Model は、さまざま … 続きを読む

カテゴリー: cs.AI, cs.CV, eess.IV | U-MedSAM: Uncertainty-aware MedSAM for Medical Image Segmentation はコメントを受け付けていません

Fractal Calibration for long-tailed object detection

要約 現実世界のデータセットは不均衡な分布に従っており、これが希少カテゴリのオブ … 続きを読む

カテゴリー: cs.CV | Fractal Calibration for long-tailed object detection はコメントを受け付けていません

MLLM can see? Dynamic Correction Decoding for Hallucination Mitigation

要約 マルチモーダル大規模言語モデル (MLLM) は頻繁に幻覚現象を示しますが … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | MLLM can see? Dynamic Correction Decoding for Hallucination Mitigation はコメントを受け付けていません

Latent BKI: Open-Dictionary Continuous Mapping in Visual-Language Latent Spaces with Quantifiable Uncertainty

要約 この論文では、定量化可能な不確実性を備えたオープン語彙マッピングを可能にす … 続きを読む

カテゴリー: cs.CV, cs.RO | Latent BKI: Open-Dictionary Continuous Mapping in Visual-Language Latent Spaces with Quantifiable Uncertainty はコメントを受け付けていません