「cs.CV」カテゴリーアーカイブ

LongHalQA: Long-Context Hallucination Evaluation for MultiModal Large Language Models

投稿日: 2024年10月16日作成者: jarxiv

要約幻覚は、マルチモーダル大規模言語モデル (MLLM) が、もっともらしいが … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

POLO — Point-based, multi-class animal detection

投稿日: 2024年10月16日作成者: jarxiv

要約ドローン画像と物体検出技術に基づく自動化された野生動物調査は、保全生物学に … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Latent Action Pretraining from Videos

投稿日: 2024年10月16日作成者: jarxiv

要約グランドトゥルースのロボットアクションラベルを使用せずに視覚言語アクション … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.LG, cs.RO | コメントを受け付けていません

Augmentation-aware Self-supervised Learning with Conditioned Projector

投稿日: 2024年10月16日作成者: jarxiv

要約自己教師あり学習 (SSL) は、ラベルのないデータから学習するための強力 … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

SlideChat: A Large Vision-Language Assistant for Whole-Slide Pathology Image Understanding

投稿日: 2024年10月16日作成者: jarxiv

要約計算病理学におけるマルチモーダル大規模言語モデル (MLLM) の進歩にも … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

DPD-NeuralEngine: A 22-nm 6.6-TOPS/W/mm$^2$ Recurrent Neural Network Accelerator for Wideband Power Amplifier Digital Pre-Distortion

投稿日: 2024年10月16日作成者: jarxiv

要約最新の通信システムではディープニューラルネットワーク (DNN) ベー … 続きを読む →

カテゴリー: cs.AI, cs.AR, cs.CV | コメントを受け付けていません

U-MedSAM: Uncertainty-aware MedSAM for Medical Image Segmentation

投稿日: 2024年10月16日作成者: jarxiv

要約 Medical Image Foundation Model は、さまざま … 続きを読む →

カテゴリー: cs.AI, cs.CV, eess.IV | コメントを受け付けていません

Fractal Calibration for long-tailed object detection

投稿日: 2024年10月16日作成者: jarxiv

要約現実世界のデータセットは不均衡な分布に従っており、これが希少カテゴリのオブ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

MLLM can see? Dynamic Correction Decoding for Hallucination Mitigation

投稿日: 2024年10月16日作成者: jarxiv

要約マルチモーダル大規模言語モデル (MLLM) は頻繁に幻覚現象を示しますが … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | コメントを受け付けていません

Latent BKI: Open-Dictionary Continuous Mapping in Visual-Language Latent Spaces with Quantifiable Uncertainty

投稿日: 2024年10月16日作成者: jarxiv

要約この論文では、定量化可能な不確実性を備えたオープン語彙マッピングを可能にす … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

「cs.CV」カテゴリーアーカイブ

LongHalQA: Long-Context Hallucination Evaluation for MultiModal Large Language Models

POLO — Point-based, multi-class animal detection

Latent Action Pretraining from Videos

Augmentation-aware Self-supervised Learning with Conditioned Projector

SlideChat: A Large Vision-Language Assistant for Whole-Slide Pathology Image Understanding

DPD-NeuralEngine: A 22-nm 6.6-TOPS/W/mm$^2$ Recurrent Neural Network Accelerator for Wideband Power Amplifier Digital Pre-Distortion

U-MedSAM: Uncertainty-aware MedSAM for Medical Image Segmentation

Fractal Calibration for long-tailed object detection

MLLM can see? Dynamic Correction Decoding for Hallucination Mitigation

Latent BKI: Open-Dictionary Continuous Mapping in Visual-Language Latent Spaces with Quantifiable Uncertainty

最近の投稿

最近のコメント

アーカイブ

カテゴリー