「cs.CV」カテゴリーアーカイブ

Visual Prompt Engineering for Medical Vision Language Models in Radiology

投稿日: 2024年8月29日作成者: jarxiv

要約放射線医学における医療画像の分類は、特に目に見えない病理を一般化する際に、 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Object Detection for Vehicle Dashcams using Transformers

投稿日: 2024年8月29日作成者: jarxiv

要約インテリジェントオートメーションはドライバーや車両管理会社を支援し、生産性 … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Multi-view Pose Fusion for Occlusion-Aware 3D Human Pose Estimation

投稿日: 2024年8月29日作成者: jarxiv

要約人間とロボットの安全かつ効果的なコラボレーションを確保するには、堅牢な 3 … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

DQFormer: Towards Unified LiDAR Panoptic Segmentation with Decoupled Queries

投稿日: 2024年8月29日作成者: jarxiv

要約 LiDAR パノプティックセグメンテーションは、物やもののクラスのインス … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Mining Field Data for Tree Species Recognition at Scale

投稿日: 2024年8月29日作成者: jarxiv

要約個々の樹種のラベルは、必要な専門知識と写真判読の限界により、取得することが … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

u-LLaVA: Unifying Multi-Modal Tasks via Large Language Model

投稿日: 2024年8月29日作成者: jarxiv

要約マルチモーダル大規模言語モデル (MLLM) の最近の進歩により、主に洗練 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Benchmarking foundation models as feature extractors for weakly-supervised computational pathology

投稿日: 2024年8月29日作成者: jarxiv

要約人工知能の進歩により、臨床関連情報を抽出できる多数の病理学基礎モデルの開発 … 続きを読む →

カテゴリー: cs.CV, eess.IV | コメントを受け付けていません

SITransformer: Shared Information-Guided Transformer for Extreme Multimodal Summarization

投稿日: 2024年8月29日作成者: jarxiv

要約 Extreme Multimodal Summarization with … 続きを読む →

カテゴリー: cs.CV, I.2.10 | コメントを受け付けていません

Network transferability of adversarial patches in real-time object detection

投稿日: 2024年8月29日作成者: jarxiv

要約コンピュータービジョンの敵対的パッチを使用すると、ディープニューラル … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Shot Segmentation Based on Von Neumann Entropy for Key Frame Extraction

投稿日: 2024年8月29日作成者: jarxiv

要約ビデオのキーフレーム抽出は、ビデオの要約、検索、圧縮などのさまざまな分野で … 続きを読む →

カテゴリー: cs.CV, cs.IT, math.IT | コメントを受け付けていません

「cs.CV」カテゴリーアーカイブ

Visual Prompt Engineering for Medical Vision Language Models in Radiology

Object Detection for Vehicle Dashcams using Transformers

Multi-view Pose Fusion for Occlusion-Aware 3D Human Pose Estimation

DQFormer: Towards Unified LiDAR Panoptic Segmentation with Decoupled Queries

Mining Field Data for Tree Species Recognition at Scale

u-LLaVA: Unifying Multi-Modal Tasks via Large Language Model

Benchmarking foundation models as feature extractors for weakly-supervised computational pathology

SITransformer: Shared Information-Guided Transformer for Extreme Multimodal Summarization

Network transferability of adversarial patches in real-time object detection

Shot Segmentation Based on Von Neumann Entropy for Key Frame Extraction

最近の投稿

最近のコメント

アーカイブ

カテゴリー