「cs.CV」カテゴリーアーカイブ

Zero-Shot Prompting and Few-Shot Fine-Tuning: Revisiting Document Image Classification Using Large Language Models

投稿日: 2024年12月19日作成者: jarxiv

要約スキャンした文書の分類は、文書を理解するための画像、レイアウト、テキストの … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Sharing Key Semantics in Transformer Makes Efficient Image Restoration

投稿日: 2024年12月19日作成者: jarxiv

要約古典的な低レベル視覚タスクである画像復元 (IR) は、グローバル情報を効 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

LLaVA-UHD v2: an MLLM Integrating High-Resolution Feature Pyramid via Hierarchical Window Transformer

投稿日: 2024年12月19日作成者: jarxiv

要約マルチモーダル大規模言語モデル (MLLM) では、ビジュアルエンコーデ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Denoising Nearest Neighbor Graph via Continuous CRF for Visual Re-ranking without Fine-tuning

投稿日: 2024年12月19日作成者: jarxiv

要約最近傍グラフ (NN グラフ) を使用した視覚的な再ランキングは、高次元多 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Navigating limitations with precision: A fine-grained ensemble approach to wrist pathology recognition on a limited x-ray dataset

投稿日: 2024年12月19日作成者: jarxiv

要約手首骨折の自動認識の探求は、近年かなりの研究注目を集めています。実際の医 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Data-Efficient Inference of Neural Fluid Fields via SciML Foundation Model

投稿日: 2024年12月19日作成者: jarxiv

要約 3D ビジョンの最近の発展により、神経流体場の推論と流体力学の現実的なレン … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

Towards Deployable OCR models for Indic languages

投稿日: 2024年12月19日作成者: jarxiv

要約サブワード分割を必要とせずに単語または行画像上のテキストを認識することが、 … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

Memorizing SAM: 3D Medical Segment Anything Model with Memorizing Transformer

投稿日: 2024年12月19日作成者: jarxiv

要約 Segment Anything Model (SAM) は、適切なユーザ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

A Black-Box Evaluation Framework for Semantic Robustness in Bird’s Eye View Detection

投稿日: 2024年12月19日作成者: jarxiv

要約カメラベースの鳥瞰図 (BEV) 認識モデルは、深層学習の堅牢性と信頼性に … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Retrieval Augmented Image Harmonization

投稿日: 2024年12月19日作成者: jarxiv

要約画像（背景）にオブジェクト（前景）を埋め込む場合、通常、照明などの撮影条件 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

「cs.CV」カテゴリーアーカイブ

Zero-Shot Prompting and Few-Shot Fine-Tuning: Revisiting Document Image Classification Using Large Language Models

Sharing Key Semantics in Transformer Makes Efficient Image Restoration

LLaVA-UHD v2: an MLLM Integrating High-Resolution Feature Pyramid via Hierarchical Window Transformer

Denoising Nearest Neighbor Graph via Continuous CRF for Visual Re-ranking without Fine-tuning

Navigating limitations with precision: A fine-grained ensemble approach to wrist pathology recognition on a limited x-ray dataset

Data-Efficient Inference of Neural Fluid Fields via SciML Foundation Model

Towards Deployable OCR models for Indic languages

Memorizing SAM: 3D Medical Segment Anything Model with Memorizing Transformer

A Black-Box Evaluation Framework for Semantic Robustness in Bird’s Eye View Detection

Retrieval Augmented Image Harmonization

最近の投稿

最近のコメント

アーカイブ

カテゴリー