cs.CV」カテゴリーアーカイブ

Zero-Shot Prompting and Few-Shot Fine-Tuning: Revisiting Document Image Classification Using Large Language Models

要約 スキャンした文書の分類は、文書を理解するための画像、レイアウト、テキストの … 続きを読む

カテゴリー: cs.CV | Zero-Shot Prompting and Few-Shot Fine-Tuning: Revisiting Document Image Classification Using Large Language Models はコメントを受け付けていません

Sharing Key Semantics in Transformer Makes Efficient Image Restoration

要約 古典的な低レベル視覚タスクである画像復元 (IR) は、グローバル情報を効 … 続きを読む

カテゴリー: cs.CV | Sharing Key Semantics in Transformer Makes Efficient Image Restoration はコメントを受け付けていません

LLaVA-UHD v2: an MLLM Integrating High-Resolution Feature Pyramid via Hierarchical Window Transformer

要約 マルチモーダル大規模言語モデル (MLLM) では、ビジュアル エンコーデ … 続きを読む

カテゴリー: cs.CV | LLaVA-UHD v2: an MLLM Integrating High-Resolution Feature Pyramid via Hierarchical Window Transformer はコメントを受け付けていません

Denoising Nearest Neighbor Graph via Continuous CRF for Visual Re-ranking without Fine-tuning

要約 最近傍グラフ (NN グラフ) を使用した視覚的な再ランキングは、高次元多 … 続きを読む

カテゴリー: cs.CV | Denoising Nearest Neighbor Graph via Continuous CRF for Visual Re-ranking without Fine-tuning はコメントを受け付けていません

Navigating limitations with precision: A fine-grained ensemble approach to wrist pathology recognition on a limited x-ray dataset

要約 手首骨折の自動認識の探求は、近年かなりの研究注目を集めています。 実際の医 … 続きを読む

カテゴリー: cs.CV | Navigating limitations with precision: A fine-grained ensemble approach to wrist pathology recognition on a limited x-ray dataset はコメントを受け付けていません

Data-Efficient Inference of Neural Fluid Fields via SciML Foundation Model

要約 3D ビジョンの最近の発展により、神経流体場の推論と流体力学の現実的なレン … 続きを読む

カテゴリー: cs.CV, cs.LG | Data-Efficient Inference of Neural Fluid Fields via SciML Foundation Model はコメントを受け付けていません

Towards Deployable OCR models for Indic languages

要約 サブワード分割を必要とせずに単語または行画像上のテキストを認識することが、 … 続きを読む

カテゴリー: cs.CL, cs.CV | Towards Deployable OCR models for Indic languages はコメントを受け付けていません

Memorizing SAM: 3D Medical Segment Anything Model with Memorizing Transformer

要約 Segment Anything Model (SAM) は、適切なユーザ … 続きを読む

カテゴリー: cs.CV | Memorizing SAM: 3D Medical Segment Anything Model with Memorizing Transformer はコメントを受け付けていません

A Black-Box Evaluation Framework for Semantic Robustness in Bird’s Eye View Detection

要約 カメラベースの鳥瞰図 (BEV) 認識モデルは、深層学習の堅牢性と信頼性に … 続きを読む

カテゴリー: cs.CV | A Black-Box Evaluation Framework for Semantic Robustness in Bird’s Eye View Detection はコメントを受け付けていません

Retrieval Augmented Image Harmonization

要約 画像(背景)にオブジェクト(前景)を埋め込む場合、通常、照明などの撮影条件 … 続きを読む

カテゴリー: cs.CV | Retrieval Augmented Image Harmonization はコメントを受け付けていません