投稿者「jarxiv」のアーカイブ

Sampling Theory for Super-Resolution with Implicit Neural Representations

投稿日: 2025年6月12日作成者: jarxiv

要約暗黙の神経表現（INR）は、コンピュータービジョンと計算イメージングにおけ … 続きを読む →

カテゴリー: cs.CV, eess.IV | コメントを受け付けていません

UniPre3D: Unified Pre-training of 3D Point Cloud Models with Cross-Modal Gaussian Splatting

投稿日: 2025年6月12日作成者: jarxiv

要約ポイントクラウドデータのスケールの多様性は、3Dビジョンのための統一された … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Outside Knowledge Conversational Video (OKCV) Dataset — Dialoguing over Videos

投稿日: 2025年6月12日作成者: jarxiv

要約外部の知識視覚的質問（OK-VQA）では、モデルは画像内に関連する視覚情報 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV | コメントを受け付けていません

Vision Generalist Model: A Survey

投稿日: 2025年6月12日作成者: jarxiv

要約最近、私たちは自然言語加工におけるジェネラリストモデルの大成功を目撃しまし … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Canonical Latent Representations in Conditional Diffusion Models

投稿日: 2025年6月12日作成者: jarxiv

要約条件付き拡散モデル（CDM）は、さまざまな生成タスクで印象的なパフォーマン … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

Kvasir-VQA-x1: A Multimodal Dataset for Medical Reasoning and Robust MedVQA in Gastrointestinal Endoscopy

投稿日: 2025年6月12日作成者: jarxiv

要約医学的視覚的質問応答（MEDVQA）は、臨床的意思決定支援システムを開発す … 続きを読む →

カテゴリー: 68T45, 92C55, cs.CV, cs.LG, I.2.10 | コメントを受け付けていません

Reinforcing Spatial Reasoning in Vision-Language Models with Interwoven Thinking and Visual Drawing

投稿日: 2025年6月12日作成者: jarxiv

要約大規模な言語モデル（LLMS）を使用したテキストの推論が大幅に進歩している … 続きを読む →

カテゴリー: cs.AI, cs.CV, I.2 | コメントを受け付けていません

TerraMind: Large-Scale Generative Multimodality for Earth Observation

投稿日: 2025年6月12日作成者: jarxiv

要約地球観測のための最初の生成的なマルチモーダル基礎モデル（EO）であるTer … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

HRTR: A Single-stage Transformer for Fine-grained Sub-second Action Segmentation in Stroke Rehabilitation

投稿日: 2025年6月12日作成者: jarxiv

要約脳卒中のリハビリテーションでは、多くの場合、患者の動きを正確に追跡して進歩 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Vectorized Region Based Brush Strokes for Artistic Rendering

投稿日: 2025年6月12日作成者: jarxiv

要約視覚アートワークのストロークバイストローク進化プロセスの作成は、完成した静 … 続きを読む →

カテゴリー: cs.CV, I.3.3 | コメントを受け付けていません

投稿者「jarxiv」のアーカイブ

Sampling Theory for Super-Resolution with Implicit Neural Representations

UniPre3D: Unified Pre-training of 3D Point Cloud Models with Cross-Modal Gaussian Splatting

Outside Knowledge Conversational Video (OKCV) Dataset — Dialoguing over Videos

Vision Generalist Model: A Survey

Canonical Latent Representations in Conditional Diffusion Models

Kvasir-VQA-x1: A Multimodal Dataset for Medical Reasoning and Robust MedVQA in Gastrointestinal Endoscopy

Reinforcing Spatial Reasoning in Vision-Language Models with Interwoven Thinking and Visual Drawing

TerraMind: Large-Scale Generative Multimodality for Earth Observation

HRTR: A Single-stage Transformer for Fine-grained Sub-second Action Segmentation in Stroke Rehabilitation

Vectorized Region Based Brush Strokes for Artistic Rendering

最近の投稿

最近のコメント

アーカイブ

カテゴリー