-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
投稿者「jarxiv」のアーカイブ
Sampling Theory for Super-Resolution with Implicit Neural Representations
要約 暗黙の神経表現(INR)は、コンピュータービジョンと計算イメージングにおけ … 続きを読む
UniPre3D: Unified Pre-training of 3D Point Cloud Models with Cross-Modal Gaussian Splatting
要約 ポイントクラウドデータのスケールの多様性は、3Dビジョンのための統一された … 続きを読む
Outside Knowledge Conversational Video (OKCV) Dataset — Dialoguing over Videos
要約 外部の知識視覚的質問(OK-VQA)では、モデルは画像内に関連する視覚情報 … 続きを読む
Vision Generalist Model: A Survey
要約 最近、私たちは自然言語加工におけるジェネラリストモデルの大成功を目撃しまし … 続きを読む
Canonical Latent Representations in Conditional Diffusion Models
要約 条件付き拡散モデル(CDM)は、さまざまな生成タスクで印象的なパフォーマン … 続きを読む
Kvasir-VQA-x1: A Multimodal Dataset for Medical Reasoning and Robust MedVQA in Gastrointestinal Endoscopy
要約 医学的視覚的質問応答(MEDVQA)は、臨床的意思決定支援システムを開発す … 続きを読む
Reinforcing Spatial Reasoning in Vision-Language Models with Interwoven Thinking and Visual Drawing
要約 大規模な言語モデル(LLMS)を使用したテキストの推論が大幅に進歩している … 続きを読む
TerraMind: Large-Scale Generative Multimodality for Earth Observation
要約 地球観測のための最初の生成的なマルチモーダル基礎モデル(EO)であるTer … 続きを読む
HRTR: A Single-stage Transformer for Fine-grained Sub-second Action Segmentation in Stroke Rehabilitation
要約 脳卒中のリハビリテーションでは、多くの場合、患者の動きを正確に追跡して進歩 … 続きを読む
カテゴリー: cs.CV
HRTR: A Single-stage Transformer for Fine-grained Sub-second Action Segmentation in Stroke Rehabilitation はコメントを受け付けていません
Vectorized Region Based Brush Strokes for Artistic Rendering
要約 視覚アートワークのストロークバイストローク進化プロセスの作成は、完成した静 … 続きを読む