-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
投稿者「jarxiv」のアーカイブ
Relative Pose Estimation through Affine Corrections of Monocular Depth Priors
要約 単眼深度推定(MDE)モデルは、近年、大きな進歩を遂げています。 多くのM … 続きを読む
カテゴリー: cs.CV
Relative Pose Estimation through Affine Corrections of Monocular Depth Priors はコメントを受け付けていません
Building Blocks for Robust and Effective Semi-Supervised Real-World Object Detection
要約 擬似標識に基づく半監視オブジェクト検出(SSOD)は、ラベル付きデータと非 … 続きを読む
Zero-Shot Styled Text Image Generation, but Make It Autoregressive
要約 スタイルの手書きのテキスト生成(HTG)は最近、コンピュータービジョンおよ … 続きを読む
カテゴリー: cs.CV
Zero-Shot Styled Text Image Generation, but Make It Autoregressive はコメントを受け付けていません
Video SimpleQA: Towards Factuality Evaluation in Large Video Language Models
要約 大規模なビデオ言語モデル(LVLMS)の最近の進歩は、マルチモーダルの理解 … 続きを読む
カテゴリー: cs.CV
Video SimpleQA: Towards Factuality Evaluation in Large Video Language Models はコメントを受け付けていません
GroundCap: A Visually Grounded Image Captioning Dataset
要約 現在の画像キャプションシステムには、説明テキストを特定の視覚要素にリンクす … 続きを読む
CoMP: Continual Multimodal Pre-training for Vision Foundation Models
要約 事前に訓練されたVision Foundationモデル(VFM)は、幅広 … 続きを読む
カテゴリー: cs.CV
CoMP: Continual Multimodal Pre-training for Vision Foundation Models はコメントを受け付けていません
SyncVP: Joint Diffusion for Synchronous Multi-Modal Video Prediction
要約 将来のビデオフレームを予測することは意思決定システムに不可欠ですが、RGB … 続きを読む
カテゴリー: cs.CV
SyncVP: Joint Diffusion for Synchronous Multi-Modal Video Prediction はコメントを受け付けていません
AdaWorld: Learning Adaptable World Models with Latent Actions
要約 世界モデルは、アクション制御された予測モデルを学ぶことを目指しており、イン … 続きを読む
Training-free Diffusion Acceleration with Bottleneck Sampling
要約 拡散モデルは、視覚コンテンツの生成において顕著な機能を実証していますが、推 … 続きを読む
カテゴリー: cs.CV
Training-free Diffusion Acceleration with Bottleneck Sampling はコメントを受け付けていません
Video-T1: Test-Time Scaling for Video Generation
要約 トレーニングデータ、モデルサイズ、および計算コストの増加のスケール機能によ … 続きを読む