-
最近の投稿
- CarbonFish — A Bistable Underactuated Compliant Fish Robot capable of High Frequency Undulation
- MoVEInt: Mixture of Variational Experts for Learning Human-Robot Interactions from Demonstrations
- Make the Pertinent Salient: Task-Relevant Reconstruction for Visual Control with Distractions
- REPeat: A Real2Sim2Real Approach for Pre-acquisition of Soft Food Items in Robot-assisted Feeding
- Input-to-State Stable Coupled Oscillator Networks for Closed-form Model-based Control in Latent Space
-
最近のコメント
表示できるコメントはありません。 cs.AI (28061) cs.CL (21198) cs.CR (2193) cs.CV (34733) cs.LG (32791) cs.RO (16124) cs.SY (2493) eess.IV (4241) eess.SY (2487) stat.ML (4395)
投稿者「jarxiv」のアーカイブ
ControlAR: Controllable Image Generation with Autoregressive Models
要約 自己回帰(AR)モデルは、画像生成をネクストトーク予測として再構築し、顕著 … 続きを読む
LLaVA-Critic: Learning to Evaluate Multimodal Models
要約 LLaVA-Criticを紹介する。LLaVA-Criticは、幅広いマル … 続きを読む
Video Instruction Tuning With Synthetic Data
要約 動画ラージ・マルチモーダルモデル(LMM)の開発は、ウェブから大量の高品質 … 続きを読む
AlzhiNet: Traversing from 2DCNN to 3DCNN, Towards Early Detection and Diagnosis of Alzheimer’s Disease
要約 アルツハイマー病(AD)は進行性の神経変性疾患であり、高齢化社会の中で有病 … 続きを読む
Autoregressive Pre-Training on Pixels and Texts
要約 視覚情報とテキスト情報の統合は、言語モデルの進歩において有望な方向性を示し … 続きを読む
DivScene: Benchmarking LVLMs for Object Navigation with Diverse Scenes and Objects
要約 未知の環境におけるオブジェクトナビゲーションは、実世界のアプリケーションに … 続きを読む
Towards Foundation Models and Few-Shot Parameter-Efficient Fine-Tuning for Volumetric Organ Segmentation
要約 近年、基礎モデルや、大規模モデルを下流のタスクに転送する事前学習と適応のパ … 続きを読む
Contrastive Localized Language-Image Pre-Training
要約 コントラスト言語画像事前学習(CLIP)は、様々なアプリケーションを促進す … 続きを読む
NVDS+: Towards Efficient and Versatile Neural Stabilizer for Video Depth Estimation
要約 映像の奥行き推定は、時間的に一貫した奥行きを推測することを目的としている。 … 続きを読む
Loong: Generating Minute-level Long Videos with Autoregressive Language Models
要約 分単位の長い動画を生成することは、望ましいが難しい。自己回帰型大規模言語モ … 続きを読む