-
最近の投稿
- Open-Vocabulary Action Localization with Iterative Visual Prompting
- Patterned Structure Muscle : Arbitrary Shaped Wire-driven Artificial Muscle Utilizing Anisotropic Flexible Structure for Musculoskeletal Robots
- The Power of Input: Benchmarking Zero-Shot Sim-To-Real Transfer of Reinforcement Learning Control Policies for Quadrotor Control
- PokeFlex: A Real-World Dataset of Deformable Objects for Robotics
- Toward a Better Understanding of Robot Energy Consumption in Agroecological Applications
-
最近のコメント
表示できるコメントはありません。 cs.AI (27918) cs.CL (21095) cs.CR (2183) cs.CV (34618) cs.LG (32650) cs.RO (16022) cs.SY (2484) eess.IV (4238) eess.SY (2478) stat.ML (4372)
投稿者「jarxiv」のアーカイブ
Autoregressive Pre-Training on Pixels and Texts
要約 視覚情報とテキスト情報の統合は、言語モデルの進歩において有望な方向性を示し … 続きを読む
DivScene: Benchmarking LVLMs for Object Navigation with Diverse Scenes and Objects
要約 未知の環境におけるオブジェクトナビゲーションは、実世界のアプリケーションに … 続きを読む
Towards Foundation Models and Few-Shot Parameter-Efficient Fine-Tuning for Volumetric Organ Segmentation
要約 近年、基礎モデルや、大規模モデルを下流のタスクに転送する事前学習と適応のパ … 続きを読む
Contrastive Localized Language-Image Pre-Training
要約 コントラスト言語画像事前学習(CLIP)は、様々なアプリケーションを促進す … 続きを読む
NVDS+: Towards Efficient and Versatile Neural Stabilizer for Video Depth Estimation
要約 映像の奥行き推定は、時間的に一貫した奥行きを推測することを目的としている。 … 続きを読む
Loong: Generating Minute-level Long Videos with Autoregressive Language Models
要約 分単位の長い動画を生成することは、望ましいが難しい。自己回帰型大規模言語モ … 続きを読む
Interpreting and Editing Vision-Language Representations to Mitigate Hallucinations
要約 我々は、視覚言語モデル(VLM)の内部表現を調査し、モデルサイズとトレーニ … 続きを読む
Flash-Splat: 3D Reflection Removal with Flash Cues and Gaussian Splats
要約 透過光と反射光を分離するための、シンプルで効果的なアプローチを紹介する。我 … 続きを読む
Achieving Fairness in Predictive Process Analytics via Adversarial Learning
要約 ビジネスプロセスの予測分析は、組織にとって重要なものとなっており、プロセス … 続きを読む