-
最近の投稿
- Open-Vocabulary Action Localization with Iterative Visual Prompting
- Patterned Structure Muscle : Arbitrary Shaped Wire-driven Artificial Muscle Utilizing Anisotropic Flexible Structure for Musculoskeletal Robots
- The Power of Input: Benchmarking Zero-Shot Sim-To-Real Transfer of Reinforcement Learning Control Policies for Quadrotor Control
- PokeFlex: A Real-World Dataset of Deformable Objects for Robotics
- Toward a Better Understanding of Robot Energy Consumption in Agroecological Applications
-
最近のコメント
表示できるコメントはありません。 cs.AI (27918) cs.CL (21095) cs.CR (2183) cs.CV (34618) cs.LG (32650) cs.RO (16022) cs.SY (2484) eess.IV (4238) eess.SY (2478) stat.ML (4372)
投稿者「jarxiv」のアーカイブ
Unraveling the Truth: Do VLMs really Understand Charts? A Deep Dive into Consistency and Robustness
要約 図表質問応答(CQA)は、視覚言語理解の重要な分野である。しかし、この分野 … 続きを読む
AID: Attention Interpolation of Text-to-Image Diffusion
要約 条件拡散モデルは、様々な環境において未見の画像を作成し、画像補間を支援する … 続きを読む
HyperCMR: Enhanced Multi-Contrast CMR Reconstruction with Eagle Loss
要約 心臓磁気共鳴画像法(CMRI)の画像取得を高速化することは重要な課題である … 続きを読む
Scattering Spectra Models for Physics
要約 物理学者は、パラメータ推論や場の新しい実像の生成など、多くの作業において確 … 続きを読む
カテゴリー: astro-ph.IM, cs.CV, cs.LG, physics.data-an
コメントする
Unlearnable 3D Point Clouds: Class-wise Transformation Is All You Need
要約 従来の学習不可能な戦略は、2D画像データに対する不正ユーザーの学習を防止す … 続きを読む
GenSim2: Scaling Robot Data Generation with Multi-modal and Reasoning LLMs
要約 今日のロボットシミュレーションは、多様なシミュレーションタスクとシーンを作 … 続きを読む
DiffusionPID: Interpreting Diffusion via Partial Information Decomposition
要約 テキストから画像への拡散モデルは、テキスト入力から自然な画像を生成する上で … 続きを読む
Unraveling Cross-Modality Knowledge Conflict in Large Vision-Language Models
要約 大規模視覚言語モデル(LVLM)は、マルチモーダル入力をキャプチャし、推論 … 続きを読む
Estimating Body and Hand Motion in an Ego-sensed World
要約 我々は、ヘッドマウントデバイスから人間の動きを推定するシステムEgoAll … 続きを読む
Learning 3D Perception from Others’ Predictions
要約 実世界環境における正確な3D物体検出には、高品質で膨大な量のアノテーション … 続きを読む