-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
投稿者「jarxiv」のアーカイブ
Automated Generation of Challenging Multiple-Choice Questions for Vision Language Model Evaluation
要約 ビジョン言語モデル(VLMS)の迅速な発展には、厳密で信頼できる評価が必要 … 続きを読む
Beyond the Hype: A dispassionate look at vision-language models in medical scenario
要約 大規模な視覚言語モデル(LVLMS)の最近の進歩は、多様なタスク全体で顕著 … 続きを読む
Kaleidoscope: In-language Exams for Massively Multilingual Vision Evaluation
要約 ビジョン言語モデル(VLMS)の評価は、主に英語のベンチマークに依存してお … 続きを読む
LUDO: Low-Latency Understanding of Deformable Objects using Point Cloud Occupancy Functions
要約 オブジェクトの形状と変形可能なオブジェクト内の内部構造の位置を正確に決定す … 続きを読む
Detecting AI-generated Artwork
要約 人工知能(AI)によって生成されたアートワークの効率と品質は、人間の芸術家 … 続きを読む
SkillWeaver: Web Agents can Self-Improve by Discovering and Honing Skills
要約 複雑な環境で生き残り、繁栄するために、人間は環境探査、経験の階層的な抽象化 … 続きを読む
GenDoP: Auto-regressive Camera Trajectory Generation as a Director of Photography
要約 カメラの軌跡の設計は、ビデオ制作において重要な役割を果たし、監督の意図を伝 … 続きを読む
カテゴリー: cs.CV
GenDoP: Auto-regressive Camera Trajectory Generation as a Director of Photography はコメントを受け付けていません
OmniCaptioner: One Captioner to Rule Them All
要約 Omnicaptionerを提案します。これは、さまざまな視覚ドメインにわ … 続きを読む
Are We Done with Object-Centric Learning?
要約 オブジェクト中心の学習(OCL)は、シーン内の他のオブジェクトまたは背景キ … 続きを読む
FlashDepth: Real-time Streaming Video Depth Estimation at 2K Resolution
要約 汎用性の高いビデオ深度推定モデルは、(1)フレーム間で正確で一貫性があり、 … 続きを読む
カテゴリー: cs.CV
FlashDepth: Real-time Streaming Video Depth Estimation at 2K Resolution はコメントを受け付けていません