-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
投稿者「jarxiv」のアーカイブ
Improving Video Generation with Human Feedback
要約 ビデオ生成は、修正されたフロー技術によって大幅な進歩を遂げましたが、スムー … 続きを読む
Truncated Consistency Models
要約 一貫性モデルが最近導入され、初期ノイズからの確率フローオード(PF ODE … 続きを読む
Temporal Preference Optimization for Long-Form Video Understanding
要約 ビデオの大規模なマルチモーダルモデル(ビデオLMMS)の大幅な進歩にもかか … 続きを読む
IMAGINE-E: Image Generation Intelligence Evaluation of State-of-the-art Text-to-Image Models
要約 拡散モデルの急速な発展により、テキストからイメージ(T2I)モデルは大きな … 続きを読む
GeoPixel: Pixel Grounding Large Multimodal Model in Remote Sensing
要約 大規模なマルチモーダルモデル(LMMS)の最近の進歩は、視覚的理解と対話の … 続きを読む
カテゴリー: cs.CV
GeoPixel: Pixel Grounding Large Multimodal Model in Remote Sensing はコメントを受け付けていません
Towards Robust Multimodal Open-set Test-time Adaptation via Adaptive Entropy-aware Optimization
要約 テスト時間適応(TTA)は、トレーニングとテストデータの間の分布シフトに対 … 続きを読む
Can We Generate Images with CoT? Let’s Verify and Reinforce Image Generation Step by Step
要約 思考連鎖 (CoT) 推論は、複雑な理解タスクに取り組むために、大規模なモ … 続きを読む
CRPO: Confidence-Reward Driven Preference Optimization for Machine Translation
要約 大規模言語モデル (LLM) は、自然言語処理タスクにおいて大きな可能性を … 続きを読む
Fast3R: Towards 3D Reconstruction of 1000+ Images in One Forward Pass
要約 マルチビュー3D再構成は、特に多様な視点で正確でスケーラブルな表現を必要と … 続きを読む