-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.CV」カテゴリーアーカイブ
ChromaFormer: A Scalable and Accurate Transformer Architecture for Land Cover Classification
要約 センチネルなどのシステムからのリモートセンシング画像は、約10メートルの解 … 続きを読む
Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models
要約 DeepSeek-R1-Zeroは、補強学習(RL)を通じて純粋にLLMS … 続きを読む
VAGUE: Visual Contexts Clarify Ambiguous Expressions
要約 人間のコミュニケーションは、多くの場合、曖昧さを解決するために視覚的な手が … 続きを読む
Silent Hazards of Token Reduction in Vision-Language Models: The Hidden Impact on Consistency
要約 ビジョン言語モデル(VLM)は視覚的な推論に優れていますが、多くの場合、高 … 続きを読む
KinMo: Kinematic-aware Human Motion Understanding and Generation
要約 現在の人間のモーション合成フレームワークは、グローバルなアクションの説明に … 続きを読む
Q-PETR: Quant-aware Position Embedding Transformation for Multi-View 3D Object Detection
要約 カメラベースのマルチビュー3D検出は、低コストと幅広い適用性により、自律運 … 続きを読む
GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent Training
要約 検証可能な結果報酬(RLVR)による補強学習は、大規模な言語モデル(LLM … 続きを読む
Prediction of Frozen Region Growth in Kidney Cryoablation Intervention Using a 3D Flow-Matching Model
要約 この研究では、腎臓の凍結アブレーション中の凍結領域(氷玉)の進行を予測する … 続きを読む
Forgotten Polygons: Multimodal Large Language Models are Shape-Blind
要約 ビジョン言語のタスクでのパフォーマンスが強いにもかかわらず、マルチモーダル … 続きを読む
GraPE: A Generate-Plan-Edit Framework for Compositional T2I Synthesis
要約 テキストからイメージ(T2I)の生成は、拡散モデルで大きな進歩を遂げており … 続きを読む
カテゴリー: cs.CV
GraPE: A Generate-Plan-Edit Framework for Compositional T2I Synthesis はコメントを受け付けていません