-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.CV」カテゴリーアーカイブ
Benchmarking the Robustness of Optical Flow Estimation to Corruptions
要約 オプティカル フロー推定は、自動運転やビデオ編集で広く使用されています。 … 続きを読む
Implementation of Real-Time Lane Detection on Autonomous Mobile Robot
要約 この論文では、自律移動ロボットへの学習ベースの車線検出アルゴリズムの実装に … 続きを読む
VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection
要約 Large Vision Language Models (LVLM) の … 続きを読む
Continual SFT Matches Multimodal RLHF with Negative Supervision
要約 マルチモーダル RLHF は通常、視覚言語モデル (VLM) の理解を継続 … 続きを読む
Harlequin: Color-driven Generation of Synthetic Data for Referring Expression Comprehension
要約 参照表現理解 (REC) は、自然言語表現によってシーン内の特定のオブジェ … 続きを読む
Fine-Grained Alignment in Vision-and-Language Navigation through Bayesian Optimization
要約 この論文では、ロボットが自然言語の指示に基づいて現実的な 3D 環境をナビ … 続きを読む
VisGraphVar: A Benchmark Generator for Assessing Variability in Graph Analysis Using Large Vision-Language Models
要約 Large Vision-Language Model (LVLM) の急 … 続きを読む
Prioritize Denoising Steps on Diffusion Model Preference Alignment via Explicit Denoised Distribution Estimation
要約 拡散モデルはテキストから画像への生成において目覚ましい成功を収めており、こ … 続きを読む
ReVisionLLM: Recursive Vision-Language Model for Temporal Grounding in Hour-Long Videos
要約 大規模言語モデル (LLM) は、長いテキストから情報を取得することに優れ … 続きを読む
HistoEncoder: a digital pathology foundation model for prostate cancer
要約 基盤モデルは、複雑なパターンを区別するために大量のデータでトレーニングされ … 続きを読む