-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.CV」カテゴリーアーカイブ
Video-3D LLM: Learning Position-Aware Video Representation for 3D Scene Understanding
要約 マルチモーダル大手言語モデル(MLLMS)の急速な進歩は、さまざまなマルチ … 続きを読む
Keyword-Oriented Multimodal Modeling for Euphemism Identification
要約 陶酔感の識別は、「雑草」(e曲表現)を「マリファナ」(ターゲットキーワード … 続きを読む
Fine-Grained Evaluation of Large Vision-Language Models in Autonomous Driving
要約 自律運転(AD)に関するビジョン言語モデル(VLM)の既存のベンチマーク( … 続きを読む
LOCATEdit: Graph Laplacian Optimized Cross Attention for Localized Text-Guided Image Editing
要約 テキスト誘導画像編集は、一般的な構造と背景の忠実度を維持しながら、自然言語 … 続きを読む
TREAD: Token Routing for Efficient Architecture-agnostic Diffusion Training
要約 拡散モデルは、視覚生成の主流のアプローチとして浮上しています。 ただし、こ … 続きを読む
AlignDiff: Learning Physically-Grounded Camera Alignment via Diffusion
要約 正確なカメラのキャリブレーションは、特に複雑な光学歪みが一般的である現実世 … 続きを読む
Learning Multi-modal Representations by Watching Hundreds of Surgical Video Lectures
要約 外科的コンピュータービジョンアプリケーションの最近の進歩は、視覚のみのモデ … 続きを読む
Layer- and Timestep-Adaptive Differentiable Token Compression Ratios for Efficient Diffusion Transformers
要約 拡散変圧器(DITS)は、最先端の(SOTA)画像生成の品質を達成しました … 続きを読む
When Astronomy Meets AI: Manazel For Crescent Visibility Prediction in Morocco
要約 各ヒジュリ月の初めの正確な決定は、宗教的、文化的、および行政目的に不可欠で … 続きを読む