-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.AI」カテゴリーアーカイブ
WordVIS: A Color Worth A Thousand Words
要約 文書の分類は、自動化された文書処理システムにおける重要な要素と考えられてい … 続きを読む
SwiftTry: Fast and Consistent Video Virtual Try-On with Diffusion Models
要約 人と新しい衣服の入力ビデオが与えられた場合、この論文の目的は、時空間の一貫 … 続きを読む
Multi-Head Encoding for Extreme Label Classification
要約 現実世界のインスタンスのカテゴリの数は通常膨大であり、各インスタンスには複 … 続きを読む
GAF: Gaussian Avatar Reconstruction from Monocular Videos via Multi-view Diffusion
要約 私たちは、スマートフォンなどの汎用デバイスでキャプチャされた単眼ビデオから … 続きを読む
DeepSeek-VL2: Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding
要約 ここでは、大規模な専門家混合 (MoE) ビジョン言語モデルの高度なシリー … 続きを読む
BrushEdit: All-In-One Image Inpainting and Editing
要約 画像編集は、反転ベースの方法と命令ベースの方法の両方を使用した拡散モデルの … 続きを読む
Iris: Breaking GUI Complexity with Adaptive Focus and Self-Refining
要約 Web ページ、ソフトウェア アプリケーション、オペレーティング システム … 続きを読む
A dual contrastive framework
要約 現在のマルチモーダル タスクでは、モデルは通常、領域キャプションなどのタス … 続きを読む
Apollo: An Exploration of Video Understanding in Large Multimodal Models
要約 ビデオ認識機能は大規模マルチモーダル モデル (LMM) に急速に統合され … 続きを読む