-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.CV」カテゴリーアーカイブ
Reanimating Images using Neural Representations of Dynamic Stimuli
要約 コンピュータービジョンモデルは静的な画像認識で信じられないほどの進歩を遂げ … 続きを読む
AvatarArtist: Open-Domain 4D Avatarization
要約 この作品は、任意のスタイルでポートレートイメージから4Dアバターを作成する … 続きを読む
カテゴリー: cs.CV
AvatarArtist: Open-Domain 4D Avatarization はコメントを受け付けていません
FullDiT: Multi-Task Video Generative Foundation Model with Full Attention
要約 現在のビデオ生成基盤モデルは、主にテキストからビデオへのタスクに焦点を当て … 続きを読む
カテゴリー: cs.CV
FullDiT: Multi-Task Video Generative Foundation Model with Full Attention はコメントを受け付けていません
From My View to Yours: Ego-Augmented Learning in Large Vision Language Models for Understanding Exocentric Daily Living Activities
要約 大規模なビジョン言語モデル(LVLMS)は、ビデオ理解における印象的な能力 … 続きを読む
カテゴリー: cs.CV
From My View to Yours: Ego-Augmented Learning in Large Vision Language Models for Understanding Exocentric Daily Living Activities はコメントを受け付けていません
CoLLM: A Large Language Model for Composed Image Retrieval
要約 構成された画像検索(CIR)は、マルチモーダルクエリに基づいて画像を取得す … 続きを読む
SuperFlow++: Enhanced Spatiotemporal Consistency for Cross-Modal Data Pretraining
要約 LIDARの表現学習は、費用と労働集約的な人間の注釈への依存を減らすための … 続きを読む
Learning 3D Object Spatial Relationships from Pre-trained 2D Diffusion Models
要約 事前に訓練された2D拡散モデルから合成的に生成された3Dサンプルを活用する … 続きを読む
カテゴリー: cs.CV
Learning 3D Object Spatial Relationships from Pre-trained 2D Diffusion Models はコメントを受け付けていません
PartRM: Modeling Part-Level Dynamics with Large Cross-State Reconstruction Model
要約 現在の観察と行動から将来の状態を予測する世界モデルに関心が高まるにつれて、 … 続きを読む
カテゴリー: cs.CV
PartRM: Modeling Part-Level Dynamics with Large Cross-State Reconstruction Model はコメントを受け付けていません
EventFly: Event Camera Perception from Ground to the Sky
要約 イベントベースの密集した知覚におけるクロスプラットフォーム適応は、車両、ド … 続きを読む
MC-LLaVA: Multi-Concept Personalized Vision-Language Model
要約 現在のビジョン言語モデル(VLM)は、視覚的な質問応答など、さまざまなタス … 続きを読む